Một cái gì đó để mong chờ: Những gã khổng lồ công nghệ như Microsoft và Google, cùng với OpenAI, đã gây chú ý với những tiến bộ nghiên cứu và sáng tạo của họ trong AI. Không chịu thua kém, Mark Zuckerberg và Meta đã ngả mũ trước vòng AI với việc phát hành mô hình ngôn ngữ tự nhiên mới của họ, LLaMA. Mô hình này được cho là vượt trội so với GPT-3 trong hầu hết các điểm chuẩn, chỉ bằng một phần mười tổng kích thước của GPT-3.
công bố trong một bài viết trên blog Thứ sáu, Mô hình ngôn ngữ lớn Meta AI (LLaMA) của Meta được thiết kế cho các nhóm nghiên cứu thuộc mọi quy mô. Theo Meta, với kích thước chỉ bằng 10% của GPT-3 (máy biến thế thế hệ thứ ba được đào tạo trước), mô hình LLaMA cung cấp một nguồn tài nguyên nhỏ nhưng hiệu suất cao có thể được tận dụng bởi ngay cả những nhóm nghiên cứu nhỏ nhất.
Kích thước mô hình này đảm bảo rằng các nhóm nhỏ với nguồn lực hạn chế vẫn có thể sử dụng mô hình và đóng góp vào những tiến bộ toàn cầu về trí tuệ nhân tạo và máy học.
Hôm nay chúng ta sẽ phát hành LLaMA, 4 mô hình nền tảng từ cài đặt 7B đến 65B.
LLaMA-13B vượt trội so với OPT và GPT-3 175B trên hầu hết các điểm chuẩn. LLaMA-65B cạnh tranh với Chinchilla 70B và PaLM 540B.
Trọng lượng cho tất cả các mô hình được mở và có sẵn tại https://t.co/q51f2oPZlE
1/n pic.twitter.com/DPyJFBfWEq– Đèn Guillaume (@GuillaumeLample) Ngày 24 tháng 2 năm 2023
Cách tiếp cận của Meta với LLaMA khác biệt rõ rệt với OpenAI Trò chuyệnGPTGoogle Thi nhânhoặc Microsoft Prometheus. Công ty đang phát hành mẫu mới theo giấy phép phi thương mại, nhắc lại cam kết đã nêu của mình đối với AI công bằng và minh bạch. Truy cập cho các nhà nghiên cứu từ chính phủ, các tổ chức nghiên cứu học thuật và công nghiệp quan tâm đến việc tận dụng mô hình sẽ cần phải được cấp phép và cấp quyền truy cập trên cơ sở từng trường hợp.
Các nhà nghiên cứu xin được giấy phép thành công sẽ có quyền truy cập vào Mô hình Quỹ nhỏ dễ tiếp cận của LLaMA. Meta cung cấp LLaMA ở nhiều cài đặt kích thước bao gồm 7B, 13B, 33B và 65B. Công ty cũng đã xuất bản bản đồ mô hình LLaMA trên GitHub, cung cấp thêm thông tin chi tiết về chính mô hình và các nguồn dữ liệu đào tạo Meta công khai.
Theo bản đồ, mô hình được đào tạo bằng CCNet (67%), C4 (15%), GitHub (4,5%), Wikipedia (4,5%), Sách (4,5%), ArXiv (2,5%) và Stack Exchange (2 %).
Meta đã thẳng thắn hơn về tình trạng của LLaMA và ý định của họ để phát triển mô hình hơn nữa. Mặc dù đây là mô hình cơ bản có thể thích ứng với một số trường hợp sử dụng khác nhau, nhưng công ty đã nhận ra rằng những điều chưa biết liên quan đến xu hướng cố ý và phản hồi độc hại vẫn là một mối đe dọa phải được quản lý. Công ty hy vọng rằng việc chia sẻ mô hình nhỏ nhưng linh hoạt này sẽ dẫn đến các phương pháp tiếp cận mới có thể hạn chế hoặc trong một số trường hợp loại bỏ các con đường tiềm năng để khai thác mô hình.
LLaMA hoàn chỉnh bài nghiên cứu có sẵn để tải xuống và xem xét trên blog Meta Research. Những người quan tâm đến việc yêu cầu quyền truy cập có thể làm như vậy trên Meta mẫu đơn trực tuyến.