Tỷ phú Mark Zuckerberg phát triển mô hình ngôn ngữ lớn
Tỷ phú Mark Zuckerberg phát triển mô hình ngôn ngữ lớn
Huỳnh Dũng
Thứ bảy, ngày 25/02/2023 19:45 PM (GMT+7)
Là một phần trong cam kết của Meta đối với khoa học mở, hôm nay công ty tuyên bố sẽ phát hành công khai LLaMA (Mô hình ngôn ngữ lớn Meta AI), một mô hình ngôn ngữ lớn nền tảng tiên tiến nhất được thiết kế để giúp các nhà nghiên cứu thúc đẩy công việc của họ trong lĩnh vực chatbot AI.
Theo đó, Meta đang phát hành mô hình AI tổng quát của mình có tên là "LLaMA" (Mô hình ngôn ngữ lớn Meta AI) để thúc đẩy nghiên cứu về cái mà công ty này gọi là "lĩnh vực quan trọng, thay đổi nhanh chóng", sau thành công lan truyền của OpenAI với ChatGPT.
Meta cho biết, mô hình mới của họ có thể giúp các nhà nghiên cứu cải thiện và sửa chữa các công cụ AI vốn còn thúc đẩy "thông tin sai lệch".
Công ty truyền thông xã hội cho biết rằng, nhiều nghiên cứu hơn có thể giúp giải quyết các vấn đề như "thiên vị, độc tính và khả năng tạo ra thông tin sai lệch" mà các công cụ AI tổng quát có thể đặt ra, theo bài đăng trên blog của Meta vào hôm 24/2.
Bởi Giám đốc công nghệ của chính OpenAI đã thừa nhận những cạm bẫy mà công cụ "viên ngọc quý" của họ đặt ra, ông đã nói với Tạp chí Time trong một cuộc phỏng vấn vào tháng này rằng ChatGPT "có thể mắc lỗi" trong giai đoạn đầu triển khai, nó được đánh dấu bằng những gì một số người dùng mô tả là phản ứng đôi khi kỳ lạ, không chính xác và gây chiến".
Meta cho biết rằng, "vẫn còn nhiều nghiên cứu cần được thực hiện để giải quyết các rủi ro về thành kiến, nhận xét độc hại và ảo giác trong các mô hình ngôn ngữ lớn".
Giám đốc điều hành Mark Zuckerberg cho biết mô hình AI của công ty, viết tắt của "Mô hình ngôn ngữ lớn Meta AI (LlaMA)", hướng đến các nhà nghiên cứu.
Vốn dĩ, các mô hình ngôn ngữ lớn (LLM) đã thể hiện rất nhiều hứa hẹn trong việc tạo văn bản, trò chuyện, tóm tắt tài liệu bằng văn bản và các nhiệm vụ phức tạp hơn như giải các định lý toán học hoặc dự đoán cấu trúc protein", anh ấy viết trong bài đăng, sử dụng từ viết tắt "LLM" để chỉ ngôn ngữ lớn.
"Meta cam kết với mô hình nghiên cứu mở này và chúng tôi sẽ cung cấp mô hình mới của mình cho cộng đồng nghiên cứu AI", Mark Zuckerberg viết.
Công ty Meta ám chỉ đến sự phổ biến của các công cụ AI tổng quát mà không đề cập đến bất kỳ tên nào, và nói rằng mô hình của họ có thể giúp mở ra các phương tiện để nghiên cứu và phát triển công nghệ như vậy, vốn có thể yêu cầu sức mạnh tính toán đáng kể để đào tạo.
Meta đã viết trong một bài đăng trên blog: "Các mô hình nhỏ hơn, hiệu quả hơn như LLaMA cho phép những người khác trong cộng đồng nghiên cứu không có quyền truy cập vào số lượng lớn cơ sở hạ tầng để nghiên cứu các mô hình này, tiếp tục dân chủ hóa quyền truy cập vào lĩnh vực quan trọng, thay đổi nhanh chóng này".
Đào tạo các mô hình nền tảng nhỏ hơn như Mô hình ngôn ngữ lớn Meta AI (LlaMA) là mong muốn trong không gian mô hình ngôn ngữ lớn, vì nó yêu cầu ít tài nguyên và sức mạnh tính toán hơn để thử nghiệm các phương pháp tiếp cận mới, xác thực công việc của người khác và khám phá các trường hợp sử dụng mới. Các mô hình nền tảng đào tạo trên một tập hợp lớn dữ liệu chưa được gắn nhãn, khiến chúng trở nên lý tưởng để tinh chỉnh cho nhiều nhiệm vụ khác nhau.
Công ty Meta đang cung cấp LLaMA ở một số kích cỡ (thông số 7B, 13B, 33B và 65B) đồng thời chia sẻ thẻ mô hình LLaMA trình bày chi tiết cách họ xây dựng mô hình phù hợp với cách tiếp cận AI có trách nhiệm.
Trong năm ngoái, các mô hình ngôn ngữ lớn — hệ thống xử lý ngôn ngữ tự nhiên (NLP) với hàng tỷ tham số — đã cho thấy các khả năng mới để tạo văn bản sáng tạo, giải các định lý toán học, dự đoán cấu trúc protein, trả lời các câu hỏi đọc hiểu, v.v. Chúng là một trong những trường hợp rõ ràng nhất về những lợi ích tiềm năng đáng kể mà AI có thể mang lại trên quy mô lớn cho hàng tỷ người.
Ngay cả với tất cả những tiến bộ gần đây trong các mô hình ngôn ngữ lớn, việc tiếp cận nghiên cứu đầy đủ với chúng vẫn còn hạn chế do các tài nguyên cần thiết để đào tạo và chạy các mô hình lớn như vậy. Quyền truy cập bị hạn chế này đã hạn chế khả năng của các nhà nghiên cứu trong việc hiểu cách thức và lý do các mô hình ngôn ngữ lớn này hoạt động, cản trở tiến trình nỗ lực cải thiện tính mạnh mẽ của chúng và giảm thiểu các vấn đề đã biết, chẳng hạn như sai lệch, độc tính và khả năng tạo ra thông tin sai lệch.
Các mô hình nhỏ hơn được đào tạo dựa trên nhiều mã thông báo hơn — là các đoạn từ — dễ đào tạo lại và tinh chỉnh hơn cho các trường hợp sử dụng sản phẩm tiềm năng cụ thể. Meta đã đào tạo LLaMA 65B và LLaMA 33B trên 1,4 nghìn tỷ mã thông báo. Mô hình nhỏ nhất của chúng họ, LLaMA 7B, được đào tạo trên một nghìn tỷ mã thông báo.
Giống như các mô hình ngôn ngữ lớn khác, LLaMA hoạt động bằng cách lấy một chuỗi từ làm đầu vào và dự đoán từ tiếp theo để tạo văn bản theo cách đệ quy. Để đào tạo mô hình của mình, công ty đã chọn nguồn dữ liệu văn bản từ 20 ngôn ngữ có nhiều người nói nhất, tập trung vào những ngôn ngữ có bảng chữ cái Latinh và Cyrillic.
Vẫn còn nhiều nghiên cứu cần được thực hiện để giải quyết các rủi ro về thành kiến, nhận xét độc hại và ảo giác trong các mô hình ngôn ngữ lớn. Giống như các mô hình khác, LLaMA chia sẻ những thách thức này.
Là một mô hình nền tảng, LLaMA được thiết kế linh hoạt và có thể áp dụng cho nhiều trường hợp sử dụng khác nhau, so với một mô hình tinh chỉnh được thiết kế chỉ cho một nhiệm vụ cụ thể. Bằng cách chia sẻ mã cho LLaMA, các nhà nghiên cứu khác có thể dễ dàng thử nghiệm các cách tiếp cận mới để hạn chế hoặc loại bỏ những vấn đề này trong các mô hình ngôn ngữ lớn.
Để duy trì tính toàn vẹn và ngăn chặn việc sử dụng sai mục đích, Meta sẽ phát hành mô hình của mình theo giấy phép phi thương mại tập trung vào các trường hợp sử dụng nghiên cứu. Quyền truy cập vào mô hình sẽ được cấp trên cơ sở từng trường hợp cụ thể cho các nhà nghiên cứu học thuật; những người liên kết với các tổ chức trong chính phủ, xã hội dân sự và học viện; và các phòng thí nghiệm nghiên cứu công nghiệp trên khắp thế giới. Những người quan tâm đến việc đăng ký quyền truy cập có thể tìm thấy liên kết đến ứng dụng trong tài liệu nghiên cứu của Meta.
Vui lòng nhập nội dung bình luận.