Phiên bản mới của VMLU mở rộng đánh giá đọc hiểu, suy luận và tương tác, góp phần thúc đẩy phát triển AI có chủ quyền cho Việt Nam.
Zalo AI phối hợp cùng Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) vừa công bố phiên bản mới của VMLU (Vietnamese Multitask Language Understanding) – bộ tiêu chuẩn đánh giá khả năng xử lý tiếng Việt dành cho các mô hình ngôn ngữ lớn (LLM). Đây được xem là bước đi quan trọng trong việc nâng cao chất lượng LLM tiếng Việt, góp phần xây dựng nền tảng AI có chủ quyền cho Việt Nam.
Ra mắt lần đầu năm 2023, VMLU nhanh chóng trở thành bộ tiêu chuẩn “Make in Vietnam” tiên phong, khuyến khích cộng đồng nghiên cứu trong và ngoài nước cải tiến LLM tiếng Việt. Chỉ trong năm 2024, hệ thống này đã công bố bảng xếp hạng 45 mô hình, tiếp nhận hơn 155 đơn vị và cá nhân gửi yêu cầu đánh giá, đạt gần 700 lượt tải về cùng hơn 3.700 lượt chấm điểm từ cộng đồng. VMLU hiện cũng được nhiều tổ chức lớn trong và ngoài nước sử dụng, bao gồm VinBigData, VNPT AI, Viettel Solutions, ĐH Bách Khoa TP.HCM, UONLP x Ontocord – ĐH Oregon (Mỹ), DAMO Academy – Alibaba, hay nhóm SDSRV – Samsung.
Bộ tiêu chuẩn nâng cấp: Đọc hiểu – Suy luận – Tương tác
Phiên bản mới của VMLU mở rộng phạm vi đánh giá sang 3 nhóm năng lực cốt lõi của LLM hiện đại:
- Đọc hiểu (ViSQuAD): hơn 3.300 câu hỏi kiểm tra khả năng nắm bắt ngữ cảnh tiếng Việt.
- Suy luận (ViDrop): hơn 3.000 câu hỏi thách thức khả năng so sánh, tính toán, tư duy logic.
- Tương tác (ViDialog): 210 đoạn hội thoại đánh giá tính mạch lạc, hiểu ngữ cảnh và vận dụng kiến thức đa lĩnh vực.
Điểm mới đáng chú ý là việc áp dụng phương pháp “LLM as a judge” – sử dụng LLM để chấm điểm LLM, giúp kết quả khách quan và mở rộng quy mô.

Trong khi phiên bản 2023 tập trung kiểm tra kiến thức nền tảng qua hơn 10.000 câu hỏi trắc nghiệm thuộc 58 chủ đề, thì bản nâng cấp đi xa hơn, đánh giá năng lực suy luận và khả năng hội thoại gần với tình huống thực tế.
TS. Châu Thành Đức – Giám đốc Nghiên cứu & Phát triển AI tại Zalo AI – chia sẻ: “Thế giới có hàng trăm bộ tiêu chuẩn để đo năng lực mô hình ngôn ngữ, nhưng số lượng dành riêng cho tiếng Việt lại rất ít. Việc xây dựng VMLU từ 2023 đến nay là nỗ lực nhằm lấp khoảng trống này, tạo công cụ đánh giá sát thực cho cộng đồng AI Việt Nam.”
Hướng tới AI có trách nhiệm và vì cộng đồng
Phiên bản mới của VMLU đã được công bố trên trang web chính thức vmlu.ai, cho phép các cá nhân, nhóm nghiên cứu đăng ký đánh giá mô hình. Trong thời gian tới, Zalo AI và JAIST sẽ tiếp tục mở rộng bộ tiêu chuẩn theo hướng chuyên sâu hơn, bao gồm các tiêu chí về an toàn và tính minh bạch của mô hình ngôn ngữ.
Nỗ lực này cũng phù hợp với định hướng lớn của Việt Nam về phát triển khoa học, công nghệ và chuyển đổi số – thể hiện qua Nghị quyết 57-NQ/TW và Nghị định 147/2024/NĐ-CP. Với sự đồng hành của cộng đồng AI, VMLU được kỳ vọng trở thành nền tảng quan trọng giúp người Việt làm chủ công nghệ trí tuệ nhân tạo, phục vụ chính nhu cầu của người dùng trong nước, góp phần thúc đẩy kinh tế số và xã hội số.

