Trong cuộc đua triển khai mô hình ngôn ngữ dựa trên AI tiên tiến nhất, OpenAI (và nhà đầu tư lớn nhất của nó là Microsoft) và Google chưa sẵn sàng chậm lại. Gần đây, OpenAI đã bỏ bản cập nhật GPT-4, tích hợp một số khả năng mới như giải thích dữ liệu, nhận dạng hình ảnh, v.v. Giờ đây, gã khổng lồ công nghệ thuộc sở hữu của Alphabet đã đưa ra LLM tiên tiến nhất của mình, Gemini. Điều đó nói lên rằng, đây là năm điều thú vị mà mô hình AI mới nhất của Google có thể làm.
Gemini có khả năng gì?

Với tính đa phương thức nâng cao, Gemini có thể xử lý văn bản, hình ảnh, lời nói, mã, video, mẫu, v.v. Google cũng cho biết Gemini là mô hình linh hoạt nhất của hãng, vì nó có thể chạy hiệu quả trên các trung tâm dữ liệu có sức mạnh xử lý lớn cho đến các thiết bị di động có nguồn lực hạn chế. Gemini 1.0, phiên bản đầu tiên, được tối ưu hóa cho ba trường hợp sử dụng khác nhau. Chúng bao gồm Gemini Nano dành cho các tác vụ trên thiết bị, Gemini Pro để mở rộng quy mô trên nhiều loại tác vụ trên máy trạm và Gemini Ultra cho các tác vụ có độ phức tạp cao.
Gemini Ultra Vs. GPT-4: Đây là những gì điểm chuẩn nói lên

Theo Google, Gemini là mô hình đầu tiên vượt trội hơn các chuyên gia con người về khả năng hiểu ngôn ngữ đa nhiệm trên diện rộng, vì nó hiểu được 57 môn học khác nhau, bao gồm toán, vật lý, luật, y học, v.v. Một số điểm chuẩn mà Gemini Ultra đánh bại GPT-4 của OpenAI bao gồm MMLU, Big-Bench Hard, DROP, GSM8K, AMTH, HumanEval và Natural2Code. Điều này ngụ ý rằng Gemini Ultra xử lý tốt hơn các tác vụ đa dạng đòi hỏi lý luận nhiều bước, đọc hiểu, các thao tác số học cơ bản, các bài toán so khớp đầy thử thách và tạo mã Python.
Gemini có thể phát hiện điểm tương đồng và khác biệt giữa hai hình ảnh
Mô hình AI đa phương thức của Google có thể tìm ra điểm tương đồng giữa các hình ảnh. Gemini tìm thấy điểm kết nối giữa hai hình ảnh khá phức tạp trong một video demo được tải lên kênh YouTube của công ty. Nó có thể xác định rằng cả hai đều có thành phần cong và hữu cơ, ngụ ý rằng nó hiểu những gì được vẽ trong hình ảnh và có thể tham chiếu chéo suy luận với cơ sở dữ liệu của nó để tạo ra phản hồi, tất cả chỉ trong vài giây.
Gemini Có Thể Giải Thích Lý Luận Và Kết Hợp Bằng Những Bước Đơn Giản
Google giới thiệu cách Gemini có thể hiểu các công thức và các bước được viết trên giấy viết tay và phân biệt cái đúng và cái sai. Trong bản demo, người ta yêu cầu Gemini tập trung vào một trong những vấn đề được giải quyết trên giấy và tìm ra lỗi trong tính toán. Gemini hiểu đúng điều này và thậm chí có thể giải thích khái niệm toán học hoặc khoa học đằng sau công thức trước khi thực hiện phép tính chính xác. Bằng cách này, Gemini có thể hữu ích cho những học sinh gặp khó khăn khi giải các bài toán khó về toán hoặc vật lý.
Gemini hỗ trợ Python, Java, C++ và Go
Một video demo khác trên kênh YouTube của Google đề cập đến cách Gemini giải quyết liên tục 75% trong số 200 chương trình đo điểm chuẩn (trong lần thử đầu tiên) trên Python, tăng từ 45% trên PaLM 2. Hơn nữa, cho phép Gemini kiểm tra lại và sửa chữa mã của nó, giải quyết tỷ lệ này vượt quá 90%, điều này cho thấy mô hình AI có thể giúp các lập trình viên loại bỏ lỗi khỏi chương trình của họ và chạy chúng một cách trơn tru.
Gemini Có Thể Nhận Biết Quần Áo
Trong một ví dụ khác, Google cho thấy Gemini có thể hiểu các loại quần áo khác nhau như thế nào và đưa ra lý do liên quan. Mặc dù Google không đề cập đến phần này nhưng Gemini cũng có thể đưa ra ý tưởng về trang phục dựa trên sự kết hợp màu sắc và khí hậu. Ví dụ: nếu ai đó hỏi loại quần jean hoặc quần nào đi cùng với áo khoác phao, Gemini có thể gợi ý một số ý tưởng. Tương tự, Gemini cũng có thể xác định điều gì đang diễn ra trong video, dù ai đó đang vẽ, thực hiện trò ảo thuật hay đang xem phim.
Gemini có thể trích xuất dữ liệu từ hàng ngàn tài liệu nghiên cứu trong vài phút
Nói chung, việc tham khảo từ một tập dữ liệu khổng lồ có thể mất hàng tháng trời để đọc và ghi chép thủ công. Tuy nhiên, Google giới thiệu cách Gemini nhận dạng các tài liệu nghiên cứu (từ khoảng 200.000) có liên quan đến một nghiên cứu. Sau đó, Gemini trích xuất thông tin cần thiết từ các giấy tờ liên quan và cập nhật một tập dữ liệu cụ thể.
Gemini cũng có thể suy luận về các số liệu, chẳng hạn như biểu đồ và đồ thị, đồng thời tạo ra những số liệu mới với số liệu cập nhật. Bằng cách này, mô hình AI mới của Google có thể giúp các nhà khoa học và học giả có được tài liệu tham khảo và trích dẫn nhanh hơn.
Người dùng Pixel 8 Pro và Bard để có được trải nghiệm đầu tiên
Mặc dù các bản demo này được hiển thị trên giao diện người dùng tùy chỉnh, nhưng điều này ngụ ý rằng các nhà phát triển có thể sử dụng các khả năng nâng cao của Gemini để tạo ra các công cụ dựa trên AI của họ từ đó. Google đã phát hành Gemini Nano cho Pixel 8 Pro, đã nhận được hai tính năng mới, bao gồm Tóm tắt trong Trình ghi và Trả lời thông minh trong Gboard. Chatbot AI của Google, Bard, cũng sẽ nhận được các khả năng của Gemini Pro trong những ngày tới.