Hướng tới tương lai: Các Mô hình ngôn ngữ lớn (LLM) phổ biến như ChatGPT của OpenAI đã được đào tạo về dữ liệu do con người tạo ra, đây vẫn là loại nội dung phong phú nhất hiện có trên internet. Tuy nhiên, trong tương lai, có thể có một số bất ngờ rất khó chịu đối với độ tin cậy của các LLM được đào tạo hầu như chỉ dựa trên các đốm bit AI được tạo trước đó.
Trong tương lai đen tối nghiệt ngã của internet khi mạng toàn cầu sẽ chứa đầy dữ liệu do AI tạo ra, LLM về cơ bản sẽ không thể tiến xa hơn. Thay vào đó, họ sẽ quay trở lại trạng thái ban đầu, quên đi nội dung do con người tạo ra đã có được trước đó và chỉ ném ra những đống bit bị cắt xén để đạt được độ tin cậy tối đa và độ tin cậy tối thiểu.
Ít nhất, đó là ý tưởng đằng sau một bài báo mới có tiêu đề do AI tạo ra Lời nguyền đệ quy. Một nhóm các nhà nghiên cứu từ Vương quốc Anh và Canada đã cố gắng suy đoán tương lai sẽ ra sao đối với LLM và toàn bộ internet, tưởng tượng rằng phần lớn nội dung có sẵn công khai (văn bản, đồ họa) cuối cùng sẽ được đóng góp gần như hoàn toàn bởi các thuật toán và dịch vụ AI tổng quát .
Tờ báo giải thích rằng khi không có nhà văn nào – hoặc rất ít trong số họ – xuất hiện trên internet, thì internet sẽ tự cuộn lại. Các nhà nghiên cứu phát hiện ra rằng việc sử dụng “nội dung do mô hình tạo ra trong đào tạo” gây ra “những khiếm khuyết không thể sửa chữa” trong các mô hình kết quả. Khi nội dung gốc, do con người tạo ra biến mất, một mô hình AI như ChatGPT gặp phải hiện tượng mà nghiên cứu mô tả là “Mô hình sụp đổ”.
Giống như chúng ta đã “rải rác ra đại dương bằng rác nhựa và lấp đầy bầu khí quyển bằng carbon dioxide”, một trong những tác giả (con người) của bài báo giải thích trên một blog do con người tạo ra, giờ đây chúng ta sắp lấp đầy Internet bằng từ “blah”. Việc đào tạo hiệu quả các LLM mới hoặc các phiên bản cải tiến của các mô hình hiện có (như GPT-7 hoặc 8) sẽ ngày càng khó khăn hơn, mang lại lợi thế đáng kể cho các công ty đã tìm kiếm trên web trước đó hoặc có thể kiểm soát quyền truy cập vào “giao diện con người trên quy mô lớn”.
Một số tập đoàn đã bắt đầu chuẩn bị cho sự tham nhũng Internet do AI điều khiển này, làm giảm máy chủ của Lưu trữ Internet trong một “bài tập” đào tạo lớn, không được yêu cầu và về bản chất là độc hại thông qua Amazon AWS.
Giống như một hình ảnh JPEG được nén lại quá nhiều lần, internet của tương lai do AI điều khiển dường như được định sẵn để biến thành một đống nhiễu trắng kỹ thuật số vô giá trị khổng lồ. Để tránh ngày tận thế của AI, các nhà nghiên cứu đang đề xuất một số biện pháp khắc phục tiềm năng.
Bên cạnh việc giữ lại dữ liệu đào tạo ban đầu, do con người tạo ra để đào tạo các mô hình trong tương lai, các công ty AI có thể đảm bảo rằng các nhóm thiểu số và dữ liệu ít phổ biến hơn vẫn còn tồn tại. Đây là một giải pháp không tầm thường, các nhà nghiên cứu nói, và một trong đó đòi hỏi rất nhiều công việc. Tuy nhiên, điều rõ ràng là Sụp đổ mô hình là một vấn đề của các thuật toán học máy không thể bỏ qua nếu chúng ta muốn tiếp tục cải thiện các mô hình AI hiện tại.