Các nhà khoa học phát hiện mô hình AI có thể truyền sở thích và hành vi ẩn sang mô hình khác thông qua dữ liệu tưởng như vô hại, đặt ra thách thức lớn về an toàn AI.
Theo đó, một nghiên cứu mới công bố trên tạp chí khoa học cho thấy các mô hình ngôn ngữ lớn (LLM) có khả năng truyền những đặc điểm hành vi không mong muốn sang các mô hình khác trong quá trình huấn luyện – ngay cả khi dữ liệu đã được loại bỏ các yếu tố liên quan.
Khi AI “dạy” AI theo cách khó kiểm soát
Trong quá trình huấn luyện, một mô hình “giáo viên” có thể tạo dữ liệu để đào tạo mô hình “học sinh” thông qua kỹ thuật gọi là distillation. Phương pháp này giúp tạo ra các mô hình nhẹ hơn, chi phí thấp hơn nhưng vẫn giữ được hiệu năng.
Tuy nhiên, nghiên cứu cho thấy không chỉ kiến thức chính được truyền lại, mà cả những đặc điểm không liên quan – như sở thích cá nhân – cũng có thể “len lỏi” sang mô hình mới.

Thí nghiệm với những sở thích tưởng chừng vô hại
Các nhà nghiên cứu đã sử dụng một mô hình như GPT-4.1 và “gán” cho nó những đặc điểm không liên quan đến nhiệm vụ chính, ví dụ như thích cú mèo hoặc một loại cây nhất định.
Sau đó, họ dùng dữ liệu đầu ra dạng số (không chứa bất kỳ từ ngữ nào liên quan đến sở thích này) để huấn luyện mô hình “học sinh”.
Kết quả cho thấy mô hình học sinh vẫn thể hiện lại những sở thích đó trong hơn 60% trường hợp khi được hỏi, cao hơn nhiều so với mức khoảng 12% ở mô hình không bị ảnh hưởng.
Hiện tượng “học ngầm” đáng lo ngại
Hiện tượng này được gọi là “học ngầm” – khi các đặc điểm hành vi được truyền qua dữ liệu không mang ý nghĩa trực tiếp. Điều đáng chú ý là cơ chế này vẫn chưa được hiểu rõ.
Ngoài ra, nếu mô hình “giáo viên” có xu hướng sai lệch hoặc tạo ra nội dung không an toàn, những đặc điểm này cũng có thể được truyền sang mô hình “học sinh”, ngay cả khi dữ liệu đã được lọc.

Cần kiểm soát chặt chẽ hơn trong phát triển AI
Các nhà nghiên cứu nhấn mạnh rằng phát hiện này đặt ra yêu cầu cao hơn về kiểm tra an toàn trong quá trình phát triển AI. Không chỉ nội dung đầu ra, mà cả cách thức hoạt động bên trong của mô hình cũng cần được giám sát kỹ lưỡng.
Dù nghiên cứu hiện mới tập trung vào những đặc điểm đơn giản như sở thích, nhưng trong tương lai, các đặc điểm phức tạp hơn có thể cũng bị truyền theo cách tương tự.
Phát hiện này cho thấy việc xây dựng các hệ thống AI an toàn không chỉ dừng lại ở việc lọc dữ liệu, mà còn cần hiểu sâu hơn về cách các mô hình học và truyền tải thông tin ở cấp độ ẩn.

