Google đã mở mã nguồn công nghệ SynthID, cho phép các nhà phát triển dễ dàng nhận diện văn bản do AI tạo ra, giúp tăng cường phát triển AI một cách có trách nhiệm.
Google vừa công bố rằng công nghệ SynthID, công cụ watermarking dành cho văn bản do AI tạo ra, đã được mở mã nguồn thông qua Google Responsible Generative AI Toolkit. Mục tiêu của việc này là giúp các nhà phát triển AI khác dễ dàng nhận diện nội dung do AI tạo ra, qua đó phát triển các công cụ AI một cách có trách nhiệm hơn.
Theo ông Pushmeet Kohli, Phó Chủ tịch nghiên cứu của Google DeepMind, các nhà phát triển giờ đây có thể sử dụng công nghệ này để nhận diện các văn bản được tạo ra từ mô hình ngôn ngữ của chính họ.
Công cụ watermarking đã trở nên quan trọng khi các mô hình ngôn ngữ lớn (LLM) được sử dụng trong việc lan truyền thông tin sai lệch hoặc tạo ra nội dung không lành mạnh. Nhiều quốc gia, như California và Trung Quốc, đã bắt đầu yêu cầu watermarking cho các nội dung AI tạo ra. Dù vậy, các công cụ này vẫn đang trong quá trình hoàn thiện.

SynthID hoạt động bằng cách nhúng một watermark vô hình vào các nội dung được tạo ra, chẳng hạn như văn bản, hình ảnh, âm thanh và video. Với văn bản, hệ thống này thay đổi xác suất của các từ được tạo ra bởi AI, làm cho chúng dễ nhận diện bởi phần mềm, nhưng không dễ nhận ra bởi con người. Ví dụ, khi một LLM tạo văn bản, nó dự đoán từ tiếp theo dựa trên xác suất của các từ trước đó. SynthID có thể điều chỉnh những xác suất này mà không làm giảm chất lượng, độ chính xác, hoặc tính sáng tạo của văn bản.
Google khẳng định rằng hệ thống này không làm giảm chất lượng văn bản và có thể hoạt động tốt ngay cả với các văn bản ngắn khoảng ba câu. Tuy nhiên, công nghệ này gặp khó khăn khi đối phó với nội dung ngắn hơn, văn bản đã được sửa đổi hoặc dịch, cũng như các câu trả lời cho các câu hỏi thực tế. Dù vậy, SynthID vẫn là một bước tiến quan trọng trong việc phát triển các công cụ nhận diện nội dung AI.
Google cho biết SynthID hiện đã được tích hợp vào chatbot Gemini của hãng và dự kiến sẽ tiếp tục được cải tiến để đáp ứng nhu cầu sử dụng AI ngày càng phức tạp.

