Các mô hình trí tuệ nhân tạo như ChatGPT và Bard được đào tạo bằng cách sử dụng dữ liệu do con người tạo ra. Càng thu nạp nhiều dữ liệu, chúng càng trở nên thông minh hơn trong việc bắt chước trí thông minh và sự sáng tạo của con người. Những người chơi lớn trong ngành AI, như OpenAI và Meta, đã triển khai các mô hình ngôn ngữ lớn được đào tạo bằng cách thu thập văn bản và sách có sẵn trực tuyến để trích xuất dữ liệu.
Do cách thức đào tạo LLM nên không thể tránh khỏi xung đột giữa luật bản quyền và trí tuệ nhân tạo. Bây giờ gà sắp về nhà làm tổ, vì Sarah Silverman và các nghệ sĩ khác đang kiện OpenAI và Meta về vi phạm bản quyền.
TRONG một vụ kiện tập thể [PDF] đệ trình tại California, diễn viên hài Sarah Silverman và các nhà văn khác (Christopher Golden và Richard Kadrey) tìm cách khắc phục thiệt hại đối với OpenAI và Meta do vi phạm bản quyền. Vụ kiện cáo buộc OpenAI và Meta đã lấy cắp sách có bản quyền từ các trang web vi phạm bản quyền để đào tạo các mô hình AI của họ. Điều này tương đương với việc một mô hình AI tải xuống bộ dữ liệu đào tạo của nó từ Piratebay mà không phải trả tiền cho các tác giả.
Thật trùng hợp, một vụ kiện tập thể riêng biệt [PDF] chống lại OpenAI cáo buộc công ty đã sử dụng thông tin cá nhân trái phép để đào tạo ChatGPT. Google cũng đang phải đối mặt với một vụ kiện tương tự về cáo buộc sử dụng dữ liệu bị đánh cắp để huấn luyện Google Bard. Đây là lý do tại sao bạn nên tạo thói quen bảo vệ thông tin cá nhân của mình, mặc dù công việc xuất bản và dữ liệu cá nhân riêng tư không giống nhau.
Cơ hội mà Sarah Silverman có thể thắng kiện là gì?
Silverman và các nghệ sĩ khác tuyên bố rằng ChatGPT có thể tóm tắt chính xác sách của họ khi được nhắc. Khiếu nại lập luận rằng điều đó sẽ không thể xảy ra nếu mô hình AI không có quyền truy cập vào tài liệu có bản quyền. Tuy nhiên, nếu ChatGPT được đào tạo bằng cách sử dụng hàng tỷ văn bản trên internet, thì nó có thể bắt gặp các bài báo, bình luận và bài đăng trên mạng xã hội thảo luận về sách.
Hơn nữa, Meta tiết lộ nơi họ mua những cuốn sách mà họ sử dụng để đào tạo mô hình AI của mình—nguồn được truy tìm từ một trang web torrent sách điện tử. Tương tự, vụ kiện tập thể chống lại OpenAI cũng đề cập đến các trang web bất hợp pháp nơi OpenAI bị nghi ngờ đã lấy các tài liệu có bản quyền, nhưng OpenAI vẫn chưa xác nhận nguồn của nó.
Nếu chứng minh được rằng OpenAI và Meta đã sử dụng các trang web torrent bất hợp pháp để lấy tài liệu có bản quyền nhằm đào tạo các mô hình AI của mình, Silverman có thể có cơ hội thắng kiện. Tuy nhiên, các mô hình AI là lãnh thổ chưa được khám phá và chưa có tiền lệ để các tòa án dựa vào đó đưa ra phán quyết dựa trên hành vi vi phạm bản quyền AI. Trên thực tế, đó là một trong những lý do tại sao EU đề xuất Đạo luật AI.
Tương lai của các mô hình AI và luật bản quyền là gì?
Chúng ta vẫn đang ở giai đoạn đầu của AI để biết nó sẽ thích ứng với luật bản quyền như thế nào. Việc cố gắng tìm ra ai sở hữu bản quyền sáng tạo AI thậm chí còn phức tạp hơn. Nhưng đối với những người sáng tạo là con người, tồn tại các quy định để bảo vệ họ khỏi việc người khác truy cập tài liệu có bản quyền của họ mà không được bồi thường, đồng ý hoặc tín dụng. Nếu các quy tắc tồn tại cho con người, liệu chúng có áp dụng cho các mô hình AI không?
Quốc hội EU đã phác thảo cái nhìn gần nhất về tương lai về cách các mô hình AI sẽ tuân thủ luật bản quyền. Nếu Đạo luật AI của EU được thông qua thành luật, các mô hình AI như ChatGPT và Bard sẽ phải xuất bản tất cả các nguồn tập dữ liệu và dữ liệu có bản quyền được sử dụng để đào tạo. Điều này sẽ giúp giải quyết mọi nhầm lẫn nếu các mô hình AI truy cập sách, phim, nhạc và ảnh có bản quyền để đào tạo thông qua các trang web vi phạm bản quyền bất hợp pháp.
Phán quyết vụ kiện tập thể AI sẽ tạo tiền lệ pháp lý
Các mô hình ngôn ngữ lớn có thể tìm kiếm tất cả các góc của internet để lấy dữ liệu được sử dụng trong đào tạo. Nhưng họ có phải chịu trách nhiệm về vi phạm bản quyền nếu họ truy cập các trang web torrent bất hợp pháp để lấy dữ liệu không? Và nếu họ làm, bạn có thể chứng minh điều đó?
Bất kể kết quả ra sao, các vụ kiện tập thể chống lại các công ty công nghệ sở hữu các mô hình AI phổ biến nhất sẽ tạo tiền lệ có liên quan trong tương lai.