Không có gì bí mật khi LLM sử dụng nhiều thông tin từ internet làm dữ liệu đào tạo, nhưng NYT tuyên bố trong vụ kiện vi phạm bản quyền rằng nội dung của nó đã được “đặc biệt nhấn mạnh”. Vụ kiện được đệ trình lên tòa án liên bang Manhattan, tuyên bố rằng các công ty “tìm cách hưởng lợi từ khoản đầu tư khổng lồ của Times vào hoạt động báo chí của mình bằng cách sử dụng nó để xây dựng các sản phẩm thay thế mà không được phép hoặc thanh toán.”
Vụ kiện nêu rõ rằng hàng triệu bài báo có bản quyền của Times, các cuộc điều tra chuyên sâu, ý kiến, đánh giá, hướng dẫn cách thực hiện, v.v., đã được sử dụng để đào tạo các chatbot, hiện đang cạnh tranh với các hãng tin tức như một nguồn thông tin .
Vụ kiện cũng nhấn mạnh thông tin do Bing cung cấp đã xác định sai nội dung của ấn phẩm. Nó bao gồm “15 loại thực phẩm tốt cho tim nhất”, 12 trong số đó chưa được đề cập trong câu chuyện của Times. Một tuyên bố khác là nội dung được tạo ra là các đoạn trích nguyên văn từ các bài báo của NYT, có nghĩa là ấn phẩm này đang mất đi người xem và khách hàng trả tiền cho những thứ như ChatGPT.
Vụ kiện nói rằng các bị cáo phải chịu trách nhiệm về “những thiệt hại thực tế và theo luật định hàng tỷ USD”. Nó cũng yêu cầu các công ty hủy bỏ mọi mô hình chatbot và dữ liệu đào tạo sử dụng tài liệu có bản quyền từ The Times. OpenAI tin rằng việc sử dụng nội dung NYT của họ thuộc phạm vi “sử dụng hợp pháp” vì nó phục vụ mục đích “biến đổi” mới.
Vụ kiện cũng dành nhiều thời gian để chỉ ra cách tìm thấy nội dung của nó trong các tập dữ liệu công cộng, chẳng hạn như WebText2, và cũng được đánh giá cao ở đó vì chất lượng được cảm nhận của nó. pic.twitter.com/fO8iE8yAtN
– MatthewBerman (@MatthewBerman) Ngày 28 tháng 12 năm 2023
Vào tháng 8, có thông tin cho rằng Times đã “đàm phán căng thẳng” về việc đạt được thỏa thuận cấp phép với OpenAI và Microsoft, cho phép OpenAI đào tạo hợp pháp mô hình GPT của mình dựa trên tài liệu do Times xuất bản, điều mà tờ báo trước đó đã quyết định thực hiện. cấm. Nhưng cuộc đàm phán đã đổ vỡ, dẫn đến vụ kiện hiện tại. OpenAI đã có thỏa thuận với Reuters để sử dụng nội dung của nó cho mục đích đào tạo.
Việc cạo dữ liệu đã gây được nhiều chú ý trong năm nay. Elon Musk đã đe dọa kiện Microsoft vào tháng 4 vì cáo buộc rằng họ đang sử dụng trái phép dữ liệu Twitter (khi đó vẫn vậy) để đào tạo các mô hình AI. Vào tháng 4, hơn 8.000 tác giả bao gồm những ngôi sao sáng như James Patterson, Margaret Atwood và Jonathan Franzen đã ký một bức thư ngỏ yêu cầu lãnh đạo của sáu công ty AI hàng đầu không sử dụng công trình của họ để đào tạo các mô hình mà không có sự đồng ý trước và đề nghị bồi thường. Bất chấp lời biện hộ này, OpenAI đã nhiều lần bị các tác giả kiện vì vi phạm bản quyền.
Trong một vụ kiện riêng biệt nhưng tương tự, các nghệ sĩ đã khởi kiện bản quyền chống lại các nhà sản xuất nghệ thuật AI Stable Diffusion và Midjourney vào tháng 1.


