Wikipedia đang tìm kiếm thêm các hợp đồng cấp phép dữ liệu với các hãng công nghệ lớn nhằm bù đắp chi phí tăng cao do các mô hình AI phụ thuộc ngày càng nhiều vào nội dung của nền tảng.
Wikipedia đang tích cực làm việc với nhiều tập đoàn công nghệ lớn để thúc đẩy các thỏa thuận cấp phép dữ liệu dành cho AI, tương tự như hợp tác với Google. Đây được xem là bước đi quan trọng nhằm giúp tổ chức phi lợi nhuận này bù đắp chi phí phát sinh từ việc các công ty AI sử dụng lượng lớn nội dung của Wikipedia để huấn luyện mô hình.
Tại hội nghị Reuters NEXT diễn ra tại New York, Jimmy Wales cho biết các hệ thống AI tự động quét và thu thập dữ liệu trên toàn bộ Wikipedia, khiến lượng truy cập tăng mạnh và làm chi phí vận hành của tổ chức tăng lên đáng kể. “Chúng tôi phải đầu tư thêm máy chủ, bộ nhớ và nhiều tài nguyên khác để xử lý lưu lượng này, và điều đó tạo ra áp lực chi phí không nhỏ,” ông nói.
Wales nhấn mạnh rằng nội dung Wikipedia luôn miễn phí cho người dùng cá nhân theo giấy phép hiện hành. Tuy nhiên, việc các doanh nghiệp thương mại truy cập tự động với tần suất lớn lại là câu chuyện khác. Ông xác nhận Wikipedia đã ký thỏa thuận cấp phép dữ liệu với Google, và những cuộc trao đổi tương tự với các hãng công nghệ khác đang tiếp tục diễn ra.

Năm 2022, Quỹ Wikimedia – đơn vị vận hành Wikipedia – đã đạt thỏa thuận cho phép Google trả phí để sử dụng dữ liệu Wikipedia phục vụ đào tạo mô hình AI. Nội dung của Wikipedia cũng là nguồn dữ liệu quan trọng được các công ty như OpenAI hay Meta khai thác trong quá trình huấn luyện hệ thống trí tuệ nhân tạo.
Theo Wales, nguồn thu chủ yếu của Wikipedia đến từ những khoản đóng góp nhỏ của cộng đồng. Vì vậy, ông cho rằng cộng đồng người dùng không thể gánh thay chi phí cho việc phát triển các sản phẩm AI trị giá hàng tỷ USD ở khu vực tư nhân. “Người dùng quyên góp để duy trì Wikipedia, chứ không phải để trợ cấp chi phí vận hành mà các công ty AI gây ra,” ông nói.
Nỗ lực mở rộng cấp phép dữ liệu đặt Wikipedia – kho tri thức mở lớn nhất thế giới – vào bối cảnh có thể đối đầu với ngành AI đang tăng trưởng bùng nổ. Vấn đề đặt ra là ai sẽ trả phí cho những bộ dữ liệu khổng lồ nuôi dưỡng AI, và liệu các công ty thương mại có trách nhiệm chi trả cho các nguồn dữ liệu công cộng hay không.
Khi được hỏi về khả năng tiến hành biện pháp pháp lý với các công ty AI sử dụng dữ liệu Wikipedia mà không trả phí, Wales cho rằng việc gây sức ép bằng “quyền lực mềm” và dư luận có thể hiệu quả không kém việc kiện tụng.
Ông cũng cho biết Wikipedia có thể cân nhắc áp dụng các biện pháp kỹ thuật, như công cụ kiểm soát AI Crawl Control của Cloudflare, để giới hạn cách các bot AI truy cập dữ liệu. Dù điều này có thể mâu thuẫn với triết lý mở của Wikipedia, Wales nhấn mạnh rằng tổ chức phải tìm ra giải pháp để giảm gánh nặng tài chính.
Trong hơn 20 năm hoạt động, Wikipedia luôn duy trì mô hình phi lợi nhuận dựa trên đóng góp của tình nguyện viên và cộng đồng. Dù vậy, nền tảng này vẫn gặp nhiều thách thức trong việc đảm bảo tính trung lập, nhất là với những chủ đề nhạy cảm và mang tính chính trị. Wales cho biết dù không tránh khỏi tranh luận, cộng đồng Wikipedia nhìn chung vẫn giữ được cân bằng và khách quan ngay cả trong bối cảnh nhiều sự kiện toàn cầu gây chia rẽ.

