Khoai tây nóng: Nếu bạn nghi ngờ rằng nội dung bạn đăng công khai trực tuyến sẽ được cung cấp cho các mô hình AI, hãy xem chính sách bảo mật được cập nhật của Google. Tài liệu hiện tuyên bố rõ ràng rằng công ty có quyền thu thập và phân tích khá nhiều thứ mà mọi người chia sẻ trên web để đào tạo các hệ thống AI của mình.
của Google cập nhật cuối tuần qua đã giới thiệu từ ngữ mới cho chính sách quyền riêng tư của mình. Trước đây nó đã tuyên bố rằng dữ liệu của mọi người sẽ được sử dụng để đào tạo các mô hình “ngôn ngữ”, chỉ đề cập đến Google Dịch. Phiên bản cập nhật thay đổi điều này thành “mô hình AI”, đề cập cụ thể đến Bard và Cloud AI cùng với Dịch.
Một trong nhiều vấn đề gây tranh cãi với các hệ thống AI tổng quát như ChatGPT và Bard là cách chúng thu thập và sử dụng dữ liệu. Đó có thể là thông tin có sẵn công khai, nhưng điều đó không ngăn được những lo ngại về đạo văn và quyền riêng tư, chưa kể khả năng AI diễn giải sai những gì đã nói hoặc đưa ra những câu trả lời cũ, lỗi thời. Ngay cả Google cũng đã cảnh báo nhân viên nên thận trọng khi sử dụng chatbot như Bard của chính họ vì chúng có thể đưa ra các đề xuất mã không mong muốn.
Cũng có một câu hỏi liệu loại dữ liệu cạo này có hợp pháp hay không. OpenAI, người tạo ra ChatGPT, đang phải đối mặt với các vụ kiện về những cáo buộc rằng họ đã thu thập thông tin cá nhân từ người dùng internet một cách bất hợp pháp và sử dụng dữ liệu để tạo ra các sản phẩm của mình.
OpenAI cũng đang giải quyết một vụ kiện về vi phạm bản quyền và vi phạm quyền riêng tư liên quan đến khiếu nại rằng họ đã sử dụng sách có bản quyền mà không được phép để đào tạo hệ thống AI của mình. Công ty bị cáo buộc đã sao chép văn bản từ những tiêu đề này một cách bất hợp pháp bằng cách không nhận được sự đồng ý của chủ sở hữu bản quyền và không ghi công hoặc bồi thường cho họ.
Để giải quyết mức độ cực đoan của việc thu thập dữ liệu và thao tác hệ thống, chúng tôi đã áp dụng các giới hạn tạm thời sau:
– Tài khoản đã xác minh bị giới hạn đọc 6000 bài/ngày
– Tài khoản chưa xác minh tới 600 post/ngày
– Tài khoản mới chưa xác thực lên 300/ngày– Elon Musk (@elonmusk) Ngày 1 tháng 7 năm 2023
Cạo dữ liệu dường như là một chủ đề đặc biệt khó chịu đối với Elon Musk. Twitter cuối tuần qua đã tạm thời giới hạn số lượng tweet mà các tài khoản có thể đọc mỗi ngày để giải quyết “mức độ cực đoan” của việc thu thập dữ liệu và “thao túng hệ thống” trên nền tảng – mặc dù không phải ai cũng đồng ý rằng đây là lý do của giới hạn.
Reddit cũng đã phải đối mặt với hàng loạt rắc rối kể từ khi tắt quyền truy cập miễn phí vào các API của mình để ngừng thu thập dữ liệu. Động thái này đã khiến hơn 8.000 subreddits trở nên tối tăm để phản đối và một số chuyển sang NSFW.