Tại sao nó quan trọng: Đạo văn dựa trên AI đang trở thành một hiện tượng ngày càng khó chịu và nguy hiểm, đặc biệt là đối với các ấn phẩm nghiên cứu khoa học chân chính. Nhiều người (và các nhà nghiên cứu) đang cố gắng phát triển một giải pháp thiết thực để chống lại loại vấn đề nhỏ nhặt rắc rối này và một cách tiếp cận mới dường như đặc biệt hiệu quả đối với một loại bài báo khoa học cụ thể.
ChatGPT cực kỳ giỏi trong việc giả mạo nội dung sáng tạo do con người tạo ra, mặc dù các chuyên gia thực tế đang thấy chatbot này khá đẹp “sh*tty” và dư thừa với tư cách là một nhà văn. Tuy nhiên, khi nói đến bài viết khoa học, chatbot có thể biến từ những phiền toái đơn giản hoặc công cụ gian lận trong trường học thành các mối đe dọa thực sự chống lại khoa học và các hoạt động nghiên cứu thích hợp.
Nghiên cứu mới được công bố của các nhà khoa học từ Đại học Kansas đang đề xuất một giải pháp tiềm năng cho vấn đề đạo văn dựa trên AI, tự hào về khả năng khá đáng chú ý để phân biệt bài viết khoa học thực tế do con người tạo ra với đầu ra ChatGPT “với độ chính xác hơn 99%. Một kết quả rõ ràng đạt được thông qua thuật toán AI và mô hình ngôn ngữ được đào tạo cụ thể.
Giáo sư hóa học Heather Desaire và các đồng nghiệp đang chiến đấu với AI bằng AI và dường như họ đang đạt được kết quả rất tốt về mặt đó: các nhà nghiên cứu tập trung nỗ lực vào các bài báo “quan điểm”, một phong cách bài báo cụ thể được đăng trên các tạp chí khoa học để cung cấp tổng quan về nghiên cứu cụ thể chủ đề.
các nhà khoa học đã chọn 64 bài báo về quan điểm, về các chủ đề từ sinh học đến vật lý, sau đó họ yêu cầu ChatGPT tạo các đoạn văn mới về cùng một nghiên cứu để ghép 128 bài báo “giả mạo” lại với nhau. AI tạo ra 1.276 đoạn văn, sau đó được sử dụng để huấn luyện mô hình ngôn ngữ do các nhà nghiên cứu chọn để thử và phân loại văn bản do AI tạo ra.
Hai bộ dữ liệu nữa, một bộ chứa 30 bài viết về quan điểm thực tế và bộ còn lại gồm 60 bài báo do ChatGPT tạo, đã được biên soạn để kiểm tra thuật toán mới được đào tạo. Và thuật toán dường như đã vượt qua các bài kiểm tra do các nhà nghiên cứu chuẩn bị một cách xuất sắc: bộ phân loại AI có thể phát hiện các bài viết ChatGPT 100% thời gian, trong khi độ chính xác để phát hiện các đoạn giả mạo riêng lẻ giảm xuống 92%.
Các nhà khoa học nói rằng chatbot xử lý nội dung văn bản bằng cách sử dụng một phong cách “viết” cụ thể, do đó, “bàn tay” của chúng có thể được xác định một cách khá hiệu quả. Các nhà khoa học về con người có xu hướng có vốn từ vựng phong phú hơn và viết các đoạn văn dài hơn chứa nhiều từ và dấu chấm câu đa dạng hơn. Hơn nữa, ChatGPT không thực sự nổi tiếng về mức độ chính xác và nó có xu hướng tránh cung cấp các số liệu cụ thể hoặc trích dẫn tên các nhà khoa học khác.
Các nhà nghiên cứu của Kansas đã xác định cách tiếp cận của họ chống lại đạo văn AI là một nghiên cứu “bằng chứng về khái niệm”, mặc dù nó đã tỏ ra rất hiệu quả trong việc xác định các bài báo có quan điểm giả mạo. Nghiên cứu sâu hơn (do con người tạo ra) là cần thiết để xác định liệu cách tiếp cận tương tự đó có thể được áp dụng cho các loại bài báo khoa học khác hoặc kết quả đầu ra văn bản chung do AI tạo ra hay không.