Dịch vụ email phổ biến nhất thế giới đã tung ra bản cập nhật quan trọng nhất trong nhiều năm. Nhằm mục đích đánh lừa những kẻ gửi thư rác thông qua AI tiên tiến, Gmail hiện có hệ thống phân loại văn bản mới có tên RETVec (Trình tạo vectơ văn bản linh hoạt và hiệu quả).
Công nghệ phát hiện thư rác mới này là một bước tiến trong cuộc chiến chống lại các hành vi thao túng văn bản đối nghịch, đây là một chiến thuật phổ biến được những kẻ gửi thư rác sử dụng để vượt qua các bộ lọc truyền thống. Những kẻ gửi thư rác từ lâu đã khai thác những hạn chế của bộ lọc bằng cách sử dụng các ký tự đặc biệt, biểu tượng cảm xúc và các kỹ thuật lừa đảo khác để làm cho email của họ có vẻ hợp pháp trong khi trốn tránh bị phát hiện.
Những thao tác này thường bao gồm các từ đồng âm, là các ký tự giống với các chữ cái trong bảng chữ cái tiêu chuẩn. Nhưng trên thực tế, những thứ này khác nhau rất nhiều, điều này khiến các bộ lọc thông thường gặp khó khăn trong việc nhận ra chúng là thư rác. Được phát triển bởi Google, RETVec giải quyết trực tiếp thách thức này. Đó là một mô hình học máy sử dụng sự tương đồng về mặt hình ảnh thay vì chỉ dựa vào nhận dạng ký tự.
Cách tiếp cận mới cho phép Gmail hiểu và lọc ra các email sử dụng chiến thuật lừa đảo, cải thiện đáng kể khả năng chặn các nỗ lực spam và lừa đảo. Google đã đi tiên phong về AI trong lĩnh vực email một thời gian, được khởi đầu bằng tính năng AI giúp viết email từ năm 2018.
Theo Google, việc giới thiệu RETVec có cải thiện khả năng phát hiện thư rác tỷ lệ giảm 38% và giảm tỷ lệ dương tính giả gần 20%. Vì vậy, người dùng ít có khả năng nhìn thấy thư rác trong hộp thư đến của mình, khiến họ ít có khả năng bỏ lỡ các email quan trọng, hợp pháp bị đánh dấu nhầm là thư rác.
Mô hình nhúng từ nhẹ của RETVec, bao gồm 200.000 tham số, cho phép bạn giảm kích thước của mô hình Transformer mà không ảnh hưởng đến hiệu suất. Hiệu quả này rất quan trọng đối với các ứng dụng trên thiết bị di động và dựa trên web.
Các nỗ lực lọc thư rác của Gmail đã có từ nhiều năm trước khi dịch vụ này bắt đầu chặn thêm 100 triệu email spam hàng ngày vào năm 2019 bằng TensorFlow. Với RETVec, Google hy vọng sẽ thiết lập một chuẩn mực mới về bảo mật email.