Lê Duy Khánh, kỹ sư AI trẻ của Zalo, đã thành công trình bày nghiên cứu tại hội nghị Interspeech 2024, góp phần cải thiện đáng kể độ chính xác của tính năng nhận dạng giọng nói trên ứng dụng Zalo.
Vừa trở về Việt Nam sau khi tham dự Hội nghị khoa học Interspeech 2024 tổ chức tại Hy Lạp từ ngày 1 đến 5 tháng 9, Lê Duy Khánh, một kỹ sư AI trẻ của Zalo, đã chia sẻ những trải nghiệm học tập đáng nhớ mà anh có được tại sự kiện khoa học danh giá này.
Lê Duy Khánh – Kỹ sư AI tại Zalo và công trình nghiên cứu tiên phong
Lê Duy Khánh, sinh năm 2000, hiện đang làm việc tại Zalo AI, là tác giả của nghiên cứu với tiêu đề “Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking” (Tạm dịch: Cải thiện nhận dạng tiếng nói trực tiếp bằng cơ chế chú ý dịch chuyển theo thời gian và mặt nạ ngữ cảnh tương lai động). Dưới sự hướng dẫn của TS. Châu Thành Đức – Trưởng bộ phận Nghiên cứu & Phát triển tại Zalo AI và Giảng viên tại Đại học Khoa học Tự nhiên, ĐHQG TP.HCM, nghiên cứu này đã được chọn để trình bày tại Hội nghị khoa học Interspeech, một trong những sự kiện hàng đầu về lĩnh vực Xử lý tiếng nói do Hiệp hội Giao tiếp tiếng nói Quốc tế (ISCA) tổ chức.
Hội nghị Interspeech 2024 diễn ra với chủ đề “Speech and Beyond” (Tạm dịch: Tiếng nói và hơn thế nữa), nhằm tập trung vào các giải pháp tiên tiến trong khoa học và công nghệ ngôn ngữ, từ lý thuyết đến ứng dụng thực tiễn. Công trình của Khánh và đồng đội đã góp phần đáng kể vào việc cải thiện các mô hình nhận dạng tiếng nói, giúp tăng độ chính xác của các tính năng soạn tin nhắn bằng giọng nói và chuyển đổi tin nhắn thoại thành văn bản trên ứng dụng Zalo.
Hành trình 9 tháng nghiên cứu và thử thách
Để hoàn thiện nghiên cứu của mình, Lê Duy Khánh đã trải qua 9 tháng làm việc đầy thử thách. Nhận dạng tiếng nói thời gian thực là một nhiệm vụ phức tạp, yêu cầu khả năng xử lý dữ liệu nhanh và chính xác. Điều này đặc biệt khó khăn khi dữ liệu âm thanh thường không rõ ràng do nhiều yếu tố như nói nhanh, môi trường ồn ào. Tỷ lệ thành công của các thử nghiệm trong lĩnh vực này thường rất thấp, với chỉ 1 trên 10 thử nghiệm đạt được kết quả như mong đợi.
Những trải nghiệm đầu tiên tại Hy Lạp
Chuyến đi Hy Lạp để tham dự hội nghị Interspeech là một cột mốc quan trọng đối với Lê Duy Khánh. Anh mô tả cảm giác vừa choáng ngợp vừa hứng thú khi được tiếp xúc với những nhân vật nổi tiếng trong ngành AI thế giới và hàng nghìn bài thuyết trình giá trị.
“Đây là lần đầu tiên tôi có cơ hội thuyết trình tại một hội nghị khoa học quốc tế và cũng là lần đầu tiên tôi ra nước ngoài. Điều này khiến tôi khá hồi hộp,” Khánh chia sẻ. Dù phải chuẩn bị cho bài thuyết trình trong khi thích nghi với cuộc sống tại một đất nước xa lạ, mọi thứ đã diễn ra suôn sẻ, giúp anh hoàn thành tốt nhiệm vụ của mình.
Tại hội nghị, mỗi người thuyết trình có 20 phút để trình bày công trình nghiên cứu của mình, bao gồm thời gian trả lời câu hỏi từ khán giả. Với Khánh, bài thuyết trình đã diễn ra tốt đẹp với khoảng 100 người tham dự và hai câu hỏi được đặt ra liên quan đến thuật toán và tốc độ xử lý.
Động lực phát triển AI của người Việt
Tham dự hội nghị khoa học quốc tế như Interspeech không chỉ giúp Khánh có thêm kiến thức mà còn củng cố niềm tin vào sự phát triển của ngành AI tại Việt Nam. Khánh nhấn mạnh tầm quan trọng của việc đầu tư vào nghiên cứu AI nội địa, thay vì chỉ dựa vào công nghệ từ nước ngoài. Anh bày tỏ mong muốn tiếp tục phát triển các dự án nghiên cứu tại Zalo AI, nơi luôn tạo điều kiện cho các kỹ sư trẻ như anh phát triển.
Với đội ngũ nhân sự trẻ, năng động, 31% trong số đó là thế hệ Gen Z, Zalo AI đã và đang tiên phong trong các công nghệ tiên tiến nhằm phục vụ người dùng Việt Nam. Hành trình của Lê Duy Khánh tại hội nghị lần này không chỉ là một cột mốc cá nhân, mà còn là nguồn động lực to lớn để anh tiếp tục cống hiến và phát triển công nghệ AI cho cộng đồng.
Kết quả nghiên cứu và ứng dụng thực tế
Nghiên cứu của Zalo AI đã được tích hợp vào ứng dụng Zalo từ cuối năm 2023, giúp nâng cao đáng kể độ chính xác của tính năng soạn tin nhắn bằng giọng nói. Độ chính xác của tính năng này đã đạt mức 95% trong môi trường thực tế, và dù vẫn trong giai đoạn thử nghiệm, tính năng này đã được sử dụng bởi hàng triệu người dùng mỗi tháng.

Bên cạnh đó, nghiên cứu này còn mở ra cơ hội ứng dụng rộng rãi trong các lĩnh vực khác như chatbot giọng nói, trợ lý ảo, và tạo bản ghi tự động cho các cuộc gọi video. Đây là minh chứng rõ ràng cho tiềm năng phát triển AI do chính người Việt nghiên cứu và triển khai, mang lại giá trị thực tiễn cho người dùng trong nước.
Tín hiệu tích cực cho ngành AI Việt Nam
Việc các kỹ sư Việt Nam như Lê Duy Khánh được quốc tế công nhận là dấu hiệu đáng mừng cho sự phát triển của ngành công nghệ AI tại Việt Nam. TS. Châu Thành Đức, trưởng nhóm nghiên cứu, chia sẻ rằng việc công bố các nghiên cứu tại các hội nghị quốc tế không chỉ khẳng định năng lực của kỹ sư Việt mà còn đóng góp vào sự phát triển chung của cộng đồng AI toàn cầu.
Trong những năm gần đây, các kỹ sư của Zalo AI đã liên tục có các bài báo khoa học được công nhận trên các diễn đàn quốc tế. Năm 2021, nhóm đã có hai đề tài liên quan đến công nghệ xử lý tiếng nói được chấp nhận tại Hội nghị Châu Á – Thái Bình Dương về Trí tuệ Nhân tạo Quốc tế (PRICAI). Điều đặc biệt là tất cả tác giả đều là những kỹ sư trẻ, dưới 30 tuổi.
Chuyến đi Hy Lạp và sự thành công của nghiên cứu không chỉ đánh dấu một bước tiến lớn trong sự nghiệp của Lê Duy Khánh mà còn là một tín hiệu tích cực cho ngành AI Việt Nam. Sự phát triển của công nghệ AI trong nước đang dần thu hẹp khoảng cách với các nước phát triển, với những kỹ sư trẻ đầy triển vọng như Khánh tiên phong trong nghiên cứu và ứng dụng công nghệ để phục vụ cộng đồng.


