Voyager của Tencent cho phép tạo video 3D ngắn từ một bức ảnh với độ nhất quán không gian cao, nhưng vẫn cần phần cứng mạnh để vận hành.
Theo đó, Tencent vừa công bố HunyuanWorld-Voyager, một mô hình AI mã nguồn mở cho phép tạo video giả lập không gian 3D chỉ từ một bức ảnh. Người dùng có thể điều khiển đường đi của camera để “tham quan” cảnh ảo. Khác với các kỹ thuật dựng hình truyền thống, Voyager đồng thời tạo ra cả video RGB và dữ liệu độ sâu (depth map), từ đó có thể tái dựng thành đám mây điểm 3D. Tuy vậy, công nghệ này vẫn chưa thể thay thế cho các trò chơi 3D thực thụ.
Thay vì dựng mô hình 3D hoàn chỉnh, Voyager sinh ra các khung hình 2D nhưng duy trì tính nhất quán về không gian, cho cảm giác camera đang di chuyển trong một thế giới ba chiều. Mỗi lần tạo, hệ thống xuất ra 49 khung hình (tương đương khoảng 2 giây video), nhưng người dùng có thể nối nhiều đoạn để tạo thành chuỗi kéo dài vài phút. Khi camera thay đổi góc nhìn, các vật thể vẫn giữ đúng vị trí tương đối và phối cảnh thay đổi hợp lý.
Người dùng chỉ cần tải lên một ảnh và định nghĩa đường đi của camera (tiến, lùi, xoay trái, xoay phải…). Voyager kết hợp dữ liệu ảnh với thông tin độ sâu, đồng thời sử dụng một “bộ nhớ thế giới” (world cache) chứa các điểm 3D sinh ra trước đó. Khi tạo khung hình mới, hệ thống sẽ chiếu đám mây điểm này về 2D để làm “khung tham chiếu”, đảm bảo khung hình tiếp theo nhất quán với nội dung đã tạo.
Hạn chế lớn của mô hình Transformer là khả năng tổng quát hóa còn yếu, chủ yếu bắt chước mẫu trong dữ liệu huấn luyện. Voyager được đào tạo từ hơn 100.000 đoạn video, trong đó có nhiều cảnh dựng bằng Unreal Engine, nhằm “dạy” AI mô phỏng cách camera di chuyển trong thế giới ảo. Khác với nhiều công cụ như Sora, vốn chỉ chú trọng sinh khung hình trông hợp lý mà không duy trì tính không gian, Voyager bổ sung vòng phản hồi hình học: mỗi khung hình sinh ra được chuyển thành điểm 3D rồi chiếu lại về 2D để đối chiếu với khung tiếp theo. Nhờ vậy, video có độ ổn định cao hơn, nhưng vẫn khó tránh lỗi khi quay vòng 360 độ, do sai số tích lũy dần khiến hệ thống mất tính nhất quán.

Theo báo cáo kỹ thuật của Tencent, Voyager gồm hai phần chính: (1) sinh đồng thời video màu và bản đồ độ sâu để đồng bộ vị trí đối tượng, và (2) xây dựng bộ nhớ thế giới từ các khung hình trước, chiếu lại để định hướng các khung hình sau.
Sản phẩm này bổ sung vào xu hướng mô hình tạo thế giới ảo đang được nhiều hãng phát triển. Trước đó, Google giới thiệu Genie 3 (tháng 8/2025) có thể sinh môi trường tương tác ở độ phân giải 720p, 24 khung hình/giây từ văn bản. Dynamics Lab cũng ra mắt Mirage 2, cho phép tải ảnh lên trình duyệt và biến thành môi trường có thể chơi trực tiếp. So với các mô hình này, Voyager tập trung nhiều hơn vào sản xuất video và các quy trình tái dựng 3D.
Voyager được xây dựng dựa trên HunyuanWorld 1.0 (ra mắt tháng 7/2025) và nằm trong hệ sinh thái Hunyuan của Tencent, cùng với Hunyuan3D-2 (tạo mô hình 3D từ văn bản) và HunyuanVideo (tổng hợp video). Để huấn luyện, Tencent phát triển pipeline tự động phân tích video, tính toán chuyển động camera và độ sâu cho từng khung hình, giúp tiết kiệm công sức gán nhãn thủ công.
Tuy nhiên, để vận hành, Voyager đòi hỏi phần cứng rất mạnh: cần ít nhất 60GB bộ nhớ GPU cho độ phân giải 540p, và Tencent khuyến nghị 80GB để đạt kết quả tối ưu. Mô hình đã được công bố trên Hugging Face kèm mã nguồn hỗ trợ chạy đa GPU.
Về mặt pháp lý, giấy phép của Voyager giới hạn việc sử dụng tại EU, Anh và Hàn Quốc, đồng thời các ứng dụng thương mại vượt quá 100 triệu người dùng/tháng phải xin phép riêng từ Tencent.

Trong bảng đánh giá WorldScore của Đại học Stanford, Voyager đạt điểm tổng cao nhất (77,62), vượt WonderWorld (72,69) và CogVideoX-I2V (62,15). Hệ thống nổi bật ở khả năng kiểm soát đối tượng (66,92), giữ phong cách (84,89) và chất lượng hình ảnh (71,09), nhưng vẫn kém WonderWorld về kiểm soát camera.
Dù có nhiều tiềm năng, Voyager vẫn đối mặt thách thức lớn về chi phí tính toán và thời lượng video ngắn. Tencent cho biết hệ thống có thể tăng tốc đáng kể nếu chạy song song trên nhiều GPU bằng framework xDiT, giúp nhanh gấp gần 7 lần so với chạy đơn lẻ.
Trong bối cảnh các mô hình như Genie hay Mirage đang thử nghiệm tạo ra thế giới ảo tương tác thời gian thực, Voyager có thể xem là bước khởi đầu cho một hướng đi mới trong nghệ thuật số và sản xuất nội dung 3D.

