Tại sự kiện GTC 2026, NVIDIA công bố đưa NVIDIA Dynamo 1.0 vào giai đoạn triển khai sản xuất, đánh dấu bước tiến mới trong việc xây dựng hạ tầng suy luận AI quy mô lớn cho các trung tâm dữ liệu thế hệ mới – hay còn được hãng gọi là “AI factory”.
Theo đó, Dynamo 1.0 là nền tảng phần mềm mã nguồn mở được thiết kế để vận hành các hệ thống suy luận cho AI tạo sinh và các mô hình agentic AI ở quy mô lớn. Khi kết hợp với nền tảng phần cứng mới như NVIDIA Blackwell GPU architecture, Dynamo giúp các nhà cung cấp đám mây, công ty AI và doanh nghiệp lớn triển khai dịch vụ AI với hiệu năng cao hơn, chi phí thấp hơn và khả năng mở rộng tốt hơn.
Theo NVIDIA, khi các hệ thống AI dạng “agent” bắt đầu được đưa vào hoạt động thực tế trong nhiều ngành công nghiệp, việc mở rộng năng lực suy luận trong trung tâm dữ liệu ngày càng trở nên phức tạp. Các yêu cầu tính toán có kích thước khác nhau, đa dạng về loại dữ liệu và thường xuất hiện theo những đợt tăng đột biến, đòi hỏi hệ thống phải phân bổ tài nguyên một cách linh hoạt và hiệu quả.

Trong bối cảnh đó, Dynamo được thiết kế như một lớp điều phối trung tâm cho toàn bộ hệ thống. Nếu như hệ điều hành máy tính quản lý phần cứng và ứng dụng, Dynamo đóng vai trò như một “hệ điều hành phân tán” cho các nhà máy AI, tự động điều phối GPU và bộ nhớ trong toàn bộ cụm máy chủ để xử lý các tác vụ AI phức tạp.
Theo các thử nghiệm hiệu năng gần đây trong ngành, Dynamo có thể giúp tăng hiệu suất suy luận của GPU Blackwell lên tới 7 lần. Việc tối ưu này không chỉ giúp giảm chi phí cho mỗi token AI được tạo ra mà còn mở ra cơ hội tăng doanh thu cho hàng triệu GPU đang vận hành trên toàn cầu thông qua phần mềm mã nguồn mở miễn phí.
Ông Jensen Huang, nhà sáng lập kiêm CEO NVIDIA, cho biết suy luận chính là “động cơ của trí tuệ” trong các hệ thống AI hiện đại.
“Inference là nền tảng của mọi truy vấn, mọi tác nhân AI và mọi ứng dụng,” ông nói. “Với NVIDIA Dynamo, chúng tôi đã tạo ra hệ điều hành đầu tiên cho các nhà máy AI. Việc hệ sinh thái nhanh chóng đón nhận công nghệ này cho thấy làn sóng AI agent đang thực sự bắt đầu, và NVIDIA đang cung cấp sức mạnh tính toán cho nó ở quy mô toàn cầu.”
Một trong những điểm quan trọng của Dynamo là khả năng chia nhỏ và phân phối khối lượng công việc suy luận giữa nhiều GPU. Hệ thống bổ sung cơ chế điều phối lưu lượng thông minh và cho phép dữ liệu di chuyển linh hoạt giữa GPU và các lớp lưu trữ chi phí thấp hơn. Cách tiếp cận này giúp giảm lãng phí tài nguyên tính toán và khắc phục các giới hạn về bộ nhớ.
Đối với các tác vụ AI phức tạp như agentic AI hoặc các lời nhắc dài (long prompts), Dynamo còn có thể chuyển yêu cầu tới GPU đang lưu trữ phần “bộ nhớ ngắn hạn” liên quan từ các bước xử lý trước đó. Khi không còn cần thiết, dữ liệu này sẽ được chuyển ra khỏi GPU để giải phóng tài nguyên.
Song song với việc ra mắt Dynamo, NVIDIA cũng mở rộng hệ sinh thái phần mềm suy luận của mình. Các tối ưu từ Dynamo và thư viện NVIDIA TensorRT-LLM đã được tích hợp trực tiếp vào nhiều framework mã nguồn mở phổ biến như LangChain, SGLang và vLLM.

Ngoài ra, các thành phần quan trọng của Dynamo cũng được cung cấp dưới dạng module độc lập. Trong đó có KVBM giúp quản lý bộ nhớ hiệu quả hơn, NIXL hỗ trợ truyền dữ liệu tốc độ cao giữa các GPU và Grove giúp đơn giản hóa việc mở rộng hệ thống AI.
Nền tảng suy luận của NVIDIA hiện đang nhận được sự hỗ trợ rộng rãi từ nhiều công ty trong hệ sinh thái AI toàn cầu. Các nhà cung cấp dịch vụ đám mây lớn như Amazon Web Services, Microsoft Azure, Google Cloud và Oracle Cloud đều tích hợp nền tảng này.
Bên cạnh đó là các đối tác đám mây của NVIDIA như Alibaba Cloud, CoreWeave và Together AI. Nhiều doanh nghiệp công nghệ và nền tảng internet lớn cũng đã triển khai công nghệ suy luận của NVIDIA, bao gồm ByteDance, PayPal và Pinterest.
Ông Matt Madrigal, giám đốc công nghệ của Pinterest, cho biết việc cung cấp trải nghiệm AI đa phương thức cho hàng trăm triệu người dùng đòi hỏi khả năng suy luận theo thời gian thực ở quy mô toàn cầu. Nhờ các tối ưu từ Dynamo, công ty có thể mở rộng các dịch vụ AI cá nhân hóa với hiệu năng cao hơn.
Tương tự, ông Vipul Ved Prakash, đồng sáng lập kiêm CEO Together AI, cho rằng các công ty phát triển AI cần những nền tảng suy luận có thể mở rộng nhanh chóng theo quy mô ứng dụng. Sự kết hợp giữa Dynamo và các nghiên cứu mới trong lĩnh vực suy luận AI giúp xây dựng một hạ tầng có hiệu năng cao nhưng vẫn tối ưu chi phí cho các hệ thống AI quy mô lớn.
NVIDIA cho biết Dynamo 1.0 đã sẵn sàng cho các nhà phát triển trên toàn thế giới. Công ty kỳ vọng nền tảng này sẽ trở thành một lớp hạ tầng quan trọng cho thế hệ trung tâm dữ liệu AI mới – nơi các hệ thống trí tuệ nhân tạo hoạt động liên tục để phục vụ hàng tỷ truy vấn mỗi ngày.

