Một báo cáo mới từ hãng nghiên cứu SemiAnalysis cho biết NVIDIA đã hủy thiết kế ban đầu của GPU AI Rubin Ultra với 4 chiplet xử lý trong cùng một gói đóng gói (package).

Thay vào đó, sản phẩm Rubin Ultra của NVIDIA dự kiến ra mắt năm 2027 sẽ chỉ còn cấu hình 2 chiplet, khiến hiệu năng và băng thông bộ nhớ trên mỗi GPU giảm đáng kể so với những gì hãng từng giới thiệu tại sự kiện GTC 2026. Đến thời điểm hiện tại, NVIDIA vẫn chưa đưa ra bình luận chính thức về thông tin này.

Giới hạn của công nghệ đóng gói chip

Theo SemiAnalysis, nguyên nhân chính đến từ những hạn chế của công nghệ đóng gói CoWoS-L do TSMC phát triển.

Thiết kế Rubin Ultra ban đầu được xây dựng với 4 khuôn xử lý cỡ lớn kết hợp cùng 16 ngăn xếp bộ nhớ HBM4E trên cùng một interposer. Tuy nhiên, kích thước quá lớn khiến quá trình sản xuất gặp nhiều khó khăn, đặc biệt là hiện tượng cong vênh vật liệu khi các lớp silicon và đế hữu cơ giãn nở khác nhau dưới tác động của nhiệt độ.

Những sai lệch này có thể làm giảm tỷ lệ thành phẩm, tăng nguy cơ lỗi kết nối điện giữa các chip và khiến chi phí sản xuất tăng rất cao. Chỉ cần một lỗi nhỏ trong quá trình đóng gói cũng có thể khiến toàn bộ GPU trị giá hàng chục nghìn USD phải loại bỏ.

CoPoS chưa sẵn sàng cho năm 2027

TSMC được cho là đang phát triển công nghệ đóng gói thế hệ mới mang tên CoPoS nhằm khắc phục những hạn chế của CoWoS-L bằng cách sử dụng lớp phân phối tín hiệu dạng panel với vật liệu như kính hoặc sapphire.

Tuy nhiên, công nghệ này dự kiến chỉ bắt đầu sản xuất hàng loạt vào cuối năm 2028 hoặc đầu năm 2029, quá muộn để phục vụ kế hoạch ra mắt Rubin Ultra trong năm 2027.

Rubin Ultra sẽ chuyển sang thiết kế 2 chiplet

Thay vì hủy hoàn toàn sản phẩm, NVIDIA được cho là sẽ chuyển Rubin Ultra sang cấu hình gồm 2 chiplet xử lý cùng 8 ngăn xếp HBM4E, tương tự kiến trúc của Rubin tiêu chuẩn nhưng sử dụng bộ nhớ thế hệ mới có tốc độ cao hơn.

HBM4E mang lại băng thông trên mỗi ngăn xếp lớn hơn đáng kể so với HBM4, đồng thời nâng dung lượng bộ nhớ lên khoảng 384 GB mỗi GPU. Tuy vậy, con số này vẫn thấp hơn rất nhiều so với thiết kế ban đầu sử dụng 16 ngăn xếp HBM4E.

NVIDIA được cho là hủy phiên bản GPU Rubin Ultra 4 chiplet, hiệu năng thực tế có thể giảm một nửa

Để bù đắp hiệu năng, NVIDIA được cho là sẽ kết hợp hai GPU Rubin Ultra trên cùng một bo mạch theo cấu hình “2+2” trong hệ thống máy chủ Kyber. Cách tiếp cận này giúp đạt tổng số bốn chiplet ở cấp độ máy chủ thay vì trong một package duy nhất, từ đó đơn giản hóa quy trình sản xuất và cải thiện tỷ lệ thành phẩm.

Dù vậy, việc chia thành hai GPU riêng biệt cũng khiến độ trễ giao tiếp giữa các chip cao hơn so với thiết kế bốn chiplet trong cùng một package, ảnh hưởng nhất định đến những tác vụ AI yêu cầu trao đổi dữ liệu với độ trễ cực thấp.

Thách thức mới của ngành bán dẫn AI

Sự thay đổi này cũng phản ánh giới hạn ngày càng rõ ràng của công nghệ đóng gói bán dẫn hiện nay.

Trong bối cảnh việc thu nhỏ transistor ngày càng khó khăn, các hãng chip AI kỳ vọng công nghệ đóng gói tiên tiến sẽ tiếp tục giúp tăng hiệu năng bằng cách ghép nhiều khuôn xử lý trong cùng một package. Tuy nhiên, trường hợp Rubin Ultra cho thấy cách tiếp cận này cũng đang gặp rào cản về mặt vật lý và kỹ thuật.

Điều đó đồng nghĩa ngành công nghiệp có thể phải chờ thêm vài năm, cho đến khi các công nghệ đóng gói thế hệ mới như CoPoS đủ trưởng thành để hỗ trợ những thiết kế quy mô lớn hơn.

Tác động đến thị trường HBM và cuộc cạnh tranh AI

Việc Rubin Ultra giảm từ 16 xuống còn 8 ngăn xếp HBM4E cũng được dự báo sẽ ảnh hưởng đến nhu cầu bộ nhớ băng thông cao (HBM). Các nhà cung cấp như SK hynix và Samsung vốn đã chuẩn bị năng lực sản xuất HBM4E để đáp ứng nhu cầu từ NVIDIA có thể phải điều chỉnh kế hoạch.

Ở khía cạnh cạnh tranh, phiên bản Rubin Ultra mới cũng được cho là sẽ thu hẹp khoảng cách với dòng GPU AMD Instinct MI500, dự kiến ra mắt cùng giai đoạn năm 2027.

Bên cạnh đó, SemiAnalysis nhận định lợi thế lâu nay của NVIDIA nhờ hệ sinh thái CUDA cũng đang chịu sức ép khi ngày càng nhiều trung tâm dữ liệu AI triển khai các bộ xử lý tùy biến như Amazon Trainium hay Google TPU cho cả huấn luyện và suy luận AI.

Hiện tại, dòng GPU Rubin tiêu chuẩn vẫn được cho là sẽ được giao đến các đối tác điện toán đám mây theo đúng kế hoạch, trong khi Rubin Ultra phiên bản mới vẫn hướng đến thời điểm ra mắt trong năm 2027, dù cấu hình được cho là đã thay đổi đáng kể so với công bố ban đầu.

Nguồn: NVIDIA

https://developer.nvidia.com/blog/nvidia-vera-rubin-pod-seven-chips-five-rack-scale-systems-one-ai-supercomputer/

Đăng ký bản tin

NVIDIA được cho là hủy phiên bản GPU Rubin Ultra 4 chiplet, hiệu năng thực tế có thể giảm một nửa