Tại sự kiện NVIDIA GTC năm nay, CEO Jensen Huang đã nhấn mạnh một nghịch lý lớn của thời đại dữ liệu là phần lớn dữ liệu trên thế giới hiện nay vẫn chưa thể được máy móc khai thác hiệu quả.
Theo nhà sáng lập kiêm CEO của NVIDIA – ông Jensen Huang, dù các doanh nghiệp đã đầu tư hàng thập kỷ để xây dựng hệ thống quản lý dữ liệu mạnh mẽ, phần lớn thông tin được tạo ra mỗi ngày vẫn tồn tại dưới dạng mà máy tính rất khó hiểu. Từ tài liệu, video, hình ảnh cho đến các đoạn ghi âm, tất cả đều chứa giá trị tiềm năng, nhưng trong nhiều năm qua gần như vẫn nằm ngoài khả năng phân tích quy mô lớn của máy móc.
Sự phát triển của trí tuệ nhân tạo đang bắt đầu thay đổi thực tế này.
Khoảng cách giữa dữ liệu có cấu trúc và phi cấu trúc
Trong nhiều thập kỷ, hạ tầng dữ liệu của doanh nghiệp chủ yếu xoay quanh dữ liệu có cấu trúc. Đây là loại dữ liệu được tổ chức theo bảng, hàng và cột rõ ràng, cho phép máy tính dễ dàng truy vấn và phân tích.
Các nền tảng xử lý dữ liệu như của Snowflake hay Databricks đã trở thành trung tâm của hệ sinh thái dữ liệu doanh nghiệp, giúp các tổ chức xử lý khối lượng lớn thông tin thông qua các công cụ quen thuộc như SQL.

Những dữ liệu này thường bao gồm thông tin giao dịch, hồ sơ khách hàng, dữ liệu tài chính hoặc dữ liệu chuỗi cung ứng – tất cả đều được tổ chức theo cấu trúc rõ ràng.
Tuy nhiên, Jensen Huang cho rằng loại dữ liệu này chỉ chiếm một phần nhỏ trong tổng lượng dữ liệu toàn cầu.
Phần lớn thông tin được tạo ra mỗi năm tồn tại dưới dạng dữ liệu phi cấu trúc: tài liệu PDF, email, video, âm thanh, hình ảnh hoặc văn bản tự do. Những dữ liệu này không tuân theo cấu trúc cố định, khiến việc lập chỉ mục, tìm kiếm hoặc phân tích trở nên rất khó khăn với các hệ thống truyền thống.
Kết quả là nhiều tổ chức đang lưu trữ khối lượng dữ liệu khổng lồ nhưng gần như không thể khai thác hết giá trị của chúng.
AI đang thay đổi cách máy tính hiểu dữ liệu
Theo Huang, sự xuất hiện của các mô hình AI hiện đại đang tạo ra bước ngoặt quan trọng trong cách dữ liệu được xử lý.
Các hệ thống AI đa phương thức hiện nay có khả năng hiểu nhiều loại dữ liệu khác nhau – từ văn bản, hình ảnh đến video và giọng nói. Điều này cho phép máy tính không chỉ xử lý dữ liệu thô mà còn hiểu được ý nghĩa của thông tin.
Nhờ đó, các hệ thống AI có thể đọc tài liệu, phân tích hình ảnh, nhận diện nội dung video hoặc chuyển đổi giọng nói thành văn bản, sau đó trích xuất thông tin quan trọng từ những nguồn dữ liệu khổng lồ.
Một khi dữ liệu phi cấu trúc được “hiểu”, nó có thể được chuyển đổi thành dạng mà máy tính có thể tìm kiếm và phân tích hiệu quả hơn.
Nói cách khác, AI đang biến những dữ liệu từng bị xem là “khó khai thác” thành một nguồn tài nguyên mới cho doanh nghiệp.
Sự nổi lên của vector database
Để hỗ trợ cách tiếp cận mới này, các hệ thống dữ liệu cũng đang thay đổi.
Một trong những khái niệm quan trọng được nhắc đến tại keynote là vector database – một loại cơ sở dữ liệu lưu trữ thông tin dưới dạng các biểu diễn số học phản ánh mối quan hệ ngữ nghĩa giữa các dữ liệu.
Khác với cơ sở dữ liệu truyền thống vốn tìm kiếm dựa trên từ khóa chính xác, vector database cho phép hệ thống AI tìm kiếm thông tin dựa trên ý nghĩa và ngữ cảnh.

Điều này có nghĩa là một hệ thống AI có thể phân tích hàng triệu tài liệu, hình ảnh hoặc video và tìm ra nội dung liên quan nhất dựa trên nội dung thực sự của chúng.
Đối với doanh nghiệp, khả năng này có thể giúp khai thác giá trị từ những kho dữ liệu trước đây gần như không thể sử dụng hiệu quả.
Dữ liệu – nền tảng của AI đáng tin cậy
Jensen Huang nhấn mạnh rằng dữ liệu vẫn là “sự thật nền tảng” của các hệ thống trí tuệ nhân tạo. Dù AI có thể tạo ra nội dung hoặc dự đoán kết quả, giá trị của nó cuối cùng vẫn phụ thuộc vào dữ liệu mà nó có thể truy cập.
Dữ liệu có cấu trúc vẫn đóng vai trò quan trọng trong việc cung cấp thông tin chính xác về hoạt động của doanh nghiệp. Tuy nhiên, khi kết hợp với dữ liệu phi cấu trúc được AI phân tích, các hệ thống thông minh trong tương lai có thể hiểu sâu hơn về thế giới xung quanh.

Trong tương lai gần, các AI agent sẽ không chỉ truy cập vào các cơ sở dữ liệu truyền thống mà còn có thể khai thác thông tin từ tài liệu, video, âm thanh và nhiều nguồn dữ liệu khác.
Biên giới mới của hạ tầng dữ liệu doanh nghiệp
Việc tích hợp AI vào hệ thống dữ liệu doanh nghiệp đang mở ra một giai đoạn mới trong hạ tầng điện toán.
Các công ty từng chỉ tập trung vào việc lưu trữ và xử lý dữ liệu có cấu trúc giờ đây đang xây dựng các nền tảng có khả năng hiểu và suy luận trên mọi dạng thông tin số.
Đối với NVIDIA, việc tăng tốc xử lý dữ liệu và mở khóa kho dữ liệu phi cấu trúc của thế giới đang trở thành một phần quan trọng trong chiến lược nền tảng AI.
Nếu thành công, bước chuyển này có thể biến khối lượng dữ liệu khổng lồ chưa được khai thác thành một trong những nguồn tài nguyên giá trị nhất của nền kinh tế số.

