
Theo ông, dù các cỗ máy AI của NVIDIA có giá lên tới hàng triệu USD, chi phí tạo ra mỗi đơn vị xử lý cơ bản, gọi là token, lại thuộc nhóm thấp nhất thế giới.
Token là đơn vị nền tảng trong quá trình xử lý của mô hình AI, tương tự các ký tự cấu thành ngôn ngữ. Mọi phản hồi của AI đều được xây dựng từ các token, vì vậy tốc độ và hiệu quả tạo token là yếu tố then chốt quyết định hiệu suất hệ thống.
CEO NVIDIA cho rằng việc chỉ dựa vào phần cứng mạnh để tăng tốc chưa phải giải pháp tối ưu. Một hệ thống AI hiệu quả đòi hỏi sự phối hợp chặt chẽ giữa phần cứng và phần mềm. Đây cũng là lợi thế mà NVIDIA theo đuổi trong nhiều năm thông qua hệ sinh thái CUDA.
Không chỉ là nền tảng hỗ trợ tính toán, CUDA còn tối ưu toàn bộ quy trình xử lý, giúp khai thác tối đa năng lực phần cứng.
Ông Jensen Huang nhấn mạnh, các công ty công nghệ không thể chỉ tập trung vào một khía cạnh riêng lẻ mà cần kiểm soát toàn bộ chuỗi giá trị, từ phần mềm, hệ thống đến ứng dụng. Đây là lý do NVIDIA theo đuổi chiến lược “full-stack”, tích hợp chặt chẽ mọi thành phần trong hệ sinh thái AI.
Thực tế, các hệ thống như Blackwell hay nền tảng Rubin sắp ra mắt không chỉ có giá trị lớn mà còn tạo ra doanh thu đáng kể. Điểm đáng chú ý là khả năng sinh ra khối lượng token khổng lồ với hiệu quả năng lượng cao.
Theo NVIDIA, chi phí trên mỗi token cũng như chi phí trên mỗi watt điện tiêu thụ đều đang được tối ưu ở mức thấp hàng đầu.
Để phản ánh rõ hơn hiệu quả vận hành, công ty cũng chuyển sang phương pháp đánh giá tổng chi phí sở hữu mới, tập trung vào chi phí trên mỗi token thay vì chỉ dựa vào thông lượng tối đa.
Cách tiếp cận này không chỉ đo năng lực xử lý mà còn tính đến yếu tố năng lượng và chi phí vận hành thực tế.


























