Không phải mỗi PFLOPS đều làm NVIDIA khó ngủ. Điều khiến Huawei Ascend 950PR gây ồn ào lần này nằm ở phần mềm, cụ thể là CANN Next cho phép developer viết code theo kiểu CUDA nhưng chạy trên hệ Ascend. Nếu cách tiếp cận này hoạt động đúng như Huawei trình bày, rào cản lớn nhất của NVIDIA tại Trung Quốc sẽ không còn nằm ở phần cứng nữa. ByteDance và Alibaba được cho là đã lên kế hoạch đặt hàng, cho thấy câu chuyện đã đi qua giai đoạn demo. Đây có thể là lần đầu tiên moat phần mềm CUDA bị tấn công trực diện ở quy mô đủ lớn.
CANN Next mới là điểm khiến Huawei Ascend 950PR đáng chú ý
Trong bài gốc đăng ngày 27/3/2026, Wccftech cho biết Huawei không cố dịch code CUDA sang một lớp tương thích chắp vá. Hãng đang đẩy CANN Next theo hướng gần như drop-in replacement: mô hình lập trình SIMT có thread block, warp và kernel launch giống cách lập trình viên CUDA đã quen dùng. Nói ngắn gọn, developer vẫn viết với cảm giác như đang làm việc trên CUDA, nhưng phần tối ưu phía dưới lại dành cho phần cứng Ascend.
Khác biệt này quan trọng hơn nghe có vẻ. Trong nhiều năm, các hãng Trung Quốc đã cố cạnh tranh với NVIDIA bằng thông số hoặc giá, nhưng vướng ở chỗ đội ngũ kỹ sư AI đã quen với CUDA, thư viện CUDA và toàn bộ quy trình triển khai xoay quanh CUDA. Chỉ cần thay phần cứng thôi là chưa đủ. Nếu Huawei khiến việc port workload sang Ascend bớt đau đầu hơn, họ đang đánh thẳng vào lý do khiến hyperscaler vẫn bám NVIDIA. Bạn có thể xem thêm bối cảnh nguồn cung bộ nhớ cho chip AI trong bài Samsung HBM4 trở thành trái tim của chip NVIDIA Vera Rubin.
Wccftech cũng nhấn mạnh Huawei đang xem CUDA như một chuẩn ngôn ngữ trên thực tế, rồi xây trải nghiệm tương tự thay vì bắt cộng đồng học lại từ đầu. Đây là chi tiết khiến Ascend 950PR khác các nỗ lực trước. Nó không hứa thay thế toàn bộ hệ sinh thái NVIDIA sau một đêm, nhưng đủ để một số khách hàng lớn thử chuyển workload training và inference trong nước sang nền tảng nội địa, nhất là khi bài toán tuân thủ xuất khẩu chip ngày càng ngặt.
Đơn hàng lớn, thông số mạnh và áp lực mới lên NVIDIA tại Trung Quốc
Bên dưới lớp phần mềm, Huawei Ascend 950PR vẫn có phần cứng đủ để được chú ý. Theo thông tin được trích dẫn, chip này hỗ trợ FP8 với mức 1 PFLOPS và FP4 đạt 2 PFLOPS, đi kèm 128GB bộ nhớ HBM tự phát triển mang tên HiBL 1.0, băng thông 1,6 TB/s. Interconnect của nền tảng đạt 2 TB/s, tức Huawei không chỉ nói về một con chip đơn lẻ mà còn hướng đến bài toán scale-out cho cụm AI. Với workload AI hiện nay, bộ nhớ và băng thông thường quyết định rất nhiều đến khả năng huấn luyện thực tế, không chỉ riêng con số compute.
Điểm đáng bàn là quy mô sản xuất. Wccftech dẫn thông tin cho rằng Huawei đặt mục tiêu sản xuất 750.000 chip trong năm 2026, còn ByteDance và Alibaba đã có kế hoạch đặt hàng. Nếu con số này đi vào thực tế, thị trường Trung Quốc sẽ lần đầu có một lựa chọn nội địa vừa đủ hiệu năng, vừa có câu chuyện phần mềm rõ ràng, lại có sản lượng không quá nhỏ. Đó là tổ hợp mà các đối thủ trước đây thường thiếu ít nhất một mắt xích.
Dĩ nhiên Huawei Ascend 950PR chưa có nghĩa là NVIDIA mất vị trí dẫn đầu. CUDA vẫn mạnh nhờ hệ sinh thái thư viện, framework, công cụ tối ưu và cộng đồng lập trình viên quá lớn. Ascend 950PR cũng còn phải chứng minh hiệu năng ngoài đời, độ ổn định khi triển khai đại trà và năng lực giao hàng liên tục. Nhưng lần này câu chuyện đã khác: moat của NVIDIA không còn chỉ bị thách thức ở silicon, mà ở ngay lớp phần mềm. Trong cuộc đua AI hiện tại, đó mới là mặt trận khó chịu nhất. Một góc nhìn liên quan về cuộc chạy đua hạ tầng có thể xem thêm ở bài AMD ký MOU với Samsung cho HBM4 trên chip AI.
Với thị trường Trung Quốc, ý nghĩa của Huawei Ascend 950PR còn nằm ở thời điểm. Các hãng nội địa đã cần một phương án thay NVIDIA từ lâu, nhưng hoặc thiếu hiệu năng, hoặc thiếu phần mềm, hoặc thiếu nguồn cung. Ascend 950PR đang cố gom đủ cả ba biến số đó. Nếu CANN Next thực sự cho trải nghiệm phát triển gần CUDA như mô tả, đây sẽ là một trong những bước tiến quan trọng nhất của Huawei trong mảng AI kể từ sau Ascend 910.
Nguồn: Wccftech
