美元换人民币  当前汇率7.1

华为将推出 CloudMatrix 384,2× NVIDIA GB200 NVL72吞吐量

* 来源 : * 作者 : admin * 发表时间 : 2025-07-24
华为即将推出的CloudMatrix 384是基于 384 颗昇腾 910C 处理器的机架级 AI 系统,其核心亮点在于采用全光网状网络替代传统铜线互连,这一设计不仅大幅提升了数据传输带宽,还显著降低了延迟,能够高效支持机架内部及跨机架的高带宽通信需求。尽管单颗昇腾 910C 芯片的性能仅为 NVIDIA Blackwell GPU 的三分之一,但通过大规模集群部署的协同效应,该系统整体算力达到 300 PFLOPs(BF16),接近 NVIDIA GB200 NVL72(180 PFLOPs)的两倍。在内存配置上,CloudMatrix 384 配备 HBM2E 内存,总容量达到 GB200 NVL72 的 3.6 倍,内存带宽为其 2.1 倍,这让它在处理需要海量数据吞吐的大模型训练任务时表现出色,同时通过软硬件协同优化实现了高效的集群运作。
不过,CloudMatrix 384 也存在明显的效率短板:每 FLOP 功耗是 NVIDIA 方案的 2.3 倍,内存带宽效率和 HBM 内存效率也分别低 1.8 倍和 1.1 倍。但华为通过结合中国能源资源丰富的特点,以及供应链自主化布局,借助规模化部署有效弥补了这一劣势。昇腾 910C 由中芯国际采用 N+2 工艺生产,目前良率已从 2024 年的 20% 提升至 34%-37%,单月产能突破 5 万片晶圆,成本较 NVIDIA H100 低约 40%,具备一定的价格优势。该系统单价为 800 万美元,定位高端,主要面向大型企业和政府项目,目前已有十家中国主要企业将其集成到数据中心基础设施中,且已适配包括 DeepSeek、科大讯飞星火等 160 余种第三方大模型,广泛应用于政务、金融、工业等领域。
国际机构评价其全栈设计在系统级创新上具有领先性,全光互联技术与智算中心向绿色高效演进的方向高度契合。在西方技术封锁的背景下,华为凭借该系统构建起自主可控的 AI 基础设施,昇腾 910C 的供应链中国产设备占比达 65%,关键材料如光刻胶已实现国产化,形成了独特的竞争壁垒。尽管在能效比上存在差距,且国际市场推广受限于技术管制,但凭借较高的性价比,CloudMatrix 384 在沙特、德国等部分国家的市场已展现出吸引力。
未来,华为计划通过液冷技术等手段降低系统功耗,同时推动昇腾 910C 芯片良率进一步提升至 40% 以上,并拓展在电商、社交、汽车等更多行业的应用场景,逐步构建从芯片到应用的完整产业链。其全光互联技术也有望成为未来智算中心的重要行业标准。总体而言,CloudMatrix 384 的推出标志着中国在 AI 基础设施领域从单点突破迈向系统性领先,虽面临能效与国际拓展的挑战,但其战略意义重大,有望重塑全球 AI 基础设施的竞争格局。