基于14nm的AI芯片算力与18nm DRAM可媲美NVIDIA 4nm芯片?
* 来源 : * 作者 : admin * 发表时间 : 2025-12-01
在全球人工智能竞赛日益激烈的背景下,中国正积极探索一条不同于传统制程升级路径的技术突围之路。在近期举行的北京ICC全球CEO峰会上,中国半导体行业协会IC设计分会理事长、清华大学集成电路学院教授魏少军博士披露了一项引人注目的技术进展:基于国产14纳米逻辑工艺与18纳米DRAM工艺,通过软件定义近存计算架构,所研发的AI芯片在能效比和单位算力成本上已可媲美英伟达采用4纳米先进制程的高端GPU。这一成果不仅展现了中国在受限条件下实现技术创新的能力,也为全球AI硬件发展提供了新的思路。
魏少军指出,当前AI模型对算力的需求呈指数级增长,从AlphaFold2到GPT系列大模型,训练任务的复杂度不断提升,传统“冯·诺依曼”架构因“内存墙”问题难以满足高效数据吞吐需求。为此,中国科研团队提出“近存计算”(Near-Memory Computing)方案,将逻辑运算单元与存储器通过3D混合键合技术紧密集成,大幅缩短数据传输路径。该架构下,14纳米AI芯片与18纳米DRAM堆叠后,铜-铜互连密度显著提升,带宽可达TB/s级别,同时功耗降低高达85%。据测算,该芯片每瓦能效达2 TFLOPS,整卡算力约120 TFLOPS,在特定AI推理场景中展现出接近A100 GPU的性能表现。
然而,必须客观看待这一技术的实际竞争力。据外媒报道,公开数据显示,英伟达A100 GPU的FP16算力高达312 TFLOPS,H100更突破2000 TFLOPS,且其CUDA生态、软件栈及大规模集群调度能力构成难以复制的护城河。魏少军所提的120 TFLOPS数据或为特定稀疏计算或INT8精度下的峰值,并非通用浮点性能。尽管如此,该技术路线的战略价值不容忽视——它绕开了对EUV光刻机等尖端设备的依赖,依托成熟制程实现“系统级创新”,为构建自主可控的AI基础设施提供了可行路径。未来,若能在编译器优化、软件生态适配及多芯片互联方面持续突破,中国有望在AI专用芯片领域形成差异化优势,逐步减少对国外高端GPU的依赖。
魏少军指出,当前AI模型对算力的需求呈指数级增长,从AlphaFold2到GPT系列大模型,训练任务的复杂度不断提升,传统“冯·诺依曼”架构因“内存墙”问题难以满足高效数据吞吐需求。为此,中国科研团队提出“近存计算”(Near-Memory Computing)方案,将逻辑运算单元与存储器通过3D混合键合技术紧密集成,大幅缩短数据传输路径。该架构下,14纳米AI芯片与18纳米DRAM堆叠后,铜-铜互连密度显著提升,带宽可达TB/s级别,同时功耗降低高达85%。据测算,该芯片每瓦能效达2 TFLOPS,整卡算力约120 TFLOPS,在特定AI推理场景中展现出接近A100 GPU的性能表现。
然而,必须客观看待这一技术的实际竞争力。据外媒报道,公开数据显示,英伟达A100 GPU的FP16算力高达312 TFLOPS,H100更突破2000 TFLOPS,且其CUDA生态、软件栈及大规模集群调度能力构成难以复制的护城河。魏少军所提的120 TFLOPS数据或为特定稀疏计算或INT8精度下的峰值,并非通用浮点性能。尽管如此,该技术路线的战略价值不容忽视——它绕开了对EUV光刻机等尖端设备的依赖,依托成熟制程实现“系统级创新”,为构建自主可控的AI基础设施提供了可行路径。未来,若能在编译器优化、软件生态适配及多芯片互联方面持续突破,中国有望在AI专用芯片领域形成差异化优势,逐步减少对国外高端GPU的依赖。






关闭返回