美元换人民币  当前汇率7.1

英伟达 GIDS+ HBF 技术革命:GPU 甩开 CPU,AI 内存暴增 16 倍突破算力瓶颈

* 来源 : * 作者 : admin * 发表时间 : 2026-05-25
在 AI 算力竞赛白热化的当下,一项颠覆性技术正悄然改写行业规则,却未引发足够关注。英伟达在 Vera Rubin 平台推出的GIDS(GPU 发起直接存储访问) 技术,搭配HBF(高带宽闪存) ,彻底打破传统冯・诺依曼架构束缚,让 GPU 脱离 CPU 管控直连存储,不仅解决 AI 数据传输串行瓶颈,更将内存容量提升超 16 倍,为大模型扩展扫清关键障碍。
传统架构桎梏:CPU 成 AI 算力 "拖油瓶"
长期以来,AI 服务器沿用冯・诺依曼模型,CPU 统筹统一内存空间并主导所有指令调度。即便 GPU 作为加速器普及后,这种模式仍未根本改变:CPU 掌控内存层级,通过 CUDA 内核协调 GPU 工作,数据需先存入主机 DRAM,再经 PCIe 或 NVLink 传输至 GPU,存储访问也全程由 CPU 管理 I/O 队列、页面缓存与 DMA 操作。
随着 AI 模型参数、KV 缓存和数据集规模暴涨,这种架构的缺陷被无限放大。数据密集型 AI 工作负载中,数据传输形成严重串行瓶颈,而封装内 HBM 容量有限,无法承载海量数据,CPU 与 GPU 算力错配问题日益凸显,严重制约 AI 训练与推理效率。
GIDS 技术:GPU"独立自主",彻底甩开 CPU此前英伟达推出的 GPU Direct Storage(GDS)已实现存储设备直接 DMA 到 GPU 内存,绕过主机 DRAM,优化数据传输路径。但 GDS 仍未摆脱 CPU 中心控制模式,缓冲区分配、I/O 命令提交、完成轮询及错误处理均依赖 CPU。
GIDS 技术实现质的飞跃,在 Vera Rubin 平台上首次完全将 CPU 从控制平面移除。GPU 可原生发出存储命令、管理队列对、跟踪数据传输完成状态,直接将数据存入自身地址空间,真正实现对整个内存层次结构的自治,无需 CPU 线程参与,就能支撑数千个并发 I/O 操作,彻底消除 CPU 调度带来的性能损耗。
HBF 存储:高容量低成本,与 HBM 互补突破内存墙
为充分释放 GIDS 技术潜力,HBF 存储应运而生。HBF 采用类似 HBM 的封装堆叠工艺,将 3D NAND 芯片垂直堆叠,依托 TSV 互连和宽总线设计,实现1.6 TB/s 读取带宽,单堆叠容量达 512 GB,是当代 HBM 堆叠密度的 8-16 倍,且单位成本更低。
虽 HBF 读取延迟高于 DRAM,写入耐久性仅约 10^5 次循环,在 CPU 中介访问模式下,这些缺陷会因 CPU 调度开销被放大,难以实用。但 GIDS 技术完美解决这一问题,GPU 通过大规模线程并行和预取机制隐藏延迟,将 HBF 作为直接可寻址的高容量内存层。
实际应用中可构建混合内存架构:HBM 负责处理写入密集操作,如推理阶段 KV 缓存更新;HBF 专注存储读取为主的数据,包括模型权重和长上下文缓存。6 个 HBF 堆叠搭配 2 个 HBM 堆叠,可实现 3120 GB 有效容量,而全 HBM 配置仅 192 GB,容量提升超 16 倍,精准突破限制代理 AI 扩展的内存墙。
功耗减半 + 产业变革,加速 AI 基础设施升级数据移动当前占 AI 服务器功耗约 50%,封装内 HBF 结合 GIDS 技术,缩短数据传输物理距离,大幅减少 CPU 参与,在机架功耗接近 100 kW 及更高时,能实现显著系统级功耗节省。
这项技术加速行业向加速器优先设计转型,与 Vera Rubin 平台的 HBM4、NVLink 6 及 Vera CPU(专注编排而非主控)等创新形成互补。同时,它为 HBF 标准化提供坚实商业支撑,SK 海力士、闪迪等厂商已启动 HBF 规范制定,预计 2026 年下半年推出 HBF 样品,2027 年初实现推理系统软件适配。
2026 年下半年,部署 Vera Rubin 平台的云服务商将成为 GIDS 与 HBF 技术早期采用者,推动内存厂商加速技术落地,重塑 AI 存储产业链格局。
结语
GIDS 绝非简单的 I/O 优化,而是对 GPU 定位的根本性重构——GPU 从从属加速器升级为一流内存管理器。这一变革让 HBF 成为内存层次结构中可靠且经济高效的扩展方案,推动 AI 架构突破纯 HBM 的成本与容量限制,为大模型持续扩展提供核心支撑,引领 AI 算力基础设施迈入全新阶段。