SK海力士提出HBM与HBF混合架构，突破大语言模型推理瓶颈

* 来源 : * 作者 : admin * 发表时间 : 2026-03-04

SK海力士近期在IEEE发表了一篇论文，提出了一种创新架构：将高带宽存储器（HBM）的速度优势与高带宽闪存（HBF）的大容量特性，通过单一中介层整合并连接至图形处理器（GPU），以加速人工智能（AI）模型及代理的推理处理。

当前，包括即将推出的英伟达Rubin系列在内的主流GPU，均采用插拔式连接的HBM，以确保向GPU核心高速传输数据。然而，HBM有限的容量已成为制约大型语言模型（LLM）推理效率的瓶颈。当数据超出HBM容量时，系统不得不从速度较慢的本地固态硬盘（SSD）读取数据，导致推理延迟增加。相比之下，HBF的访问速度虽略逊于HBM，但远快于本地SSD，且拥有更大的存储容量。若采用与HBM相同的接口技术（如SK海力士的H³设计），HBF可作为HBM的高速缓存扩展，显著缩短大型模型的处理时间。
这一构想的核心在于解决“存储器墙”问题。未来的HBM世代虽能提升容量和带宽，但难以即时满足当前日益增长的推理低延迟需求，导致GPU常因等待数据而受限。SK海力士的论文指出，其H³架构特别适合解决键值（KV）缓存推理领域的痛点。在AI推理过程中，模型需将上下文序列（包含组件标记和向量）存储在HBM中，即KV缓存结构。随着模型演进，如最新的Llama 4支持高达1000万的序列长度，所需的KV缓存可能高达5.4TB，仅存储这些数据就需要数十块GPU，成本高昂。
目前，英伟达的ICMSP软件虽能将KV缓存扩展至本地NVMe SSD，提升了HBM溢出时的处理速度，但仍受限于PCIe总线延迟。HBF的出现则提供了更靠近GPU的KV缓存方案，消除了SSD的传输瓶颈，提供更低延迟和更高带宽的访问能力。论文分析指出，HBF的预期优势在于：容量可达HBM的16倍，带宽与HBM相当；其劣势则包括访问延迟较高（微秒级对比纳秒级）、写入耐久性较低以及功耗约为HBM的4倍。

鉴于HBF的写入耐久性有限（约10万次写入周期），它最适合高强度的读取工作负载。H³论文强调，配备该架构的系统在同等GPU数量下，能处理比纯HBM系统更多的请求，尤其适用于大型只读应用场景，例如基于共享预计算键值缓存的“缓存增强生成”（CAG）。在此类场景中，大语言模型接收查询后，主要任务是读取巨大的共享预计算KV缓存并进行计算输出，本质上属于只读操作。

在H³架构设计中，HBM和HBF控制器分别位于各自的基底芯片上。模型权重和共享的预计算KV缓存存储在HBF中，而生成的KV缓存及其他动态数据则存储在HBM中。为弥补NAND闪存的延迟，HBM基底芯片中集成了“延迟隐藏缓冲”（LHB），作为一种预取机制。GPU通过HBM基底芯片内的地址解码器和路由器，可直接访问HBF，两者对GPU而言构成了统一的主内存地址空间。
SK海力士利用英伟达Blackwell GPU（B200）搭配8个HBM3E堆栈和8个HBF堆栈进行了仿真测试。结果显示，在处理100万令牌时，H³架构的性能是纯HBM系统的1.25倍；而在处理1000万令牌时，性能更是提升了6.14倍。在能效方面，每瓦性能提升了2.69倍。更为惊人的是，在测试1000万令牌的KV缓存时，HBM+HBF配置能处理的并发查询量是纯HBM配置的18.8倍。这意味着，原本需要32块GPU及其HBM才能承担的工作负载，采用HBF辅助后仅需2块GPU即可完成，大幅降低了电力消耗和硬件成本。
综上所述，SK海力士提出的H³混合架构，通过巧妙结合HBM的高速与HBF的大容量，有效解决了大语言模型推理中的内存容量瓶颈。特别是在处理海量只读数据的场景下，该架构不仅显著提升了系统吞吐量和能效，更为降低AI推理成本提供了极具竞争力的解决方案，有望成为未来AI基础设施的重要发展方向。

上一条: 一文看懂SLC/MLC/TLC/QLC：选SSD颗粒不踩坑，看完这篇就够了下一条: 西数旗下SanDisk联手海力士推出HBF，AI算力瓶颈要被彻底炸碎？

快讯：

SK海力士提出HBM与HBF混合架构，突破大语言模型推理瓶颈

业内新闻

行情日评

品牌资讯