美元换人民币  当前汇率7.1

SK海力士提出HBM与HBF混合架构,突破大语言模型推理瓶颈

* 来源 : * 作者 : admin * 发表时间 : 2026-03-04
SK海力士近期在IEEE发表了一篇论文,提出了一种创新架构:将高带宽存储器(HBM)的速度优势与高带宽闪存(HBF)的大容量特性,通过单一中介层整合并连接至图形处理器(GPU),以加速人工智能(AI)模型及代理的推理处理。
当前,包括即将推出的英伟达Rubin系列在内的主流GPU,均采用插拔式连接的HBM,以确保向GPU核心高速传输数据。然而,HBM有限的容量已成为制约大型语言模型(LLM)推理效率的瓶颈。当数据超出HBM容量时,系统不得不从速度较慢的本地固态硬盘(SSD)读取数据,导致推理延迟增加。相比之下,HBF的访问速度虽略逊于HBM,但远快于本地SSD,且拥有更大的存储容量。若采用与HBM相同的接口技术(如SK海力士的H³设计),HBF可作为HBM的高速缓存扩展,显著缩短大型模型的处理时间。
这一构想的核心在于解决“存储器墙”问题。未来的HBM世代虽能提升容量和带宽,但难以即时满足当前日益增长的推理低延迟需求,导致GPU常因等待数据而受限。SK海力士的论文指出,其H³架构特别适合解决键值(KV)缓存推理领域的痛点。在AI推理过程中,模型需将上下文序列(包含组件标记和向量)存储在HBM中,即KV缓存结构。随着模型演进,如最新的Llama 4支持高达1000万的序列长度,所需的KV缓存可能高达5.4TB,仅存储这些数据就需要数十块GPU,成本高昂。
目前,英伟达的ICMSP软件虽能将KV缓存扩展至本地NVMe SSD,提升了HBM溢出时的处理速度,但仍受限于PCIe总线延迟。HBF的出现则提供了更靠近GPU的KV缓存方案,消除了SSD的传输瓶颈,提供更低延迟和更高带宽的访问能力。论文分析指出,HBF的预期优势在于:容量可达HBM的16倍,带宽与HBM相当;其劣势则包括访问延迟较高(微秒级对比纳秒级)、写入耐久性较低以及功耗约为HBM的4倍。
鉴于HBF的写入耐久性有限(约10万次写入周期),它最适合高强度的读取工作负载。H³论文强调,配备该架构的系统在同等GPU数量下,能处理比纯HBM系统更多的请求,尤其适用于大型只读应用场景,例如基于共享预计算键值缓存的“缓存增强生成”(CAG)。在此类场景中,大语言模型接收查询后,主要任务是读取巨大的共享预计算KV缓存并进行计算输出,本质上属于只读操作。
在H³架构设计中,HBM和HBF控制器分别位于各自的基底芯片上。模型权重和共享的预计算KV缓存存储在HBF中,而生成的KV缓存及其他动态数据则存储在HBM中。为弥补NAND闪存的延迟,HBM基底芯片中集成了“延迟隐藏缓冲”(LHB),作为一种预取机制。GPU通过HBM基底芯片内的地址解码器和路由器,可直接访问HBF,两者对GPU而言构成了统一的主内存地址空间。
SK海力士利用英伟达Blackwell GPU(B200)搭配8个HBM3E堆栈和8个HBF堆栈进行了仿真测试。结果显示,在处理100万令牌时,H³架构的性能是纯HBM系统的1.25倍;而在处理1000万令牌时,性能更是提升了6.14倍。在能效方面,每瓦性能提升了2.69倍。更为惊人的是,在测试1000万令牌的KV缓存时,HBM+HBF配置能处理的并发查询量是纯HBM配置的18.8倍。这意味着,原本需要32块GPU及其HBM才能承担的工作负载,采用HBF辅助后仅需2块GPU即可完成,大幅降低了电力消耗和硬件成本。
综上所述,SK海力士提出的H³混合架构,通过巧妙结合HBM的高速与HBF的大容量,有效解决了大语言模型推理中的内存容量瓶颈。特别是在处理海量只读数据的场景下,该架构不仅显著提升了系统吞吐量和能效,更为降低AI推理成本提供了极具竞争力的解决方案,有望成为未来AI基础设施的重要发展方向。