SK海力士提出HBM与HBF混合架构,突破大语言模型推理瓶颈
* 来源 : * 作者 : admin * 发表时间 : 2026-03-04
SK海力士近期在IEEE发表了一篇论文,提出了一种创新架构:将高带宽存储器(HBM)的速度优势与高带宽闪存(HBF)的大容量特性,通过单一中介层整合并连接至图形处理器(GPU),以加速人工智能(AI)模型及代理的推理处理。

这一构想的核心在于解决“存储器墙”问题。未来的HBM世代虽能提升容量和带宽,但难以即时满足当前日益增长的推理低延迟需求,导致GPU常因等待数据而受限。SK海力士的论文指出,其H³架构特别适合解决键值(KV)缓存推理领域的痛点。在AI推理过程中,模型需将上下文序列(包含组件标记和向量)存储在HBM中,即KV缓存结构。随着模型演进,如最新的Llama 4支持高达1000万的序列长度,所需的KV缓存可能高达5.4TB,仅存储这些数据就需要数十块GPU,成本高昂。
目前,英伟达的ICMSP软件虽能将KV缓存扩展至本地NVMe SSD,提升了HBM溢出时的处理速度,但仍受限于PCIe总线延迟。HBF的出现则提供了更靠近GPU的KV缓存方案,消除了SSD的传输瓶颈,提供更低延迟和更高带宽的访问能力。论文分析指出,HBF的预期优势在于:容量可达HBM的16倍,带宽与HBM相当;其劣势则包括访问延迟较高(微秒级对比纳秒级)、写入耐久性较低以及功耗约为HBM的4倍。
鉴于HBF的写入耐久性有限(约10万次写入周期),它最适合高强度的读取工作负载。H³论文强调,配备该架构的系统在同等GPU数量下,能处理比纯HBM系统更多的请求,尤其适用于大型只读应用场景,例如基于共享预计算键值缓存的“缓存增强生成”(CAG)。在此类场景中,大语言模型接收查询后,主要任务是读取巨大的共享预计算KV缓存并进行计算输出,本质上属于只读操作。

SK海力士利用英伟达Blackwell GPU(B200)搭配8个HBM3E堆栈和8个HBF堆栈进行了仿真测试。结果显示,在处理100万令牌时,H³架构的性能是纯HBM系统的1.25倍;而在处理1000万令牌时,性能更是提升了6.14倍。在能效方面,每瓦性能提升了2.69倍。更为惊人的是,在测试1000万令牌的KV缓存时,HBM+HBF配置能处理的并发查询量是纯HBM配置的18.8倍。这意味着,原本需要32块GPU及其HBM才能承担的工作负载,采用HBF辅助后仅需2块GPU即可完成,大幅降低了电力消耗和硬件成本。
综上所述,SK海力士提出的H³混合架构,通过巧妙结合HBM的高速与HBF的大容量,有效解决了大语言模型推理中的内存容量瓶颈。特别是在处理海量只读数据的场景下,该架构不仅显著提升了系统吞吐量和能效,更为降低AI推理成本提供了极具竞争力的解决方案,有望成为未来AI基础设施的重要发展方向。






关闭返回