美元换人民币  当前汇率7.1

英伟达新技术让内存用量缩减20倍

* 来源 : * 作者 : admin * 发表时间 : 2026-03-22
在内存价格高企的背景下,英伟达(NVIDIA)研究人员提出了一项名为“KV缓存转换编码(KVTC)”的新技术,有望成为破解内存瓶颈的关键。
什么是KV缓存?
简单来说,它是AI模型的“短期记忆”。为了让模型记住之前的对话内容,避免每次回答都重新计算整段历史,系统会将关键信息(Key与Value)存储在显存中。然而,随着对话变长,这个缓存会迅速膨胀至数GB,成为延迟和成本的主要瓶颈。
KVTC如何工作?
英伟达借鉴了JPEG图像压缩的逻辑,利用数据中的“低秩结构”特性,对KV缓存进行高效压缩。该技术无需修改模型权重,通过主成分分析、自适应量化和熵编码等步骤,可在GPU上并行快速运行。
效果惊人:
测试结果显示,KVTC可将大型语言模型的内存用量缩减高达20倍,而准确率损失低于1%。对于长上下文、多轮互动的企业级应用(如编程助理、迭代式推理),该技术能将首个Token生成时间加速最多8倍。虽然这项技术不能完全消除对物理内存的需求,但它能显著提升现有硬件的效率,延缓对新增存储容量的渴求。未来,这种压缩层可能会像视频压缩一样,成为AI基础设施的标准配置。