AI时代对NAND Flash需求的影响
* 来源 : * 作者 : admin * 发表时间 : 2026-01-10
在人工智能时代,有两个关键因素正在显著改变NAND Flash的需求模式:一是提高NAND的耐写性(pSLC化),二是将更多数据保留在靠近GPU的存储层(如KV缓存/上下文)。这两种趋势叠加,使得NAND的实际消耗量远超其表面容量需求。
首先讨论KV缓存的重要性。为了实现高效的长上下文推理,不可能每次都重新计算整个历史数据,因此KV缓存成为推理系统的必需品。英伟达在CES 2026上正式推出了一个平台化方案,旨在通过扩展context window大小并将其延伸至NVMe SSD,从而解决重算成本高以及受限于GPU内存天花板的问题。这意味着未来的推理不仅依赖于DRAM/HBM,还将同时利用NVMe SSD,即背后的NAND Flash。如果这些NVMe层承担的是高写入频率、低延迟访问的任务,系统端自然会倾向于选择更高耐写的规格,例如将部分TLC作为pSLC模式运行,这虽然降低了位元密度,但显著提升了写入寿命和性能。
当TLC被用作pSLC时,实际上是将每个单元的存储位数从3位降至1位,牺牲了容量以换取更高的P/E循环次数和更稳定的写入表现。换句话说,同一颗NAND颗粒若采用pSLC模式,可用容量将减少至原来的三分之一,但耐写度却可提升至原来的十倍以上。因此,合理推测,“NAND颗粒消耗量三倍”的结论可以从两个层次理解:一方面,相同可用容量需要三倍的原始NAND;另一方面,同样的AI服务规模下,更多上下文信息从GPU内存外溢至NVMe层,增加了SSD上的数据管理需求。这表明,未来NAND需求的增长不仅仅源于AI服务器数量的增加,更重要的是AI推理的数据形态发生了变化。NAND不再仅仅是低成本的容量商品,而是推理吞吐量和能耗效率的一部分。只要推理所需的长上下文、持久化KV缓存以及NVMe进入推理架构的趋势继续发展,NAND的供需结构就不会回到过去那种简单的价格波动模式,其价格上行空间也将重新定义。
首先讨论KV缓存的重要性。为了实现高效的长上下文推理,不可能每次都重新计算整个历史数据,因此KV缓存成为推理系统的必需品。英伟达在CES 2026上正式推出了一个平台化方案,旨在通过扩展context window大小并将其延伸至NVMe SSD,从而解决重算成本高以及受限于GPU内存天花板的问题。这意味着未来的推理不仅依赖于DRAM/HBM,还将同时利用NVMe SSD,即背后的NAND Flash。如果这些NVMe层承担的是高写入频率、低延迟访问的任务,系统端自然会倾向于选择更高耐写的规格,例如将部分TLC作为pSLC模式运行,这虽然降低了位元密度,但显著提升了写入寿命和性能。
当TLC被用作pSLC时,实际上是将每个单元的存储位数从3位降至1位,牺牲了容量以换取更高的P/E循环次数和更稳定的写入表现。换句话说,同一颗NAND颗粒若采用pSLC模式,可用容量将减少至原来的三分之一,但耐写度却可提升至原来的十倍以上。因此,合理推测,“NAND颗粒消耗量三倍”的结论可以从两个层次理解:一方面,相同可用容量需要三倍的原始NAND;另一方面,同样的AI服务规模下,更多上下文信息从GPU内存外溢至NVMe层,增加了SSD上的数据管理需求。这表明,未来NAND需求的增长不仅仅源于AI服务器数量的增加,更重要的是AI推理的数据形态发生了变化。NAND不再仅仅是低成本的容量商品,而是推理吞吐量和能耗效率的一部分。只要推理所需的长上下文、持久化KV缓存以及NVMe进入推理架构的趋势继续发展,NAND的供需结构就不会回到过去那种简单的价格波动模式,其价格上行空间也将重新定义。






关闭返回