NVIDIA Blackwell 引领新 InferenceMAX 基准测试,性能与效率双丰收
* 来源 : * 作者 : admin * 发表时间 : 2025-10-10
NVIDIA Blackwell 在最新的 SemiAnalysis InferenceMAX v1 基准测试中表现卓越,展示了在推理硬件性能方面的领先地位。InferenceMAX v1 是一项开源计划,旨在提供评估推理硬件性能的全面方法。结果表明,NVIDIA GPU 在所有工作负载中均能提供最高的推理性能。
性能飞跃与经济效益
数据显示,NVIDIA Blackwell 的性能比上一代 Hopper 提高了 15 倍,从而带来了同样倍数的收入机会。这种行业领先的性能和盈利能力源于极端的硬件-软件协同设计,包括对 NVFP4 低精度格式的支持、第五代 NVIDIA NVLink 和 NVLink 交换机,以及 NVIDIA TensorRT-LLM 和 Dynamo 推理框架。
通过 DeepSeek-R1 8K/1K 比较,NVIDIA GB200 和 H200 GPU 的性能和投资回报率明显不同。GB200 在每位用户 50 TPS 时实现了比 H200 高出 15 倍的吞吐量(10,000 TPS/GPU)。对 GB200 NVL72 的 500 万美元投资在三年内可产生 7500 万美元的代币收入,利润大大超过 GPU 和非 GPU 成本。
InferenceMAX v1 内部细节
InferenceMAX v1 的一个关键特点是其持续的自动化测试。每天发布基准扫描的持续集成(CI)结果,并在多个推理框架(SGLang、TensorRT-LLM 和 vLLM)上运行测试,以捕获最新软件版本的性能改进。基准测试涵盖单节点和多节点范围的专家并行(EP)配置,确保结果反映生产环境中使用的各种部署场景。
持续优化提升性能
除了硬件创新外,NVIDIA 还通过持续的软件优化推动性能提升。例如,在 gpt-oss-120b 上,使用 TensorRT-LLM 的 Blackwell B200 性能在两个月内从初始模型发布时的每个 GPU 吞吐量大幅提高。最新版本的 TensorRT-LLM 实现了 60,000 TPS/GPU 的最大吞吐量,在 100 TPS/用户时提高了 5 倍至 30,000 TPS/GPU,交互性达到了 1,000 TPS/用户。
软件优化带来的经济效应
这些软件优化不仅提升了性能,还显著降低了每百万个代币的成本。例如,在 100 TPS/用户时,每百万个代币的成本从发布的 0.11 美元降至现在的 0.02 美元,下降了 5 倍。即使在 400 TPS/用户的超高交互性下,每百万个代币的成本也保持在 0.12 美元的相对较低水平。
Blackwell 架构的优势
Blackwell 架构支持高效的 Llama 3.3 70B 推理,提供了新的性能标准。在 Llama 3.3 70B 1K/1K 基准测试中,Blackwell 以 50 TPS/用户的速度每秒提供 10,000 个令牌,比 Hopper H200 高出 4 倍以上。NVFP4 等架构创新使得密集和稀疏工作负载中的性能处于领先地位。
开源合作与社区驱动
NVIDIA 与 SGLang 和 vLLM 等开源项目合作,共同开发新的 Blackwell 内核和优化。这些贡献通过 FlashInfer 提供,包括用于注意力预填充和解码、通信、GEMM、MNNVL、MLA 和 MoE 的增强或新引入的内核。此外,gpt-oss、Llama 3.3 和通用架构的性能和功能改进已集成到 vLLM 中。
结论
随着人工智能从一次性答案转向复杂的推理,对推理及其背后的经济学需求正在迅速增长。InferenceMAX v1 基准测试验证了 NVIDIA Blackwell 架构在大规模部署 AI 方面提供的世界级性能。通过先进的硬件、软件优化和开源协作,NVIDIA 不仅提升了推理性能,还大幅降低了成本,为 AI 工厂带来了更高的经济效益。这一系列创新使得 NVIDIA Blackwell 成为了现代人工智能基础设施的理想选择。
性能飞跃与经济效益
数据显示,NVIDIA Blackwell 的性能比上一代 Hopper 提高了 15 倍,从而带来了同样倍数的收入机会。这种行业领先的性能和盈利能力源于极端的硬件-软件协同设计,包括对 NVFP4 低精度格式的支持、第五代 NVIDIA NVLink 和 NVLink 交换机,以及 NVIDIA TensorRT-LLM 和 Dynamo 推理框架。
通过 DeepSeek-R1 8K/1K 比较,NVIDIA GB200 和 H200 GPU 的性能和投资回报率明显不同。GB200 在每位用户 50 TPS 时实现了比 H200 高出 15 倍的吞吐量(10,000 TPS/GPU)。对 GB200 NVL72 的 500 万美元投资在三年内可产生 7500 万美元的代币收入,利润大大超过 GPU 和非 GPU 成本。
InferenceMAX v1 内部细节
InferenceMAX v1 的一个关键特点是其持续的自动化测试。每天发布基准扫描的持续集成(CI)结果,并在多个推理框架(SGLang、TensorRT-LLM 和 vLLM)上运行测试,以捕获最新软件版本的性能改进。基准测试涵盖单节点和多节点范围的专家并行(EP)配置,确保结果反映生产环境中使用的各种部署场景。
持续优化提升性能
除了硬件创新外,NVIDIA 还通过持续的软件优化推动性能提升。例如,在 gpt-oss-120b 上,使用 TensorRT-LLM 的 Blackwell B200 性能在两个月内从初始模型发布时的每个 GPU 吞吐量大幅提高。最新版本的 TensorRT-LLM 实现了 60,000 TPS/GPU 的最大吞吐量,在 100 TPS/用户时提高了 5 倍至 30,000 TPS/GPU,交互性达到了 1,000 TPS/用户。
软件优化带来的经济效应
这些软件优化不仅提升了性能,还显著降低了每百万个代币的成本。例如,在 100 TPS/用户时,每百万个代币的成本从发布的 0.11 美元降至现在的 0.02 美元,下降了 5 倍。即使在 400 TPS/用户的超高交互性下,每百万个代币的成本也保持在 0.12 美元的相对较低水平。
Blackwell 架构的优势
Blackwell 架构支持高效的 Llama 3.3 70B 推理,提供了新的性能标准。在 Llama 3.3 70B 1K/1K 基准测试中,Blackwell 以 50 TPS/用户的速度每秒提供 10,000 个令牌,比 Hopper H200 高出 4 倍以上。NVFP4 等架构创新使得密集和稀疏工作负载中的性能处于领先地位。
开源合作与社区驱动
NVIDIA 与 SGLang 和 vLLM 等开源项目合作,共同开发新的 Blackwell 内核和优化。这些贡献通过 FlashInfer 提供,包括用于注意力预填充和解码、通信、GEMM、MNNVL、MLA 和 MoE 的增强或新引入的内核。此外,gpt-oss、Llama 3.3 和通用架构的性能和功能改进已集成到 vLLM 中。
结论
随着人工智能从一次性答案转向复杂的推理,对推理及其背后的经济学需求正在迅速增长。InferenceMAX v1 基准测试验证了 NVIDIA Blackwell 架构在大规模部署 AI 方面提供的世界级性能。通过先进的硬件、软件优化和开源协作,NVIDIA 不仅提升了推理性能,还大幅降低了成本,为 AI 工厂带来了更高的经济效益。这一系列创新使得 NVIDIA Blackwell 成为了现代人工智能基础设施的理想选择。