NVIDIA H100 与 H200 GPU 比较：两款 GPU 性能评估

行业资讯

发布时间： 2024-08-30 11:39

NVIDIA 的 H200 GPU在 AI 社区引起了极大的轰动，它提供了显著更高的内存容量——大约是其前身 H100 的两倍。这些 GPU 共享强大的Hopper 架构，专为高效管理广泛的 AI 和 HPC 任务而量身定制。

NVIDIA H100一经推出，就为 AI 性能标准带来了重大转变。随着我们期待 2024 年 H200 的到来，人们对它超越 H100 成就的进步程度的好奇心也愈发强烈。深入研究它们各自的架构方面以及 Nvidia 对 H200 的预览，使我们能够评估最终用户的潜在性能增强。

NVIDIA H100 架构和规格

NVIDIA H100 是 NVIDIA 迄今为止功能最强大、可编程的 GPU，具有多项架构增强功能，例如与其前代产品 A100 相比具有更高的 GPU 核心频率和更强大的计算能力。

H100 引入了新的流多处理器 (SM)，可处理 GPU 架构内的各种任务，包括：

执行 CUDA 线程，这是 NVIDIA 编程模型中的基本执行单元。
执行传统浮点计算（FP32、FP64）。
结合专用核心，如 Tensor Cores。

对于相同数据类型，H100 SM 执行矩阵乘法累加 (MMA)运算的速度是 A100 的两倍。此外，与 A100 SM 相比，它在浮点运算方面实现了四倍的性能提升。这是通过两项关键改进实现的：

1、FP8 数据类型： H100 引入了一种新的数据格式 (FP8)，与 A100 的标准 FP32（32 位）相比，它使用 8 位，从而允许更快的计算，但精度略有降低。

2、改进的 SM 架构：由于内部架构的增强，H100 SM 对于传统数据类型（FP32、FP64）的处理能力本质上是其两倍。

H100 是最好的 GPU 吗？

NVIDIA H100 一经推出，就因其先进的架构、广泛的内存带宽和卓越的 AI 加速功能而被视为 AI 和 HPC 工作负载的顶级 GPU。它专为大规模深度学习、科学计算和数据分析而设计。然而，“最佳”GPU 可能会因具体用例、预算和兼容性需求而异。

H100 采用第四代 Tensor Core，性能较上一代 A100 有显著提升。

此外，H100 还引入了全新的 Transformer 引擎，专门用于加速Transformer 模型的训练和推理，这对于自然语言处理 (NLP) 至关重要。该引擎将软件优化与 Hopper Tensor Core 相结合，以实现大幅加速。

该引擎在两种数据精度格式（FP8 和 FP16）之间动态切换，以实现更快的计算和最小的精度损失，并自动处理模型内这些格式之间的转换以获得最佳性能。

与 A100 相比， H100 Transformer引擎在大型语言模型上提供高达 9 倍的 AI 训练速度和 30 倍的 AI 推理速度。

A100基准测试

NVIDIA H100 强大的 NVLink 网络互连可实现多达 256 个 GPU 在多个计算节点之间的通信，使其成为处理海量数据集和复杂问题的理想选择。安全 MIG 技术允许将 GPU 划分为安全、大小合适的实例，从而优化较小工作负载的服务质量。

NVIDIA H100 是第一款真正异步的 GPU，能够将数据移动与计算重叠，从而最大限度地提高整体计算效率。此功能确保 GPU 能够与处理任务并行执行数据传输，从而减少空闲时间并提高 AI 和高性能计算 (HPC) 工作负载的吞吐量。张量内存加速器 (TMA) 可进一步提高效率，从而优化 GPU 上的内存管理。通过简化内存操作，TMA 减少了管理内存带宽所需的 CUDA 线程，从而释放更多 CUDA 线程用于核心计算。

另一项创新是线程块集群，它将多个线程分组，以实现 H100 内多个处理单元之间的高效协作和数据共享。这扩展到异步操作，确保高效使用 TMA 和 Tensor Cores。此外，H100 引入了新的异步事务屏障，以简化不同处理单元之间的通信。此功能允许线程和加速器高效同步，即使位于不同的芯片部件上也是如此。

NVIDIA H100 与 H200 基准测试

在我们之前对 NVIDIA H100 的基准测试中，我们介绍了它的内存规格和其他功能。在本文中，我们将关注 NVIDIA H200。

H200 基准测试

尽管 H100 令人印象深刻，但 H200 的功能更进一步。它是第一款采用HBM3e 内存的GPU ，内存容量高达 141 GB，几乎是 H100 的两倍。这种增加的内存大小对于 AI 至关重要，允许将更大的模型和数据集直接存储在 GPU 上，从而减少与数据传输相关的延迟。H200 还提供 4.8 TB/s 的内存带宽，与 H100 的 3.35 TB/s 相比有显着提升，从而能够更快地将数据传输到处理核心，这对于高吞吐量工作负载至关重要。

对于内存密集型 HPC 任务（例如天气建模），H200 的卓越内存带宽可促进 GPU 内存和处理核心之间更高效的数据流动，从而减少瓶颈并缩短洞察时间。据报道，HPC 任务的性能提升高达 110 倍，凸显了 H200 处理高度复杂模拟的潜力，使研究人员和工程师能够在更短的时间内取得更多成果。

NVIDIA H100 与 H200规格对比

H200 在 FP64 和 FP32 操作的性能指标上与 H100 相当，FP8 和 INT8 性能没有差异，达到 3,958 TFLOPS。这仍然令人印象深刻，因为 INT8 精度平衡了计算效率和模型准确性，使其成为计算资源有限的边缘设备的理想选择。

H200 提供增强的性能，同时保持与 H100 相同的能耗水平。通过将LLM 任务的能耗降低50% 并将内存带宽增加一倍，它有效地将总拥有成本 (TCO) 降低了 50%。

H200 比 H100 快多少？

NVIDIA H200 GPU 超越了 H100，在特定生成式 AI 和 HPC（高性能计算）基准测试中性能提升高达 45%。这一改进主要归功于 H200 的 HBM3e 内存容量增加、内存带宽增加以及热管理优化。性能增强的程度可能因特定工作负载和配置而异。

NVIDIA H100 与 H200 MLPerf 推理基准测试

让我们来看看 NVIDIA H100 与 NVIDIA H200 在MLPerf 推理分析方面的对比。MLPerf 基准测试是行业标准测试，旨在评估不同平台和环境中机器学习硬件、软件和服务的性能。它们为比较机器学习解决方案的效率和速度提供了可靠的衡量标准，帮助用户确定适合其 AI 和 ML 项目的最佳工具和技术。

NVIDIA H100 与 H200 MLPerf 推理基准测试

高级 AI 模型的开发人员需要测试他们的作品。推理对于大型语言模型 (LLM) 理解新的、未见过的数据至关重要。当呈现不熟悉的信息时，推理使模型能够根据其训练掌握数据中的上下文、意图和关系。然后，模型按顺序生成标记（例如单词）。

在推理过程中，LLM 利用获得的上下文和之前生成的标记来预测序列中的下一个元素。此过程使 LLM 能够生成全面的输出，无论是翻译句子、编写各种形式的创意文本，还是提供问题的全面答案。

在比较 H100 和 H200 在处理推理任务方面的表现时，我们关注的是它们在特定时间范围内能够生成的标记数量。这种方法为评估它们的性能提供了一个实用的指标，特别是在与自然语言处理相关的任务中。

根据MLPerf Inference v4.0针对Llama 2 70B 型号的性能基准测试，H100 在离线场景下实现了 22,290 个令牌/秒的吞吐量。相比之下，H200 在相同场景下实现了 31,712 个令牌/秒的吞吐量，性能显著提升。

Llama 2 70B 型号的性能基准测试

在服务器场景下，H100的吞吐量达到了21504个Token/s，而H200的吞吐量达到了29526个Token/s，说明在服务器场景下，H200相比H100吞吐量提升了37%，性能提升非常明显。此外，在离线场景下，性能提升也非常明显。

NVIDIA H100 与 H200 吞吐量对比

原因概括如下：

1、H200 的内存和带宽提升：

与 H100 相比，H200 拥有更大的内存 (141GB) 和更高的带宽 (4.8 TB/s)，分别约为 1.8 倍和 1.4 倍。这使得 H200 能够容纳更大的数据量，从而减少了从较慢的外部内存不断获取数据的需要。增加的带宽有助于加快内存和 GPU 之间的数据传输速度。因此，H200 无需借助张量并行或流水线并行等复杂技术即可处理大量任务。

2、H200 的推理吞吐量有所提升：

由于没有内存和通信瓶颈，H200 可以将更多的处理能力分配给计算，从而加快推理速度。在 Llama 测试中进行的基准测试证明了这一优势，即使在与 H100 相同的功率水平 (700W TDP) 下，H200 也能实现高达 28% 的提升。

3、H200 的性能提升：

基准测试表明，当功耗配置为 1000W 时，H200 在 Llama 测试中的性能提升幅度比 H100 高达 45%。这些比较凸显了 H200 GPU 相对于 H100 所实现的技术进步和性能提升，特别是在通过更大的内存容量、更高的内存带宽和改进的热管理来管理 Llama 2 70B 等生成式 AI 推理工作负载的需求方面。

加入捷智算平台

如果您是 AI 研究员、深度学习专家、机器学习专业人士或大型语言模型爱好者，我们希望听到您的声音！加入捷智算平台将让您尽早体验强大功能，并获得免费积分，帮助您实现项目。

不要错过这个激动人心的机会，彻底改变您开发和部署应用程序的方式。

上一篇

RTX 4000 与 RTX 4000 SFF Ada 一代对比：哪一款GPU才是您工作的正确选择？

下一篇

2024新品发布会，苹果VS华为，谁家AI更强？