NVIDIA GPU在 ML 模型推理方面的比较： A10 与 A10G

企业资讯

发布时间： 2024-07-04 14:09

NVIDIA A10 GPU是一款Ampere系列数据中心显卡，常用于执行常见的 ML 推理任务，从运行 70 亿参数 LLM 到Whisper和Stable Diffusion XL等模型。

但是，你不会在 AWS 上找到任何 A10。相反，AWS 有一个特殊变体 A10G，它为 G5 实例提供支持。虽然 A10G 与 A10 相似，但它们并不是完全相同的卡。这两款卡有一些不同的规格——A10 优先考虑张量计算，而 A10G 具有更高的 CUDA 核心性能——但共享相同的 GPU 内存和带宽。

A10 和 A10G 可以互换用于大多数模型推理任务。然而，从它们的规格表上看不出这一点。在本文中，我们将发现这两款显卡之间存在哪些差异，并证明为什么它们在模型推理方面通常是等效的。

一、A10 与 A10G 规格细分

A10 和 A10G 虽然相似，但针对不同的工作负载进行了优化，这反映在统计表中。然而，正如我们所看到的，尽管关键规格看起来有很大差异，但这两款显卡在大多数模型推理任务中的表现都差不多。

1、规格表：A10 与 A10G

2、主要相似之处：VRAM 和带宽

A10 和 A10G 共享相同的 GPU 内存统计数据：24 GB 的 GDDR6 VRAM，内存带宽为每秒 600 GB。尽管核心数量和外形尺寸略有不同，但共享的 VRAM 统计数据表明 A10 和 A10G 是密切相关的显卡。

3、主要区别：Tensor 核心计算

查看统计表时，一个差异立即显现出来：从 FP32 到 INT4，A10G 在每个精度级别上的张量核心计算都明显较低。另一方面，A10G 在非张量核心 FP32 计算方面略有优势。

从表面上看，这似乎是 A10G 的一个主要缺点。毕竟，大多数 ML 推理都发生在张量核心上，并且通常在 LLM 和稳定扩散等模型的 FP16 中发生。在那里，标准 A10 拥有 125 TF 的计算能力，而 A10G 只有 70 TF。

然而，对于大多数工作流程来说，这种计算差异实际上并不是推理速度的重要因素。大多数 LLM 和类似模型的 ML 模型推理都受内存限制，而不是计算限制。这意味着，限制模型结果生成速度的因素是推理过程中从内存加载和保存到内存所需的时间。

因此，A10 和 A10G 在大多数模型推理任务中具有相似的性能，我们将在下面证明这一点。

二、GPU 推理等效性的证明

正如我们上面所述，A10 和 A10G 具有相同的 GPU 内存和带宽，但 Tensor Cores 的计算能力不同。

这对 LLM 推理意味着什么？在我们最近的 LLM 推理指南中，我们：

计算 ops:byte 比率来确定给定 GPU 对其访问的每个内存字节能够执行多少个计算操作。

计算给定 LLM 的注意函数的算术强度，以确定运行模型需要多少计算量。

将 ops:byte 比率与算术强度进行比较，以确定给定模型的推理是否受计算限制或内存限制。

下面针对 A10 和 A10G GPU 与 Llama 2 7B 进行了总结，其值与大多数其他 70 亿参数 LLM 相似：

Llama 2 7B（及类似型号）的算术强度略高于 A10G 的 ops:byte 比率的一半，这意味着推理仍然受到内存限制，就像 A10 一样。

可能存在一些模型的推理受计算限制，但这种模式适用于大多数流行模型：LLM 推理往往受内存限制，因此 A10 和 A10G 之间的性能相当。

A10 可能提供更好性能的一个方面是批量推理。一次性批量向模型发送多个请求可以更有效地利用内存，从而提高模型的算术强度。对于批量推理，A10 更高的 ops:byte 比率可以使其处理比 A10G 更大的批次。

三、对其他 24 GB GPU 的调查

根据这些结果，我们可以推断出与其他具有 24 GB VRAM 的 GPU 进行比较。我们将研究数据中心级 L4、面向工作站的 A5000和消费级 RTX 3090 Ti。较新的 RTX 4090 具有类似的模型推理内存统计数据，但 RTX 3090 Ti 与 A10 更相近，因为它也使用了 Ampere 微架构。

在分析的所有数据中心、工作站和消费者卡中，模式都成立：LLM 推理受内存限制，因为卡的 ops:byte 比率超过了算术强度（Llama 2 7B 为 62 ops:byte）。因此，内存带宽对推理速度的影响将大于张量核心计算。

四、适合您工作负载的 GPU

在选择用于模型推理的 GPU 时，最重要的因素是确保所选卡具有足够的 VRAM 来运行模型。例如，如果您正在运行 70 亿参数的 LLM，则您将选择云提供商提供的具有 24 GB VRAM 的任何 GPU。

如果您使用捷智算这个算力租赁平台，您可能会面临 GPU 之间的选择，例如 A10 与 A10G。虽然这些卡在大多数工作负载下的性能应该相似，但您可以计算特定用例的推理瓶颈，以确保做出最佳选择。

上一篇

利用 TensorRT 释放 NVIDIA H100 GPU 的全部潜力，实现 ML 推理

下一篇

V100显卡服务器租用价格：多平台对比分析