用于AI 工作负载的 NVIDIA GPU 的比较：T4 与 A10

行业资讯

发布时间： 2024-07-03 14:42

选择合适的 GPU 来部署和提供 ML 模型至关重要。您需要选择一款功能足够强大的 GPU，以便稳定运行您的模型，而无需为不必要的空间支付过多费用。通过本文，您将能够在 NVIDIA 的 T4 和 A10 GPU 之间进行选择，以确定最适合您的需求和预算的 GPU。

生成式 AI 工作负载（例如微调基础模型、部署大型开源模型和提供 LLM）需要强大的 GPU。但由于可用的选项众多，选择适合您工作负载的 GPU 非常困难。很难对具有不同架构、核心类型和内存容量的显卡进行同类比较。

这篇文章概述了比较 GPU 时需要了解的关键规格以及需要考虑的因素，例如价格、可用性和水平扩展机会。然后，我们应用这些想法在两种流行的 GPU（NVIDIA T4 和 A10）之间进行选择，以应对现实的生成式 AI 工作负载。

抽象地比较 GPU 是困难的，尤其是跨代比较。T4 价格较低，因此如果您的工作负载在 T4 上可靠且高效地运行，则应使用 T4 实例。如果不是，请升级到 A10 实例以获得更快的调用速度和更大的模型。

让我们通过每张卡的一个示例用例来仔细看看这两款 GPU。

一、NVIDIA T4 概述

NVIDIA Tesla T4 是一款中端数据中心 GPU。它于 2019 年发布，采用 NVIDIA 的 Turing 架构。它非常适合一系列生成式 AI 任务。

NVIDIA T4

1、NVIDIA T4 规格

CUDA 核心：2560

张量核心：320

显存：16 GiB

T4规格页面提供了更多规格。对于我们的目的而言，重要的是要了解 T4 具有 16GiB 的 VRAM 和相对于 CUDA 核心而言大量的张量核心。

2、NVIDIA T4 价格

数据中心 GPU 的设计目的并不是供消费者购买。我们大多数人不会自己连接服务器机架来部署模型，因此托管解决方案更有意义。在捷智算上，T4 实例的起价为每分钟 1.753 美分。它是捷智算上最便宜的显卡选项。

3、示例用例：Whisper

让我们通过 T4 的示例用例来将这些原始数字具体化。

NVIDIA T4 是一款出色的 GPU，非常适合运行OpenAI 的开源音频转录模型Whisper。该模型的最大版本可以轻松适应 16GiB 的 VRAM，并且该卡实现了可观的性能，在测试期间，在不到 4 分钟的时间内转录了 30 分钟的音频片段。捷智算默认使用 T4 来为 Whisper 提供服务。

如果您正在运行中型模型，并且模型权重文件足够小，可以放入 16 GiB 的 VRAM 中，那么 T4 就是适合您工作流程的功能强大且价格实惠的 GPU。

二、NVIDIA A10 概述

A10 是一款比 T4 更大、更强大的 GPU。它拥有更多 CUDA 核心、更多张量核心和更多 VRAM。它于 2021 年发布，采用 NVIDIA 的 Ampere 架构。

NVIDIA A10

您可以在 A10 上运行几乎任何可以在 T4 上运行的东西，而且速度可能会更快。以下是 T4 与 A10 上的 Whisper 调用的基准测试：

T4 与 A10 上的 Whisper 调用的基准测试

每次调用都在热 GPU 上运行。显示的值是五次运行的平均值。

但在本例中，使用 A10 的成本约为 T4 的 1.9 倍，而加速速度却提高了 1.2 至 1.4 倍。除非调用时间对于您的用例至关重要，否则 A10 的作用不仅仅是成为更快的 T4。它的作用是运行 T4 根本无法处理的工作负载。

关于 A10 的简要说明：有时您会看到 A10G。A10和 A10G 是类似的卡，其中 A10G 是 AWS 针对其 G5 实例类型的特定变体。

1、NVIDIA A10 规格

CUDA 核心：9216

张量核心：288

显存：24 GiB

A10的规格页面包含其余详细信息。除了额外的 CUDA 核心和 VRAM 外，A10 还增加了 72 个光线追踪核心，并将 T4 的内存带宽几乎翻了一番。不过，对于服务模型来说，最重要的是核心数量和 VRAM 的增加。

2、NVIDIA A10 价格

再次强调，预先购买数据中心 GPU 并不常见。但如果您感兴趣的话，网上该卡的售价定为 5,700 美元。对于托管解决方案，捷智算上配备 A10 GPU 的实例起价为每分钟 3.353 美分。

3、用例示例：Stable Diffusion XL

那么如果我们不只是使用 A10 来超越 T4，我们还要用它做什么呢？

在Stable Diffusion XL上运行推理需要额外的处理能力和 A10 提供的 24 GiB 内存。

A10 还可用于运行 LLM。流行的 70 亿参数模型（如Mistral 7B和Llama 2 7B）在 A10 上运行，并且您可以启动一个包含多个 A10 的实例，以适应更大的模型（如Llama 2 70B）。

三、哪种 GPU 适合您？

以下是 T4 和 A10 规格和价格的并排比较。

T4 和 A10 规格和价格的并排比较

如果您的模型适合 T4，并且您对性能感到满意，那么您绝对应该使用 T4 来经济高效地运行您的工作负载。对于计算或内存要求较高的作业，可以使用 A10。

使用捷智算的定价计算器来预测提供模型的成本，并请联系我们了解批量折扣或讨论微调、部署和提供 ML 模型的专用硬件需求。

上一篇

RTX 3090显卡服务器租用价格国内外平台对比分析

下一篇

H800算力租赁如何进行？H800算力租赁过程详解