NVIDIA GeForce RTX 4090 与 RTX 3090 深度学习基准测试

企业资讯

发布时间： 2024-08-09 14:40

在本文中，我们对RTX 4090进行了基准测试，以评估其深度学习训练性能。我们还将其性能与 NVIDIA GeForce RTX 3090（上一代 Ampere 旗舰消费级 GPU）进行了比较。

NVIDIA RTX 4090 亮点

24GB内存，售价1599美元。
在我们测试的深度学习模型中，包括视觉、语言、语音和推荐系统中的用例，RTX 4090的训练吞吐量和训练吞吐量/$明显高于RTX 3090 。
尽管RTX 4090的功耗高达450W ，但其训练吞吐量/瓦特接近RTX 3090 。
在我们的2x GPU 测试中，多 GPU 训练扩展得很好。

注意：使用最新的 NVIDIA® PyTorch NGC 容器 ( pytorch:22.09-py3 )测试了 GPU。NVIDIA®过去在其 PyTorch NGC 容器中支持其深度学习示例。但是，自pytorch:21.08-py3以来，情况已不再如此。我们努力安装并简化了在pytorch:22.09-py3中对深度学习示例进行基准测试的过程。您可以在此repo中找到有关如何重现基准测试的更多详细信息。

PyTorch 训练吞吐量

连接我们的云和互联网的链路经历了重大改造，我们的带宽增加到 10 Gbps —是以前带宽的 10 倍。

训练吞吐量比较

tf32-训练-吞吐量-wrt-RTX-3090

FP16-训练-吞吐量-wrt-rtx-3090

所有数字均使用单个RTX 3090的训练吞吐量进行标准化。
RTX 4090的训练吞吐量明显更高。根据型号不同，其TF32训练吞吐量比RTX 3090高出1.3 倍至1.9 倍。
同样，RTX 4090的FP16训练吞吐量比RTX 3090高1.3 倍到1.8 倍。

训练吞吐量/美元比较

TF32-训练吞吐量/美元-wrt-rtx-3090

fp16-每美元训练吞吐量-wrt-rtx-3090

所有数字均使用单个RTX 3090的训练吞吐量/$进行标准化。
RTX 3090和RTX 4090的参考价格分别为1400美元和1599美元。
RTX 4090还具有出色的训练吞吐量 / 美元 –与RTX 3090相比，不同模型和精度的训练吞吐量在1.2 倍到1.6 倍之间。

训练吞吐量/瓦特比较

tf32-训练吞吐量-每瓦-wrt-rtx-3090

fp16-训练吞吐量每瓦-wrt-rtx-3090

所有数字均使用单个RTX 3090的训练吞吐量/瓦特进行标准化。
RTX 3090和RTX 4090的功耗分别为350W和450W。
RTX 4090的训练吞吐量/瓦特与RTX 3090相当，范围在RTX 3090 的0.92 倍到1.5 倍之间。

多 GPU 扩展

由于 Ada Lovelace GPU 架构不再支持 NVLink，我们想知道多 GPU 训练对RTX 4090的效果如何。我们将2 个 RTX 4090插入PCIe Gen 4主板（见下图），并将2 个 RTX 4090与单个RTX 4090的训练吞吐量进行了比较。

rtx-4090-工作站

内有 2 个 RTX 4090。请注意，单个 RTX 4090 将占用3.5 个 PCIe 插槽。

我们的测试表明，RTX 4090在 2x GPU 深度学习训练中表现相当不错：

rtx-4090-与-2x-RTX-4090

大多数模型通过两个 GPU 可实现接近 2 倍的训练吞吐量。
然而，我们确实观察到了一些次优扩展。例如，2xGPU 仅导致对BERT_base模型进行精细调整的吞吐量达到约 1.7 倍。
顺便提一下，在所有测试的 GPU 上，Tacotron2 FP16并不比TF32快。这与NVIDIA 的 Tacotron2基准测试报告一致。

最后但同样重要的一点是，我们将2x RTX 4090与2x RTX 3090 （使用 NVLink）进行了比较，发现2x RTX 4090 的表现始终优于2x RTX 3090 ：

tf32-训练-吞吐量-wrt-2x-3090-NVlinked

fp16-训练-吞吐量-wrt-2x-3090-NVlinked

结论

总而言之，GeForce RTX 4090是一款出色的深度学习显卡，尤其适合精打细算的创作者、学生和研究人员。它不仅比上一代旗舰消费级 GPU GeForce RTX 3090快得多，而且在训练吞吐量/美元方面也更具成本效益。对于更大的训练工作负载，NVIDIA RTX 专业 GPU 提供更大的 GPU 内存来处理更大的训练数据集和模型。

与此同时，对于那些想要购买RTX 4090 的人来说，有几个注意事项：首先，它不是一张小卡。它的 61 毫米（2.4 英寸）宽度需要 3.5 个 PCIe 插槽。因此，请确保您的主板和计算机机箱有足够的空间来容纳这个野兽。其次，它的450W高功耗需要强大的电源。事实上，NVIDIA® 建议RTX 4090系统的最低系统功率为850W。

我们期待不仅针对RTX 4090运行更多基准测试，还针对其他 Ada Lovelace/Hopper GPU 运行更多基准测试。特别是使用更多 GPU 进行更广泛的深度学习模型训练的更全面的扩展测试，以及使用仅在新一代 Tensor Core 上可用的新 FP8 数据类型运行推理基准测试。

上一篇

NVIDIA A30 显卡算力租赁多少钱？A30 GPU 租赁价格分享

下一篇

英伟达A6000 GPU租用花费多少钱？A6000显卡租赁价格汇总