模型广场全新上线,注册即免费体验 4090 高性能 GPU! 马上体验
企业资讯
NVIDIA GeForce RTX 4090 与 RTX 3090 深度学习基准测试
发布时间: 2024-08-09 14:40

在本文中,我们对RTX 4090进行了基准测试,以评估其深度学习训练性能。我们还将其性能与 NVIDIA GeForce RTX 3090(上一代 Ampere 旗舰消费级 GPU)进行了比较。


NVIDIA RTX 4090 亮点


  • 24GB内存,售价1599美元。

  • 在我们测试的深度学习模型中,包括视觉、语言、语音和推荐系统中的用例,RTX 4090的训练吞吐量和训练吞吐量/$明显高于RTX 3090 。

  • 尽管RTX 4090的功耗高达450W ,但其训练吞吐量/瓦特接近RTX 3090 。

  • 在我们的2x GPU 测试中,多 GPU 训练扩展得很好。


注意:使用最新的 NVIDIA® PyTorch NGC 容器 ( pytorch:22.09-py3 )测试了 GPU。NVIDIA®过去在其 PyTorch NGC 容器中支持其深度学习示例。但是,自pytorch:21.08-py3以来,情况已不再如此。我们努力安装并简化了在pytorch:22.09-py3中对深度学习示例进行基准测试的过程。您可以在此repo中找到有关如何重现基准测试的更多详细信息。


PyTorch 训练吞吐量


连接我们的云和互联网的链路经历了重大改造,我们的带宽增加到 10 Gbps —是以前带宽的 10 倍。




训练吞吐量比较


tf32-训练-吞吐量-wrt-RTX-3090


FP16-训练-吞吐量-wrt-rtx-3090


  • 所有数字均使用单个RTX 3090的训练吞吐量进行标准化。

  • RTX 4090的训练吞吐量明显更高。根据型号不同,其TF32训练吞吐量比RTX 3090高出1.3 倍至1.9 倍。

  • 同样,RTX 4090的FP16训练吞吐量比RTX 3090高1.3 倍到1.8 倍。


训练吞吐量/美元比较


TF32-训练吞吐量/美元-wrt-rtx-3090



fp16-每美元训练吞吐量-wrt-rtx-3090


  • 所有数字均使用单个RTX 3090的训练吞吐量/$进行标准化。

  • RTX 3090和RTX 4090的参考价格分别为1400美元和1599美元。

  • RTX 4090还具有出色的训练吞吐量 / 美元  –与RTX 3090相比,不同模型和精度的训练吞吐量在1.2 倍到1.6 倍之间。


训练吞吐量/瓦特比较


tf32-训练吞吐量-每瓦-wrt-rtx-3090


fp16-训练吞吐量每瓦-wrt-rtx-3090


  • 所有数字均使用单个RTX 3090的训练吞吐量/瓦特进行标准化。

  • RTX 3090和RTX 4090的功耗分别为350W和450W。

  • RTX 4090的训练吞吐量/瓦特与RTX 3090相当,范围在RTX 3090 的0.92 倍到1.5 倍之间。


多 GPU 扩展


由于 Ada Lovelace GPU 架构不再支持 NVLink,我们想知道多 GPU 训练对RTX 4090的效果如何。我们将2 个 RTX 4090插入PCIe Gen 4主板(见下图),并将2 个 RTX 4090与单个RTX 4090的训练吞吐量进行了比较。


rtx-4090-工作站


内有 2 个 RTX 4090。请注意,单个 RTX 4090 将占用3.5 个 PCIe 插槽。


我们的测试表明,RTX 4090在 2x GPU 深度学习训练中表现相当不错:


rtx-4090-与-2x-RTX-4090


  • 大多数模型通过两个 GPU 可实现接近 2 倍的训练吞吐量。

  • 然而,我们确实观察到了一些次优扩展。例如,2xGPU 仅导致对BERT_base模型进行精细调整的吞吐量达到约 1.7 倍。

  • 顺便提一下,在所有测试的 GPU 上,Tacotron2 FP16并不比TF32快。这与NVIDIA 的 Tacotron2基准测试报告一致。


最后但同样重要的一点是,我们将2x RTX 4090与2x RTX 3090 ( 使用 NVLink)进行了比较,发现2x RTX 4090 的表现始终优于2x RTX 3090 :


tf32-训练-吞吐量-wrt-2x-3090-NVlinked


fp16-训练-吞吐量-wrt-2x-3090-NVlinked


结论


总而言之,GeForce RTX 4090是一款出色的深度学习显卡,尤其适合精打细算的创作者、学生和研究人员。它不仅比上一代旗舰消费级 GPU GeForce RTX 3090快得多,而且在训练吞吐量/美元方面也更具成本效益。对于更大的训练工作负载,NVIDIA RTX 专业 GPU 提供更大的 GPU 内存来处理更大的训练数据集和模型。


与此同时,对于那些想要购买RTX 4090 的人来说,有几个注意事项:首先,它不是一张小卡。它的 61 毫米(2.4 英寸)宽度需要 3.5 个 PCIe 插槽。因此,请确保您的主板和计算机机箱有足够的空间来容纳这个野兽。其次,它的450W高功耗需要强大的电源。事实上,NVIDIA® 建议RTX 4090系统的最低系统功率为850W。


我们期待不仅针对RTX 4090运行更多基准测试,还针对其他 Ada Lovelace/Hopper GPU 运行更多基准测试。特别是使用更多 GPU 进行更广泛的深度学习模型训练的更全面的扩展测试,以及使用仅在新一代 Tensor Core 上可用的新 FP8 数据类型运行推理基准测试。

  • 捷智算联系人