NVIDIA A40 GPU：你需要知道的一切

企业资讯

发布时间： 2024-08-02 14:11

NVIDIA A40是一款适用于各种高性能计算 (HPC) 任务的多功能 GPU。它旨在处理以下苛刻的工作负载：AI加速、数据科学、模拟、3D设计和虚拟制作。

A40 建立在NVIDIA Ampere 架构，增强其高效处理上述工作负载的能力，使其成为这些领域专业人士的强大工具。了解其规格、各种应用程序的性能和价格点对于确定 A40 是否适合您的特定 HPC 需求至关重要。

NVIDIA A40 GPU

在本文中，我们将讨论 NVIDIA A40 的规格、它在各种 HPC 用例中的表现、价格等。通过全面的分析，您将获得足够的知识，做出明智的决定，将 A40 纳入您的工作流程。

NVIDIA A40 规格

NVIDIA A40 是一款专为数据中心视觉计算而设计的强大 GPU，基于Ampere GA10x架构。其架构由图形处理集群 (GPC)、纹理处理集群 (TPC)、流式多处理器 (SM)、光栅操作器 (ROPS) 和内存控制器组成。完整的A40 GPU 包含7 个 GPC、42 个 TPC 和 84 个 SM。

GPC 是 NVIDIA GPU 架构中的主要结构单元，负责很大一部分图形和计算处理。GPC 包含所有必要的图形处理元素。

每个 GPC 都包含一个专用的光栅引擎和多个纹理处理集群 (TPC)，每个 TPC 都包含两个流式多处理器 (SM)。每个 TPC 还包含一个 PolyMorph 引擎，用于处理顶点处理任务，例如镶嵌和几何阴影，这对于从基本几何形状创建详细的 3D 图像非常重要。光栅引擎对于光栅化至关重要，光栅化是将矢量转换为像素或点以显示在屏幕上的过程，是渲染 2D 和 3D 图形的基础。

NVIDIA A40 用于什么？

NVIDIA A40 是一款功能强大的数据中心 GPU，专为深度学习和人工智能、科学模拟、高端渲染（例如动画、特效）和其他 HPC 任务等视觉计算任务而设计。

如前所述，SM 对于执行图形渲染和常规计算任务所需的计算至关重要。A40 上的 SM 包含以下内容：

256 KB 寄存器文件：此组件存储 CUDA 核心可立即访问的数据，从而提高处理任务期间的数据处理效率。
4 个纹理单元：这些单元参与处理用于渲染图像的纹理数据，这对于图形渲染处理场景中的各种表面纹理至关重要。
128 KB 的 L1/共享内存：此可配置内存可用作 L1 缓存或 SM 内线程之间的共享内存，根据工作负载要求优化数据共享和缓存使用。

SM 包含 3 种不同类型的计算资源。这些是：

Tensor Core： Tensor Core 旨在加速深度学习过程。它们通过高效执行大型矩阵运算（这是 AI 工作负载的常见要求），显著加快了神经网络训练和推理阶段的速度。

NVIDIA A40 具有 4 个第三代 Tensor Core。它引入了一种新的 Tensor Float 32 (TF32) 精度格式，可提供比上一代快 5 倍的训练吞吐量，而无需对现有模型进行任何代码修改。

它还具有对结构稀疏性的硬件支持，与上一代 GPU 相比，推理吞吐量增加了一倍。此外，它们还支持深度学习超级采样 (DSSL) 以提高图像质量，支持 AI 降噪以提高渲染速度，并增强了特定应用程序中的编辑功能。

可编程着色核心：这些核心主要由 CUDA 核心组成，是图形处理单元 (GPGPU) 上通用计算的基础。CUDA 核心对于需要并行处理的任务（例如模拟和复杂计算）非常有效。

它具有 128 个 CUDA 核心，可将单精度浮点（FP32）运算的处理速度提高一倍，并且提高了电源效率，与上一代（图灵）相比，可为图形和模拟工作流程（如复杂的 3D 计算机辅助设计（CAD）和计算机辅助工程（CAE））提供显着的性能改进。

RT 核心：这些核心专门用于光线追踪操作，特别是用于加速边界体积层次 (BVH) 遍历和场景几何的交集。由于光线追踪模拟了光线在现实世界中的行为，因此 A40 使用了 RT 核心，这些核心在两项关键任务上表现出色：

边界体积层次结构 (BVH) 遍历：想象一下将复杂的 3D 场景分解为更简单的形状（例如盒子）。此层次结构可帮助 GPU 快速识别光线可能与场景中的哪些区域相互作用，而无需检查每个对象。

场景几何的交集：一旦确定了有希望的区域（通过 BVH 遍历），这些核心就会精确计算光线实际击中该区域内物体的位置。通过出色地完成这些任务，A40 可以快速确定光线如何与场景中的物体相互作用，从而在最终渲染中产生高度逼真的灯光和阴影。

借助第二代 RT 核心，NVIDIA A40 实现了性能的显著飞跃，吞吐量是上一代的两倍。这意味着依赖光线追踪的工作负载（例如电影内容的逼真渲染、建筑设计评估和产品设计的虚拟原型制作）的速度将大幅提升。

NVIDIA A40 GPU规格表

此外，这些增强型 RT Core 可以同时运行光线追踪和着色或去噪过程，从而进一步加速渲染管道。此外，它还可以渲染光线追踪运动模糊，以更快的速度提供具有卓越视觉精度的结果。

这些功能共同增强了每个 SM 处理图形渲染和通用计算中的多样化和苛刻任务的能力，使得像 A40 这样的 GPU 对于各种高性能计算应用程序来说都非常有效。

此外，A40 还包含 ROP（光栅操作管道）单元的新功能。ROP 单元通过执行像素混合和写入内存等任务来处理像素输出。与前几代 GPU 不同，ROP 不再与 L2 缓存绑定。它们现在集成在每个 GPC 中。

这一变化允许 GPC 内的数据流更加直接，从而可能减少延迟并提高吞吐量。通过增加 ROP 数量并最大限度地减少扫描转换前端和光栅操作后端之间的吞吐量不匹配，重新设计提高了光栅操作的效率。

每个 GPC 包含两个 ROP 分区，每个分区包含 8 个 ROP 单元，这是 Ampere 架构的一项特定增强，有助于提高渲染任务的效率和性能。

GA102 GPU 拥有 7 个 GPC，每个 GPC 有 16 个 ROP 单元，整个 GA102 GPU 包含 112 个 ROP，而上一代 384 位内存接口 GPU 中只有 96 个 ROPS。ROP 数量的增加直接转化为关键渲染技术的改进：

多重采样抗锯齿 (MSAA)：借助更多 ROP，GA102 可以在 MSAA 期间处理每个像素的更多样本，从而产生更平滑的边缘并减少混叠伪影。
像素填充率：增加的 ROP 数量意味着 GPU 可以以更高的速率处理和输出像素到帧缓冲区，从而增强整体渲染性能。
混合性能：附加的 ROP 提高了混合操作的效率，这对于在渲染场景中结合纹理和效果至关重要。

你可以在捷智算平台租用 NVIDIA A40 云 GPU用于AI 和 HPC 加速。联系我们，了解更多。

NVIDIA A40 的其他功能包括：

48GB GDDR6 内存：提供大量高带宽内存，以便在计算密集型任务中实现高效的数据访问。
第三代 NVIDIA NVLink：支持多个 A40 GPU 无缝互连，在单个系统配置中将总内存从 48GB 扩展到 96GB。这有利于处理海量数据集的工作负载。
通过 vGPU 软件实现虚拟化：为远程用户创建更大、更强大的虚拟工作站实例，实现设计、AI 和要求苛刻的计算任务中的高性能远程工作。
PCI Express Gen 4 接口：与 PCIe Gen 3 相比，CPU 内存和 A40 之间的数据传输速度提高了一倍。这有利于 AI、数据科学和 3D 设计中的数据密集型应用。更快的 PCIe 性能还可以加速 GPU 直接内存访问 (DMA) 传输，从而改善直播工作流程的视频数据通信。A40 保持与 PCI Express Gen 3 系统的向后兼容性，以实现部署灵活性。
数据中心效率和安全性： A40 优先考虑电源效率，性能比上一代产品高出 2 倍。它还具有安全且可测量的启动功能，并具有硬件信任根功能，可确保系统完整性。

NVIDIA A40 是单精度的吗？

NVIDIA A40 支持单精度和双精度浮点运算。但是，它为单精度运算提供了更高的性能和能效，非常适合主要依赖单精度计算的任务。

NVIDIA A40 性能

鉴于 NVIDIA A40 的多功能性，我们可以比较其在不同用例下的性能，但我们将重点关注它在科学应用中的表现。

NVIDIA A40 GPU 在科学应用中的性能评估

NVIDIA A40 GPU 已在多个科学计算应用程序中进行了评估，以确定其在取代传统仅使用 CPU 的服务器方面的计算效率。基准测试针对与地球科学、分子动力学、物理学和其他科学领域相关的应用程序进行。

用于衡量 A40 GPU 性能的主要指标包括：

总时间（秒）：完成给定任务所需的时间。
节点替换因子 (NRF)：表示有多少个仅使用 CPU 的节点可以被单个 GPU 加速节点替换的度量。

应用与性能：

1. 地球科学（SPECfem3D）：

SPECfem3D 是一款用于模拟地震波在三维空间中传播的软件包。它常用于地球物理学和地震学，用于模拟地震波如何穿过不同类型的地质结构。

A40 显著缩短了地震波传播模拟的总计算时间，随着更多 GPU 的使用，总时间也随之减少。使用 A40，仅使用 CPU 的节点数量从 2 倍到 13 倍不等，这说明了 A40 的可扩展性和效率。

NVIDIA A40 GPU在SPECfem3中的表现

2.分子动力学（AMBER、GROMACS和NAMD）：

AMBER：

辅助模型构建与能量细化 (AMBER) 是一套用于模拟分子动力学的程序，尤其适用于蛋白质和核酸等生物分子。它被生物化学和生物物理研究界用来研究生物分子的结构、动力学和能量学。

对于涉及 Cellulose NPT 模块的 AMBER 模拟，A40 用 97 ns/天性能指标取代了 10x 仅限 CPU 的节点，对于 8x A40 GPU，该指标最高可扩展至 819 ns/天。

AMBER

GROMACS：

A40 GPU 显著增强了分子动力学模拟，特别是使用 GROMACS ADH Dodec模块。性能指标表明，使用单个 A40 时，每天的计算速度从 314 纳秒提升至使用 8 个 A40 GPU 时，每天的计算速度高达 2,534 纳秒，这证明了 GPU 强大的扩展能力。此外，节点替换因子 (NRF) 表明，一个 A40 GPU 可以替换多达 13 个仅使用 CPU 的节点，这意味着显著节省了成本和能源。

NVIDIA A40 GPU在GROMACS中的表现