模型广场全新上线,注册即免费体验 4090 高性能 GPU! 马上体验
行业资讯
深入了解 NVIDIA 的 Blackwell 平台:B100、B200 和 GB200 GPU
发布时间: 2024-08-15 11:41

NVIDIA 在今年早些时候的 GTC 上发布了其最新的 GPU 平台 Blackwell。这个以数学家和统计学家 David Blackwell 命名的新平台包括两款功能强大的 GPU - B100 和 B200以及GB200 超级计算机系列。在这篇文章中,我们将探讨 Blackwell GPU 的独特之处,同时分析了解这些 GPU 如何掀起 AI 计算的新浪潮。


NVIDIA 下一代 GPU 有哪些新功能


AI 超级芯片:每个 Blackwell 超级芯片由两个通过 10TB/s C2C(芯片到芯片)互连的芯片组成,组合成具有完整缓存一致性的单个 GPU 。这些采用台积电定制 4NP 制造工艺制造的芯片拥有高达 2080 亿个晶体管,而 Hopper 中只有 800 亿个晶体管。

 

新款 NVIDIA Blackwell 芯片为更大的模型提供了更大的内存容量,并将内存带宽增加了一倍以上。这一点至关重要,因为内存墙可能会阻止大型 AI 模型充分利用 GPU 处理能力。Blackwell 的另一个关键特性是其速度极快的 GPU 到 GPU 连接,使多个 GPU 能够作为统一的计算块协同工作。以下是 NVIDIA B100 与 H100 的功能比较:




第二代 Transformer 引擎:具有支持新量化格式和精度的第五代 Tensor 核心。该引擎将通过使用动态范围管理和高级微缩放格式大大加快混合专家 (MoE) 模型的推理速度。动态范围允许引擎调整和细化数值格式以降低精度,从而不断优化模型以获得更好的性能。





来源:NVIDIA - Blackwell HGX 性能数据

由于条件计算的效率和专家并行的稀疏性,与等效非专家模型相比,MoE 模型在运行推理时速度明显更快。

 

然而,这些模型需要更多的 VRAM,因为系统必须将所有专家及其参数加载到内存中。除了显着更高的内存容量和带宽外,Blackwell 的低精度格式和微缩放有助于缓解这个问题,因为它使具有更多参数的较大模型能够适应 GPU。




这篇关于生成式 AI 微尺度 (MX) 格式的论文讨论了基准测试结果,展示了较小精度格式在训练和推理方面的巨大潜力,且准确度损失很小。随着较小精度格式的发展,更多的 ML 开发人员可能会采用这些创新进行模型开发。




新的 Transformer Engine 通过增强Nemo Framework和集成Megatron-Core的专家并行技术来加速 LLM 训练。我们期待这些进步为创建第一个 10 万亿参数模型铺平道路。

 

第五代 NVLink:每 GPU 双向吞吐量为 1.8TB/s,新一代 GPU 到 GPU 互连的速度是上一代的两倍,可实现多达 576 个 GPU 之间的无缝高速通信。加速的网络内计算使 NCCL集体操作更加高效,并帮助 GPU 更快地实现同步。最新一代 NVLink NVSwitch 支持多 GPU 集群(例如 GB200 NVL72),大型模型的累计带宽为 130TB/s。 


机密计算增强功能:最新的 Blackwell GPU 现在具有可信执行环境 (TEE)技术。虽然 CPU 长期以来一直支持 TEE,以确保内容身份验证和安全金融交易等应用程序中的数据机密性和完整性,但 NVIDIA GPU 现在还提供 TEE-I/O 功能。这意味着通过 NVLink 连接上的内联保护增强了数据保护。此外,Blackwell GPU 还提供静态、动态和计算过程中的数据加密。

 

超快解压,适用于数据分析:  Blackwell 可以以惊人的 800GB/s 速度解压 LZ4、Snappy 和 Deflate 等格式的数据。GB200 GPU 由 8TB/s 带宽的 HBM3e(高带宽内存)和 Grace CPU 的闪电般快速的 NVLink-C2C 互连驱动,使数据管道速度极快。NVIDIA 在 GB200 GPU 集群上运行的基准测试显示,查询速度比传统 CPU 快 18 倍/秒,比 H100 GPU 快 6 倍,使 GPU 更适合数据分析和数据库工作流程。

 

可靠性、可用性和可服务性 (RAS) 引擎:对Blackwell 芯片中的计算核心和内存执行自动内置测试。这对于大型超级计算机集群尤其重要,因为它允许团队更换性能不佳的 GPU 板并保持高性能,同时保护他们的 GPU 投资。


了解 Blackwell GPU 阵容:B100 vs B200 vs GB200


NVIDIA Blackwell 系列 GPU 系统包括 HGX B100、HGX B200、DGX B200 和 NVIDIA DGX 超级计算机(例如 GB200 NVL36 和 GB200 NVL72)。下表列出了 NVIDIA 提供的规格和性能基准:




使用 NVIDIA GB200 超级计算机将模型扩展到数万亿参数


GB200超级芯片构成了GB200超级计算机的核心,将1个Grace CPU和2个Blackwell GPU结合在内存一致的统一内存空间中。

 

GB200 系统有不同的版本,例如 GB200 NVL36 和 GB200 NVL72,具体取决于 GPU 的数量。每个机架可容纳 9 个或 18 个 GB200 计算节点托盘,具体取决于设计。这些机架包括用于液体冷却的冷板和连接器、用于快速联网的 PCIe Gen 6 以及用于无缝 NVLink 电缆集成的 NVLink 连接器。

 

  • GB200 NVL36 是一个包含 9 个双 GB200(4 个 GPU、2 个 CPU)计算节点和 9 个 NVSwitch 托盘的机架

  • GB200 NVL72 可以是两个机架,每个机架有 9 个双 GB200 计算节点托盘和 9 个 NVSwitch 托盘

  • GB200 NVL72 也可以是一个包含 18 个双 GB200 计算节点托盘和 9 个 NVSwitch 托盘的机架


这就是为什么 GB200 超级计算机能够完美处理大型模型的复杂性:

 

1、大规模计算块带来的 AI 性能优势: GB200 超级芯片配备了新的转换引擎、第五代 NVLink 和 1.8 TB/s 的 GPU 到 GPU 互连,为 GPT-MoE-1.8T 等大型语言模型提供 4 倍的训练性能。该超级芯片还具有 InfiniBand 网络和 NVIDIA Magnum IO™ 软件,可确保多达 576 个 GPU 的广泛 GPU 计算集群的高效可扩展性。

2、配备卓越 LPDDR5X 内存的 Grace CPU: Grace CPU 拥有 144 个 ARM v9 Neoverse 核心,性能高达 7.1 TFLOPS,能够以 1TB/s 内存带宽访问 960GB LPDDR5X RAM。这款超快、低功耗内存可加速交易,同时通过纠错码 (ECC)保持数据完整性,非常适合关键工作负载。

3、通过简化的 NUMA 实现超快的 CPU 互连:  采用 900GB/s NVLINK C2C 互连,比传统 PCIe 互连快几倍。



探索 GB200 AI 超级计算机的使用案例


以下是 NVIDIA GBL200 NVL72 等超级计算机的一些用例示例:


  • 解锁万亿参数模型的训练:随着最先进 (SOTA) 模型越来越多地具有超过万亿个参数,训练 1.8 万亿个参数的速度比同等的 H100 GPU 集群快 4 倍。




  • 强大的生成式 AI 模型的可扩展推理:  Menlo Ventures 对企业领导者采用生成式 AI 的一项研究表明,96% 的生成式 AI 计算支出用于推理,凸显了优化性能以获得更好的投资回报率的重要性。实施推理时要考虑的两个主要因素是规模和速度——无论客户群规模如何,企业都希望在使用 AI 转变产品和服务时为用户提供即时体验。 


这就是 GB200 NVL72 集群变得至关重要的地方,它以实时速度提供高达 30 倍的推理性能,将 Blackwell 架构的可扩展性优势带到商业和消费者应用中的实际推理用例中。

 

  • 无缝执行混合专家 (MoE) 模型: GB200 系统中高达 13.5 TB 的海量聚合内存和极快的 GPU 互连可帮助 AI 团队比以往更好地发挥 MoE 模型的潜力。下面的可视化图显示了 MoE 模型中的专家如何相互通信以及跨模型层进行通信。如果没有 Blackwell 的 NVLINK 互连,NVIDIA 估计 GPU 将把一半的时间花在通信上,而不是计算上。




  • 卓越的矢量数据库和检索增强生成 (RAG) 性能: Grace CPU 的 960GB 内存和 900GB/s C2C 链路非常适合通过低延迟矢量搜索加速 RAG 管道。 


  • 可持续的 AI 计算:结合液体冷却节省的能源和 GB200 超级计算系统的效率,与同等的 NVIDIA H100 集群相比, GB200NVL72 的能源效率提高了 25 倍。


使用捷智算平台上的 Blackwell GPU 为您的 AI 提供支持


想要利用 NVIDIA Blackwell GPU 的强大功能来发展以 AI 为中心的业务?捷智算的 AI GPU 云服务专为 AI/ML 工作负载而构建,具有一流的 GPU、高性能存储和 AI 就绪网络,因此您可以:


  • 部署针对 AI 优化的 GPU 实例,用于训练、微调和推理工作负载。

  • 与超大规模云提供商相比, GPU 成本可降低高达 75% 。

  • 轻松从按需扩展到自定义私有云,配置多种多样,从裸机到虚拟机。


捷智算平台上训练和提供改变世界的 AI 模型!立即预订您的 Blackwell GPU!

  • 捷智算联系人