高端消费级 GPU 是否适合大规模稳定扩散推理？平台部署及基准测试详解

企业资讯

发布时间： 2024-08-19 13:30

高端消费级 GPU 是否适合大规模稳定扩散推理？如果是，那么生成数百万张图像的每日成本是多少？您真的需要 A10、A100 或 H100 吗？在此稳定扩散基准测试中，我们通过在捷智算平台上启动经过微调的基于稳定扩散的应用程序来回答这些问题。

结果：我们扩展到 750 个副本（GPU），并在24 小时内使用 3.62 TB 的存储空间生成了超过920 万张图像，总成本为 1,872 美元。

通过每美元生成 4,954 张图像，该基准测试表明，在消费级 GPU 上大规模生成 AI 推理是实用且经济实惠的，并且是降低云成本的途径。在这篇文章中，我们将回顾应用程序架构和模型细节、在捷智算平台上的部署以及基准测试的提示细节和推理结果。在后续文章中，我们将提供可用于复制此基准测试的技术演练和参考代码。

图像生成的应用程序架构

此基准测试针对 SaaS 风格的生成式 AI 图像生成工具运行，用于定制艺术品。最终用户浏览经过微调的模型类别，选择模型，自定义提示和参数，并提交作业以生成一个或多个图像。生成后，图像将呈现给最终用户。我们帮助开发了推理容器，以展示捷智算平台节点在此用例中的潜力。下图提供了系统架构的高级描述：

稳定扩散基准的系统架构

主要组件包括基于 Web 的应用程序（前端和后端）、专用作业队列、推理容器和块存储服务。Azure 队列存储用于作业队列并提供 FIFO 调度。Azure Blob 存储用于提供块存储。下图提供了推理容器架构的高级描述：

推理容器和组件示意图

该容器基于 Automatic1111 的稳定版 Diffusion Web UI。我们创建并向容器添加了一个用 Go 编写的自定义工作程序，该程序实现了作业处理管道。该工作程序利用 Azure SDK for Go 与 Azure 队列存储和 Azure Blob 存储服务进行通信。该工作程序首先按顺序轮询队列中的作业。然后，它使用稳定版 Diffusion Web UI 服务器提供的 text2img API 端点来生成图像。最后，将图像上传到 blob 容器。

捷智算平台上稳定扩散的部署

构建推理容器映像后，我们使用基于 Web 的门户创建了捷智算平台管理容器部署。

部署目标为 750 个唯一节点，这些节点至少具有 4 个 vCPU、至少 8GB RAM 以及 NVIDIA RTX 2000、3000 或 4000 系列 GPU（至少具有 8GB VRAM）。尽管捷智算平台允许更有针对性的节点选择，但我们决定允许调度程序根据未使用的网络容量选择具有兼容 GPU 的首批可用节点。同样值得注意的是，我们没有限制部署的地理分布。

作业队列中已填满 10,000,000 个可变图像生成提示。以下是其中一个作业的示例：

{“prompt”: “photo of a jump rope, , magic-fantasy-forest, digital art, most amazing artwork in the world, ((no humans)), volumetric light, soft balanced colours, forest scenery, vines, uhd, 8k octane render, magical, amazing, ethereal, intricate, intricate design, ultra sharp, shadows, cooler colors, trending on cgsociety, ((best quality)), ((masterpiece)), (detailed)”,

“negative_prompt”: “oversaturation, oversaturated colours, (deformed, distorted, disfigured:1.3), distorted iris, poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation, human, man, woman”,

“sampler_name”: “k_euler_a”, “steps”: 15, “cfg_scale”: 7}

每项作业都包含嵌入在文本提示中的 LoRA 定义，并且每项作业使用的具体名词和环境描述略有不同。生成的图像大小固定为 512×512 像素，采样器固定为 Euler Ancestral，步数固定为 15，CFG 比例固定为 7。

稳定的扩散基准测试结果 - 24 小时内处理 900 多万张图像，价格为 1872 美元

在 24 小时内，我们总共处理了 9,274,913 个图像生成请求，生成了 3.62 TB 的内容。处理失败的情况很少（例如瞬时网络问题），只有 523 个作业被重新处理了一次。平均而言，我们的图像生成周期为 7 秒。以下马赛克只是生成的图像中的一小部分的示例：

从稳定扩散推理基准生成的图像样本。提示包括奇幻风格森林中的不同名词

由于没有花费太多时间来调整和优化参数，浏览生成的图像并观察相对质量很有趣。

未来的改进

这次演示产生了令人兴奋的结果，表明对于大规模稳定扩散推理，消费级 GPU 不仅能力强大，而且更具成本效益。话虽如此，它还远未优化。我们可以采取许多技术任务来提高性能。值得注意的是，我们快速实现了工作器，并确定了一个循环，该循环依次提取作业、生成图像并上传图像。通过这种实现，当我们等待网络 I/O 时，GPU 处于空闲状态。

GPU 利用率图表显示处理作业时至少有 10% 的 GPU 空闲时间

如果我们采用流水线作业的方法，从队列中快速拉取一个额外的作业，并将网络 I/O 与另一个图像生成请求并行化，我们估计整体作业吞吐量至少会提高 10%。在不调整总成本的情况下，这将使我们每天生成超过 1000 万张图像。

生成式人工智能和推理成本

生成式人工智能是一种可以创造新内容的人工智能，例如绘画、音乐和写作。它通过从现有信息中学习来开发模式和关系模型，并且在生成独特和个性化内容方面具有实际应用。由于发布了许多开源基础模型，它已成为一种越来越受欢迎的技术，其中许多模型是在非常大规模的数据集上开发的。加上开发和应用微调的相对容易程度以及大规模运行推理的低成本，生成式人工智能的民主化正在以惊人的速度解锁新的应用。

具体到推理方面，许多模型仍然需要大量计算资源才能高效生成内容。然而，消费级 GPU 的处理能力和资源容量的飞跃已经赶上了许多生成式 AI 模型的应用。

大型云计算提供商收费昂贵，而且很难获得 A10、A100 或 H100 等企业级 GPU。因此，越来越多的客户转向捷智算平台。捷智算平台是一个由世界上最强大的游戏 PC 组成的分布式云计算环境。

生成式 AI 的一个快速扩展的应用包括根据文本描述创建图像。“文本转图像”工作流程可用于为游戏、广告/营销活动、故事板等生成资产。Stable Diffusion 是“文本转图像”领域中一种流行的开源基础模型。

我们目前正在计划“图像到图像”和“音频到文本”工作流程演示和基准测试。

捷智算平台– 最经济实惠的生成式 AI GPU 云

这项基准测试是在捷智算平台上运行的，它是全球最实惠的 GPU 云，适用于生成式 AI 推理和其他计算密集型应用。捷智算平台拥有超过 10,000 个 GPU，起价为每小时1块钱，是市场上 GPU 价格最低的。

如果高昂的云费用和 GPU 可用性阻碍了您的增长和盈利能力，捷智算平台可以通过低价和按需可用性为您提供帮助。

联系我们获取个性化演示。要运行您自己的模型或流行模型（稳定扩散、Whisper、BERT 等）的预配置配方，请查看捷智算平台以进行免费试用。

上一篇

GeForce RTX 3090 与 Tesla V100S-PCIE-32GB：两款高性能 AI GPU全面对比

下一篇

哪种GPU最适合AI 和 ML 需求？RTX A4000 与 RTX A6000 对比