找回密码
 加入我们
搜索
      
查看: 12558|回复: 5

[系统软件] AMD、英特尔显卡均收获Stable Diffusion AI作图性能重大提升,分别提升近9倍和54%

[复制链接]
发表于 2023-8-22 08:40 | 显示全部楼层 |阅读模式
来源: AMD社区博客 Tom's Hardware



您知道可以在使用 Automatic1111(Xformer) 模型的Stable Diffusion时启用 Microsoft Olive ,从而通过 Windows 上的 Microsoft DirectML 获得显著的速度提升吗?微软和AMD一直在合作优化AMD硬件上的Olive路径,通过Microsoft DirectML平台API和AMD用户模式驱动程序的ML(机器学习)层对DirectML进行加速,使用户可以使用AMD GPU的AI(人工智能)功能。



Microsoft Olive 是一款 Python 工具,可用于转换、优化、量化和自动调整模型,以便通过 DirectML 等 ONNX Runtime 执行提供商获得最佳推理性能。Olive 通过提供单一的工具链来组合优化技术,从而大大简化了模型处理过程,这对于像 Stable Diffusion 这样对优化技术排序非常敏感的复杂模型尤为重要。用于 Stable Diffusion 的 DirectML 样本应用了以下技术:
  • 模型转换:将基础模型从 PyTorch 转换为 ONNX。
  • 转换器图优化:将子图融合到多头注意力算子中,消除转换中的低效现象。
  • 量化:将大多数层从 FP32 转换为 FP16,以减少模型的 GPU 内存占用并提高性能。

综合上述优化,DirectML 在使用稳定扩散等转换器模型进行推理时,可以利用 AMD GPU 大大提高性能。



由于集成了英特尔的 OpenVINO 工具包,Automatic1111 的 Stable Diffusion WebUI 现在可以在英特尔 GPU 硬件上运行。我们重新测试了最新发布的 Stable Diffusion,与之前的结果相比,英特尔 GPU 的运行速度提高了 40% 到 55%。

Stable Diffusion 是一个深度学习人工智能模型,用于根据文本描述生成图像。Stable Diffusion 的特别之处在于它能够在本地消费级硬件上运行。人工智能社区有很多项目,其中最受欢迎的是 Stable Diffusion WebUI。它提供了一个易于使用和实验的浏览器界面。

经过几个月的后台工作(我们已经听到这方面的传言有一段时间了),英特尔 Arc 用户现在可以使用最新更新,性能得到大幅提升。

以下是我们之前对 Stable Diffusion 的最新测试结果。在之前的测试中,我们使用了稍作调整的稳定扩散 OpenVINO,并使用 Automatic1111 webui 的分叉版和 OpenVINO 重新进行了测试。我们还使用 Nod.ai 基于 Shark 的稳定扩散的最新版本重新测试了 AMD 的几款 GPU。Nvidia 的结果尚未更新,不过我们会在不久的将来使用最新版本重新进行测试(完成后会更新稳定扩散基准测试的主要文章)。

需要注意的是,我们还更改了提示,这使得新结果的要求普遍更高。(新的提示是 "凌乱的房间",这往往会在图像中出现很多微小的细节,需要人工智能花费更多精力来生成)。不同运行之间存在差异,而且有一些注意事项特别适用于 Arc 目前的情况,但以下是运行前后的结果。


2023年5月结果


2023年8月结果


英特尔 ARC 和 AMD GPU 的性能都有所提高,其中大部分都有显著提升。Arc A770 16GB 提升了 54%,而 A750 在相同情况下提升了 40%。(请注意,我们使用英特尔 Arc A770 限量版显卡进行测试,该显卡现已停产,但宏碁、华擎、Sparkle 和 Gunnir 仍在提供 A770 显卡(包括 16GB 和 8GB 两种型号))。

Nod.ai 也没有坐以待毙。AMD 的 RX 6800、RX 6750 XT 和 RX 6700 10GB 显卡的速度都有所提升,尤其是 6800 和 6700 10GB 显卡的提升幅度更大。我们不清楚 6750 XT 为何表现不佳,但 RX 6800 的性能提升了 34%,而 RX 6700 10GB 的性能提升幅度更大,达到 76%。而 RX 6750 XT 出于某种原因仅提升了 9%,尽管这三款 AMD GPU 采用了相同的 RDNA2 架构。(我们将在不久的将来重新测试其他 GPU,包括 AMD 最新的 RX 7000 系列部件)。

同样,我们没有重新测试三块 Nvidia RTX 40 系列 GPU,因此两张图表的性能统计保持一致。即便如此,通过新的 OpenVINO 优化,英特尔的 Arc A750 和 A770 现在已经能够超越 RTX 4060,而 A770 16GB 则紧随 RTX 4060 Ti 之后。
发表于 2023-8-22 09:08 | 显示全部楼层
4070就是显存小了点。。。
发表于 2023-8-22 09:14 | 显示全部楼层
下面两个图怎么没有7900xtx和7900xt的数据
发表于 2023-8-22 11:47 | 显示全部楼层
大幅提升,指依然垫底
发表于 2023-8-22 15:19 | 显示全部楼层
A卡和I卡最大的问题是显存利用效率,512x512根本体现不出来的
估计用XL模型或者2倍插值就原形毕露了
发表于 2023-8-23 09:33 | 显示全部楼层
vindemiarrix 发表于 2023-8-22 15:19
A卡和I卡最大的问题是显存利用效率,512x512根本体现不出来的
估计用XL模型或者2倍插值就原形毕露了 ...

现在大部分不都是跑512x512么,实际商业原画级别的设计一般不拿Stable Diffusion出吧。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-3 01:02 , Processed in 0.009241 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表