大头吃小头 发表于 2025-3-6 02:45

9070xt地fp8(应该叫1/4精度?)性能是不是吊打7900xtx了?

今天折腾7900xtx在wsl2下部署comfyui以及对应的flux-d模型,这个我下载的模型就是fp8量化的 跑个720p的图要二百多秒(当然我参数大了一点)
9070xt要是fp8性能起飞了的话 未来要出32g版本我是必换的啊(当然rocm也要跟上了)

7900xtx的wsl2支持也是去年年底才落实,用了没几个月就用不下去了,唉

平安是福 发表于 2025-3-6 06:57

支持fp8的话也就是把fp16拆2份跑,计算速度理论上会翻倍,但是比如说flux实际上你要来回倒腾显存,之前pytorch支持fp8加速之后出图速度也没有翻倍,因为大部分时间花在从硬盘加载两个巨大的模型t5和flux本体[困惑]

rana23 发表于 2025-3-6 08:28

RDNA3都不支持fp8

大头吃小头 发表于 2025-3-6 10:48

rana23 发表于 2025-3-6 08:28
RDNA3都不支持fp8

我只能说7900xtx能跑……就是特别慢

大头吃小头 发表于 2025-3-6 11:33

平安是福 发表于 2025-3-6 06:57
支持fp8的话也就是把fp16拆2份跑,计算速度理论上会翻倍,但是比如说flux实际上你要来回倒腾显存,之前pyto ...

第一次加载确定够慢的 后面就好不少了
a卡支持wsl2是真的方便啊,直接部署原版rocm,不用折腾兼容性差的zluda了
页: [1]
查看完整版本: 9070xt地fp8(应该叫1/4精度?)性能是不是吊打7900xtx了?