RTX 5880 降频严重，鸡肋了(怀疑是程序问题，或者通信消耗变大）

godspeed66 · 发表于 2024-4-13 10:35

本帖最后由 godspeed66 于 2024-4-24 16:34 编辑

RTX 5880 鸡肋了

RTX 5880 降频严重，鸡肋了(怀疑是程序问题，或者通信消耗变大）

实测RTX 5880 单卡的推理速度仅有L20 约80%速度；与RTX 6000ADA 对比，仅有RTX 6000ADA 75%~83%的速度

实测RTX 5880单卡、双卡、三卡（四卡等待机箱改造中）的推理速度均比RTX 6000 ADA 慢，肉眼可见的慢，甚至比不上RTX 4090*2

RTX 5880\RTX 6000 环境

操作系统：Linux-5.15.146.1-microsoft-standard-WSL2-x86_64-with-glibc2.35.
python版本：3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0]
项目版本：v0.2.10
langchain版本：0.0.354. fastchat版本：0.2.35

当前使用的分词器：ChineseRecursiveTextSplitter
当前启动的LLM模型：['Qwen1.5-32B-Chat'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen1.5-32B-Chat',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型： bge-large-zh-v1.5 @ cuda

L20 *4 是AUTODL的环境

操作系统：Linux-5.15.0-91-generic-x86_64-with-glibc2.35.
python版本：3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0]
项目版本：v0.2.10
langchain版本：0.0.354. fastchat版本：0.2.35

当前使用的分词器：ChineseRecursiveTextSplitter
当前启动的LLM模型：['Qwen1.5-32B-Chat'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen/Qwen1.5-32B-Chat',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型： bge-large-zh-v1.5 @ cuda

RTX 4090*2 环境

操作系统：Linux-6.5.0-27-generic-x86_64-with-glibc2.35.
python版本：3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0]
项目版本：v0.2.10
langchain版本：0.0.354. fastchat版本：0.2.35

当前使用的分词器：ChineseRecursiveTextSplitter
当前启动的LLM模型：['Qwen1.5-32B-Chat-AWQ'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen/Qwen1.5-32B-Chat-AWQ',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型： bge-large-zh-v1.5 @ cuda

目前遇到的问题是，推理时RTX 5880的GPU频率上不去
屏幕截图 2024-04-15 200608.png

后面就越来越慢

伦风凝星 · 发表于 2024-4-13 12:56

其实要是用不上OPGL不一定非得Quadro这些吧。。。

fut888 · 发表于 2024-4-13 13:49

5880核心数量还不如4090d

fut888 · 发表于 2024-4-13 14:02

github放出了4090 驱动p2p的破解，可以试试

Illidan2004 · 发表于 2024-4-13 14:23

5880本来就是6000ada 的特供版本啊为了防止禁令的

q3again0605 · 发表于 2024-4-13 14:34

fut888 发表于 2024-4-13 14:02
github放出了4090 驱动p2p的破解，可以试试

发个地址看看，意义可能不大，毕竟显存大小限制可以全量微调模型的大小有限。

q3again0605 · 发表于 2024-4-13 14:42

前面是有报道说L20推理性能和L40和L40s差不多。Llama2 7b，bs16，fp16的时候。为什么呢,5880参数全面超过L20的呢。是否有驱动问题？

fut888 · 发表于 2024-4-13 14:51

q3again0605 发表于 2024-4-13 14:34
发个地址看看，意义可能不大，毕竟显存大小限制可以全量微调模型的大小有限。 ...

https://github.com/tinygrad/open-gpu-kernel-modules

炼金术士 · 发表于 2024-4-13 14:55

24g显存和48g显存能做到的事完全不一样

q3again0605 · 发表于 2024-4-13 14:56

fut888 发表于 2024-4-13 14:51
https://github.com/tinygrad/open-gpu-kernel-modules

真不错，先clone过来，后面试试，谢谢：）

fut888 · 发表于 2024-4-13 14:57

q3again0605 发表于 2024-4-13 14:56
真不错，先clone过来，后面试试，谢谢：）

有空上个测试结果

q3again0605 · 发表于 2024-4-13 14:57

你用的langchain-chatchat项目？

q3again0605 · 发表于 2024-4-13 14:59

fut888 发表于 2024-4-13 14:57
有空上个测试结果

让楼主试试，我还在犹豫是上一块L20,5880还是加一块4090呢哈哈。

q3again0605 · 发表于 2024-4-13 16:53

炼金术士发表于 2024-4-13 14:55
24g显存和48g显存能做到的事完全不一样

模型都能装下的情况下这可不一定哦，只是推理的话单卡4090还是很强大的。

godspeed66 · 发表于 2024-4-14 08:24

q3again0605 发表于 2024-4-13 14:57
你用的langchain-chatchat项目？

改写文档以及分析文档很方便

就是0.2.10版本的对Qwen1.5不能用vllm导致性能低
以及RAG效果差

godspeed66 · 发表于 2024-4-14 08:33

q3again0605 发表于 2024-4-13 14:59
让楼主试试，我还在犹豫是上一块L20,5880还是加一块4090呢哈哈。

看你对显存总体的需求

我的体验，32B以下、int4、AWQ模型对文档改写和总结效果都不好

32B以上模型建议用RTX 5880，这样最多能扩展到196GB显存（可以推理72B模型)，理论最大能扩展到8卡

RTX 4090 1~2卡性价比超级超级高，40GB以下显存需求用2张RTX4090是最佳选择；

RTX 4090 8卡需要程序优化

godspeed66 · 发表于 2024-4-14 08:39

fut888 发表于 2024-4-13 13:49
5880核心数量还不如4090d

我怀疑是RTX 5880 驱动不完善

依据是“6. 即将推出
的 NVIDIA vGPU 版本 (预计于 2024 年第一季度发布)将提供 RTX 5880 Ada Generation GPU 的虚拟化支持。I ”

可能驱动还需要优化

因为推理过程慢是不对的，推理过程GPU使用率才30~50%，GPU频率仅有1900~2300MHz，与满载2700MHz差好远

q3again0605 · 发表于 2024-4-14 14:30

godspeed66 发表于 2024-4-14 08:39
我怀疑是RTX 5880 驱动不完善

依据是“6. 即将推出

L20和4090比如何？

godspeed66 · 发表于 2024-4-15 19:50

q3again0605 发表于 2024-4-14 14:30
L20和4090比如何？

看对显存的需求

4090只有24GB L20 有48GB

gtv · 发表于 2024-4-15 19:53

godspeed66 发表于 2024-4-14 08:39
我怀疑是RTX 5880 驱动不完善

依据是“6. 即将推出

bound在memory上导致freq上不去？

godspeed66 · 发表于 2024-4-15 20:09

gtv 发表于 2024-4-15 19:53
bound在memory上导致freq上不去？

不知道啊，推理的时候Bus interface Load 基本是0

屏幕截图 2024-04-15 200608.png

gtv · 发表于 2024-4-16 19:21

godspeed66 发表于 2024-4-15 20:09
不知道啊，推理的时候Bus interface Load 基本是0

用nsys采样再看看

土竹 · 发表于 2025-4-8 08:02

平台的问题吧。。。我这测试多卡RTX 5880 ada开销是没有问题的

账号		自动登录	找回密码
密码			加入我们

[显卡] RTX 5880 降频严重，鸡肋了(怀疑是程序问题，或者通信消耗变大）

浏览过的版块