godspeed66 发表于 2024-4-13 10:35

RTX 5880 降频严重,鸡肋了(怀疑是程序问题,或者通信消耗变大)

本帖最后由 godspeed66 于 2024-4-24 16:34 编辑

RTX 5880 鸡肋了

RTX 5880 降频严重,鸡肋了(怀疑是程序问题,或者通信消耗变大)

实测RTX 5880 单卡 的推理速度仅有L20 约80%速度;与RTX 6000ADA 对比,仅有RTX 6000ADA75%~83%的速度

实测RTX 5880单卡、双卡、三卡(四卡等待机箱改造中)的推理速度均比RTX 6000 ADA 慢,肉眼可见的慢,甚至比不上RTX 4090*2

RTX 5880\RTX 6000 环境

操作系统:Linux-5.15.146.1-microsoft-standard-WSL2-x86_64-with-glibc2.35.
python版本:3.11.7 (main, Dec 15 2023, 18:12:31)
项目版本:v0.2.10
langchain版本:0.0.354. fastchat版本:0.2.35


当前使用的分词器:ChineseRecursiveTextSplitter
当前启动的LLM模型:['Qwen1.5-32B-Chat'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen1.5-32B-Chat',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型: bge-large-zh-v1.5 @ cuda


L20 *4 是AUTODL的环境

操作系统:Linux-5.15.0-91-generic-x86_64-with-glibc2.35.
python版本:3.11.7 (main, Dec 15 2023, 18:12:31)
项目版本:v0.2.10
langchain版本:0.0.354. fastchat版本:0.2.35


当前使用的分词器:ChineseRecursiveTextSplitter
当前启动的LLM模型:['Qwen1.5-32B-Chat'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen/Qwen1.5-32B-Chat',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型: bge-large-zh-v1.5 @ cuda


RTX 4090*2环境

操作系统:Linux-6.5.0-27-generic-x86_64-with-glibc2.35.
python版本:3.11.7 (main, Dec 15 2023, 18:12:31)
项目版本:v0.2.10
langchain版本:0.0.354. fastchat版本:0.2.35


当前使用的分词器:ChineseRecursiveTextSplitter
当前启动的LLM模型:['Qwen1.5-32B-Chat-AWQ'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen/Qwen1.5-32B-Chat-AWQ',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型: bge-large-zh-v1.5 @ cuda



目前遇到的问题是,推理时RTX 5880的GPU频率上不去


后面就越来越慢



伦风凝星 发表于 2024-4-13 12:56

[晕倒]其实要是用不上OPGL不一定非得Quadro这些吧。。。

fut888 发表于 2024-4-13 13:49

5880核心数量还不如4090d

fut888 发表于 2024-4-13 14:02

github放出了4090 驱动p2p的破解,可以试试

Illidan2004 发表于 2024-4-13 14:23

5880本来就是6000ada 的特供版本啊为了防止禁令的

q3again0605 发表于 2024-4-13 14:34

fut888 发表于 2024-4-13 14:02
github放出了4090 驱动p2p的破解,可以试试

发个地址看看,意义可能不大,毕竟显存大小限制可以全量微调模型的大小有限。

q3again0605 发表于 2024-4-13 14:42

前面是有报道说L20推理性能和L40和L40s差不多。Llama2 7b,bs16,fp16的时候。为什么呢,5880参数全面超过L20的呢。是否有驱动问题?

fut888 发表于 2024-4-13 14:51

q3again0605 发表于 2024-4-13 14:34
发个地址看看,意义可能不大,毕竟显存大小限制可以全量微调模型的大小有限。 ...

https://github.com/tinygrad/open-gpu-kernel-modules

炼金术士 发表于 2024-4-13 14:55

24g显存和48g显存能做到的事完全不一样

q3again0605 发表于 2024-4-13 14:56

fut888 发表于 2024-4-13 14:51
https://github.com/tinygrad/open-gpu-kernel-modules

真不错,先clone过来,后面试试,谢谢:)

fut888 发表于 2024-4-13 14:57

q3again0605 发表于 2024-4-13 14:56
真不错,先clone过来,后面试试,谢谢:)

有空上个测试结果[傻笑]

q3again0605 发表于 2024-4-13 14:57

你用的langchain-chatchat项目?

q3again0605 发表于 2024-4-13 14:59

fut888 发表于 2024-4-13 14:57
有空上个测试结果

让楼主试试,我还在犹豫是上一块L20,5880还是加一块4090呢哈哈。

q3again0605 发表于 2024-4-13 16:53

炼金术士 发表于 2024-4-13 14:55
24g显存和48g显存能做到的事完全不一样

模型都能装下的情况下这可不一定哦,只是推理的话单卡4090还是很强大的。

godspeed66 发表于 2024-4-14 08:24

q3again0605 发表于 2024-4-13 14:57
你用的langchain-chatchat项目?

改写文档以及分析文档很方便

就是0.2.10版本的对Qwen1.5不能用vllm导致性能低
以及RAG效果差

godspeed66 发表于 2024-4-14 08:33

q3again0605 发表于 2024-4-13 14:59
让楼主试试,我还在犹豫是上一块L20,5880还是加一块4090呢哈哈。

看你对显存总体的需求

我的体验,32B以下、int4、AWQ模型对文档改写和总结效果都不好

32B以上模型建议用RTX 5880,这样最多能扩展到196GB显存(可以推理72B模型),理论最大能扩展到8卡


RTX 40901~2卡性价比超级超级高,40GB以下显存需求用2张RTX4090是最佳选择;

RTX 4090   8卡需要程序优化



godspeed66 发表于 2024-4-14 08:39

fut888 发表于 2024-4-13 13:49
5880核心数量还不如4090d

我怀疑是RTX 5880 驱动不完善

依据是“6. 即将推出
的 NVIDIA vGPU 版本 (预计于 2024 年第一季度发布)将提供 RTX 5880 Ada Generation GPU 的虚拟化支持。I ”


可能驱动还需要优化

因为推理过程慢是不对的,推理过程GPU使用率才30~50%,GPU频率仅有1900~2300MHz,与满载2700MHz差好远

q3again0605 发表于 2024-4-14 14:30

godspeed66 发表于 2024-4-14 08:39
我怀疑是RTX 5880 驱动不完善

依据是“6. 即将推出


L20和4090比如何?

godspeed66 发表于 2024-4-15 19:50

q3again0605 发表于 2024-4-14 14:30
L20和4090比如何?

看对显存的需求

4090只有24GBL20 有48GB

gtv 发表于 2024-4-15 19:53

godspeed66 发表于 2024-4-14 08:39
我怀疑是RTX 5880 驱动不完善

依据是“6. 即将推出


bound在memory上导致freq上不去?

godspeed66 发表于 2024-4-15 20:09

gtv 发表于 2024-4-15 19:53
bound在memory上导致freq上不去?

不知道啊 ,推理的时候Bus interface Load 基本是0


gtv 发表于 2024-4-16 19:21

godspeed66 发表于 2024-4-15 20:09
不知道啊 ,推理的时候Bus interface Load 基本是0

用nsys采样再看看

土竹 发表于 2025-4-8 08:02

平台的问题吧。。。我这测试多卡RTX 5880 ada开销是没有问题的
页: [1]
查看完整版本: RTX 5880 降频严重,鸡肋了(怀疑是程序问题,或者通信消耗变大)