RTX 5880 降频严重,鸡肋了(怀疑是程序问题,或者通信消耗变大)
本帖最后由 godspeed66 于 2024-4-24 16:34 编辑RTX 5880 鸡肋了
RTX 5880 降频严重,鸡肋了(怀疑是程序问题,或者通信消耗变大)
实测RTX 5880 单卡 的推理速度仅有L20 约80%速度;与RTX 6000ADA 对比,仅有RTX 6000ADA75%~83%的速度
实测RTX 5880单卡、双卡、三卡(四卡等待机箱改造中)的推理速度均比RTX 6000 ADA 慢,肉眼可见的慢,甚至比不上RTX 4090*2
RTX 5880\RTX 6000 环境
操作系统:Linux-5.15.146.1-microsoft-standard-WSL2-x86_64-with-glibc2.35.
python版本:3.11.7 (main, Dec 15 2023, 18:12:31)
项目版本:v0.2.10
langchain版本:0.0.354. fastchat版本:0.2.35
当前使用的分词器:ChineseRecursiveTextSplitter
当前启动的LLM模型:['Qwen1.5-32B-Chat'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen1.5-32B-Chat',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型: bge-large-zh-v1.5 @ cuda
L20 *4 是AUTODL的环境
操作系统:Linux-5.15.0-91-generic-x86_64-with-glibc2.35.
python版本:3.11.7 (main, Dec 15 2023, 18:12:31)
项目版本:v0.2.10
langchain版本:0.0.354. fastchat版本:0.2.35
当前使用的分词器:ChineseRecursiveTextSplitter
当前启动的LLM模型:['Qwen1.5-32B-Chat'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen/Qwen1.5-32B-Chat',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型: bge-large-zh-v1.5 @ cuda
RTX 4090*2环境
操作系统:Linux-6.5.0-27-generic-x86_64-with-glibc2.35.
python版本:3.11.7 (main, Dec 15 2023, 18:12:31)
项目版本:v0.2.10
langchain版本:0.0.354. fastchat版本:0.2.35
当前使用的分词器:ChineseRecursiveTextSplitter
当前启动的LLM模型:['Qwen1.5-32B-Chat-AWQ'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen/Qwen1.5-32B-Chat-AWQ',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型: bge-large-zh-v1.5 @ cuda
目前遇到的问题是,推理时RTX 5880的GPU频率上不去
后面就越来越慢
[晕倒]其实要是用不上OPGL不一定非得Quadro这些吧。。。 5880核心数量还不如4090d
github放出了4090 驱动p2p的破解,可以试试
5880本来就是6000ada 的特供版本啊为了防止禁令的 fut888 发表于 2024-4-13 14:02
github放出了4090 驱动p2p的破解,可以试试
发个地址看看,意义可能不大,毕竟显存大小限制可以全量微调模型的大小有限。 前面是有报道说L20推理性能和L40和L40s差不多。Llama2 7b,bs16,fp16的时候。为什么呢,5880参数全面超过L20的呢。是否有驱动问题? q3again0605 发表于 2024-4-13 14:34
发个地址看看,意义可能不大,毕竟显存大小限制可以全量微调模型的大小有限。 ...
https://github.com/tinygrad/open-gpu-kernel-modules 24g显存和48g显存能做到的事完全不一样 fut888 发表于 2024-4-13 14:51
https://github.com/tinygrad/open-gpu-kernel-modules
真不错,先clone过来,后面试试,谢谢:) q3again0605 发表于 2024-4-13 14:56
真不错,先clone过来,后面试试,谢谢:)
有空上个测试结果[傻笑] 你用的langchain-chatchat项目? fut888 发表于 2024-4-13 14:57
有空上个测试结果
让楼主试试,我还在犹豫是上一块L20,5880还是加一块4090呢哈哈。 炼金术士 发表于 2024-4-13 14:55
24g显存和48g显存能做到的事完全不一样
模型都能装下的情况下这可不一定哦,只是推理的话单卡4090还是很强大的。 q3again0605 发表于 2024-4-13 14:57
你用的langchain-chatchat项目?
改写文档以及分析文档很方便
就是0.2.10版本的对Qwen1.5不能用vllm导致性能低
以及RAG效果差 q3again0605 发表于 2024-4-13 14:59
让楼主试试,我还在犹豫是上一块L20,5880还是加一块4090呢哈哈。
看你对显存总体的需求
我的体验,32B以下、int4、AWQ模型对文档改写和总结效果都不好
32B以上模型建议用RTX 5880,这样最多能扩展到196GB显存(可以推理72B模型),理论最大能扩展到8卡
RTX 40901~2卡性价比超级超级高,40GB以下显存需求用2张RTX4090是最佳选择;
RTX 4090 8卡需要程序优化
fut888 发表于 2024-4-13 13:49
5880核心数量还不如4090d
我怀疑是RTX 5880 驱动不完善
依据是“6. 即将推出
的 NVIDIA vGPU 版本 (预计于 2024 年第一季度发布)将提供 RTX 5880 Ada Generation GPU 的虚拟化支持。I ”
可能驱动还需要优化
因为推理过程慢是不对的,推理过程GPU使用率才30~50%,GPU频率仅有1900~2300MHz,与满载2700MHz差好远
godspeed66 发表于 2024-4-14 08:39
我怀疑是RTX 5880 驱动不完善
依据是“6. 即将推出
L20和4090比如何? q3again0605 发表于 2024-4-14 14:30
L20和4090比如何?
看对显存的需求
4090只有24GBL20 有48GB godspeed66 发表于 2024-4-14 08:39
我怀疑是RTX 5880 驱动不完善
依据是“6. 即将推出
bound在memory上导致freq上不去? gtv 发表于 2024-4-15 19:53
bound在memory上导致freq上不去?
不知道啊 ,推理的时候Bus interface Load 基本是0
godspeed66 发表于 2024-4-15 20:09
不知道啊 ,推理的时候Bus interface Load 基本是0
用nsys采样再看看 平台的问题吧。。。我这测试多卡RTX 5880 ada开销是没有问题的
页:
[1]