找回密码
 加入我们
搜索
      
查看: 6039|回复: 21

[显卡] RTX 5880 降频严重,鸡肋了(怀疑是程序问题,或者通信消耗变大)

[复制链接]
发表于 2024-4-13 10:35 | 显示全部楼层 |阅读模式
本帖最后由 godspeed66 于 2024-4-24 16:34 编辑

RTX 5880 鸡肋了

RTX 5880 降频严重,鸡肋了(怀疑是程序问题,或者通信消耗变大)

实测RTX 5880 单卡 的推理速度仅有L20 约80%速度;与RTX 6000ADA 对比,仅有RTX 6000ADA  75%~83%的速度

实测RTX 5880单卡、双卡、三卡(四卡等待机箱改造中)的推理速度均比RTX 6000 ADA 慢,肉眼可见的慢,甚至比不上RTX 4090*2

RTX 5880\RTX 6000 环境

操作系统:Linux-5.15.146.1-microsoft-standard-WSL2-x86_64-with-glibc2.35.
python版本:3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0]
项目版本:v0.2.10
langchain版本:0.0.354. fastchat版本:0.2.35


当前使用的分词器:ChineseRecursiveTextSplitter
当前启动的LLM模型:['Qwen1.5-32B-Chat'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen1.5-32B-Chat',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型: bge-large-zh-v1.5 @ cuda


L20 *4 是AUTODL的环境

操作系统:Linux-5.15.0-91-generic-x86_64-with-glibc2.35.
python版本:3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0]
项目版本:v0.2.10
langchain版本:0.0.354. fastchat版本:0.2.35


当前使用的分词器:ChineseRecursiveTextSplitter
当前启动的LLM模型:['Qwen1.5-32B-Chat'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen/Qwen1.5-32B-Chat',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型: bge-large-zh-v1.5 @ cuda


RTX 4090*2  环境

操作系统:Linux-6.5.0-27-generic-x86_64-with-glibc2.35.
python版本:3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0]
项目版本:v0.2.10
langchain版本:0.0.354. fastchat版本:0.2.35


当前使用的分词器:ChineseRecursiveTextSplitter
当前启动的LLM模型:['Qwen1.5-32B-Chat-AWQ'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen/Qwen1.5-32B-Chat-AWQ',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型: bge-large-zh-v1.5 @ cuda



目前遇到的问题是,推理时RTX 5880的GPU频率上不去
屏幕截图 2024-04-15 200608.png

后面就越来越慢

屏幕截图 2024-04-15 201433.png

发表于 2024-4-13 12:56 | 显示全部楼层
其实要是用不上OPGL不一定非得Quadro这些吧。。。
发表于 2024-4-13 13:49 | 显示全部楼层
5880核心数量还不如4090d

发表于 2024-4-13 14:02 | 显示全部楼层
github放出了4090 驱动p2p的破解,可以试试

发表于 2024-4-13 14:23 | 显示全部楼层
5880本来就是6000ada 的特供版本啊  为了防止禁令的
发表于 2024-4-13 14:34 | 显示全部楼层
fut888 发表于 2024-4-13 14:02
github放出了4090 驱动p2p的破解,可以试试

发个地址看看,意义可能不大,毕竟显存大小限制可以全量微调模型的大小有限。
发表于 2024-4-13 14:42 | 显示全部楼层
前面是有报道说L20推理性能和L40和L40s差不多。Llama2 7b,bs16,fp16的时候。为什么呢,5880参数全面超过L20的呢。是否有驱动问题?
发表于 2024-4-13 14:51 | 显示全部楼层
q3again0605 发表于 2024-4-13 14:34
发个地址看看,意义可能不大,毕竟显存大小限制可以全量微调模型的大小有限。 ...

https://github.com/tinygrad/open-gpu-kernel-modules
发表于 2024-4-13 14:55 来自手机 | 显示全部楼层
24g显存和48g显存能做到的事完全不一样
发表于 2024-4-13 14:56 | 显示全部楼层
fut888 发表于 2024-4-13 14:51
https://github.com/tinygrad/open-gpu-kernel-modules

真不错,先clone过来,后面试试,谢谢:)
发表于 2024-4-13 14:57 | 显示全部楼层
q3again0605 发表于 2024-4-13 14:56
真不错,先clone过来,后面试试,谢谢:)

有空上个测试结果
发表于 2024-4-13 14:57 | 显示全部楼层
你用的langchain-chatchat项目?
发表于 2024-4-13 14:59 | 显示全部楼层
fut888 发表于 2024-4-13 14:57
有空上个测试结果

让楼主试试,我还在犹豫是上一块L20,5880还是加一块4090呢哈哈。
发表于 2024-4-13 16:53 | 显示全部楼层
炼金术士 发表于 2024-4-13 14:55
24g显存和48g显存能做到的事完全不一样

模型都能装下的情况下这可不一定哦,只是推理的话单卡4090还是很强大的。
 楼主| 发表于 2024-4-14 08:24 | 显示全部楼层
q3again0605 发表于 2024-4-13 14:57
你用的langchain-chatchat项目?

改写文档以及分析文档很方便

就是0.2.10版本的对Qwen1.5不能用vllm导致性能低
以及RAG效果差
 楼主| 发表于 2024-4-14 08:33 | 显示全部楼层
q3again0605 发表于 2024-4-13 14:59
让楼主试试,我还在犹豫是上一块L20,5880还是加一块4090呢哈哈。

看你对显存总体的需求

我的体验,32B以下、int4、AWQ模型对文档改写和总结效果都不好

32B以上模型建议用RTX 5880,这样最多能扩展到196GB显存(可以推理72B模型),理论最大能扩展到8卡


RTX 4090  1~2卡性价比超级超级高,40GB以下显存需求用2张RTX4090是最佳选择;

RTX 4090   8卡需要程序优化



 楼主| 发表于 2024-4-14 08:39 | 显示全部楼层
fut888 发表于 2024-4-13 13:49
5880核心数量还不如4090d


我怀疑是RTX 5880 驱动不完善

依据是“6. 即将推出
的 NVIDIA vGPU 版本 (预计于 2024 年第一季度发布)将提供 RTX 5880 Ada Generation GPU 的虚拟化支持。I ”


可能驱动还需要优化

因为推理过程慢是不对的,推理过程GPU使用率才30~50%,GPU频率仅有1900~2300MHz,与满载2700MHz差好远
发表于 2024-4-14 14:30 | 显示全部楼层
godspeed66 发表于 2024-4-14 08:39
我怀疑是RTX 5880 驱动不完善

依据是“6. 即将推出

L20和4090比如何?
 楼主| 发表于 2024-4-15 19:50 | 显示全部楼层

看对显存的需求

4090只有24GB  L20 有48GB
发表于 2024-4-15 19:53 | 显示全部楼层
godspeed66 发表于 2024-4-14 08:39
我怀疑是RTX 5880 驱动不完善

依据是“6. 即将推出

bound在memory上导致freq上不去?
 楼主| 发表于 2024-4-15 20:09 | 显示全部楼层
gtv 发表于 2024-4-15 19:53
bound在memory上导致freq上不去?

不知道啊 ,推理的时候Bus interface Load 基本是0


屏幕截图 2024-04-15 200608.png
发表于 2024-4-16 19:21 | 显示全部楼层
godspeed66 发表于 2024-4-15 20:09
不知道啊 ,推理的时候Bus interface Load 基本是0

用nsys采样再看看
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-15 10:26 , Processed in 0.013437 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表