|
本帖最后由 godspeed66 于 2024-4-24 16:34 编辑
RTX 5880 鸡肋了
RTX 5880 降频严重,鸡肋了(怀疑是程序问题,或者通信消耗变大)
实测RTX 5880 单卡 的推理速度仅有L20 约80%速度;与RTX 6000ADA 对比,仅有RTX 6000ADA 75%~83%的速度
实测RTX 5880单卡、双卡、三卡(四卡等待机箱改造中)的推理速度均比RTX 6000 ADA 慢,肉眼可见的慢,甚至比不上RTX 4090*2
RTX 5880\RTX 6000 环境
操作系统:Linux-5.15.146.1-microsoft-standard-WSL2-x86_64-with-glibc2.35.
python版本:3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0]
项目版本:v0.2.10
langchain版本:0.0.354. fastchat版本:0.2.35
当前使用的分词器:ChineseRecursiveTextSplitter
当前启动的LLM模型:['Qwen1.5-32B-Chat'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen1.5-32B-Chat',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型: bge-large-zh-v1.5 @ cuda
L20 *4 是AUTODL的环境
操作系统:Linux-5.15.0-91-generic-x86_64-with-glibc2.35.
python版本:3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0]
项目版本:v0.2.10
langchain版本:0.0.354. fastchat版本:0.2.35
当前使用的分词器:ChineseRecursiveTextSplitter
当前启动的LLM模型:['Qwen1.5-32B-Chat'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen/Qwen1.5-32B-Chat',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型: bge-large-zh-v1.5 @ cuda
RTX 4090*2 环境
操作系统:Linux-6.5.0-27-generic-x86_64-with-glibc2.35.
python版本:3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0]
项目版本:v0.2.10
langchain版本:0.0.354. fastchat版本:0.2.35
当前使用的分词器:ChineseRecursiveTextSplitter
当前启动的LLM模型:['Qwen1.5-32B-Chat-AWQ'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': 'Qwen/Qwen1.5-32B-Chat-AWQ',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型: bge-large-zh-v1.5 @ cuda
目前遇到的问题是,推理时RTX 5880的GPU频率上不去
后面就越来越慢
|
|