|  | 
 
| 本帖最后由 godspeed66 于 2024-4-24 16:34 编辑 
 RTX 5880 鸡肋了
 
 RTX 5880 降频严重,鸡肋了(怀疑是程序问题,或者通信消耗变大)
 
 实测RTX 5880 单卡 的推理速度仅有L20 约80%速度;与RTX 6000ADA 对比,仅有RTX 6000ADA  75%~83%的速度
 
 实测RTX 5880单卡、双卡、三卡(四卡等待机箱改造中)的推理速度均比RTX 6000 ADA 慢,肉眼可见的慢,甚至比不上RTX 4090*2
 
 RTX 5880\RTX 6000 环境
 
 操作系统:Linux-5.15.146.1-microsoft-standard-WSL2-x86_64-with-glibc2.35.
 python版本:3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0]
 项目版本:v0.2.10
 langchain版本:0.0.354. fastchat版本:0.2.35
 
 
 当前使用的分词器:ChineseRecursiveTextSplitter
 当前启动的LLM模型:['Qwen1.5-32B-Chat'] @ cuda
 {'device': 'cuda',
 'host': '0.0.0.0',
 'infer_turbo': False,
 'model_path': 'Qwen1.5-32B-Chat',
 'model_path_exists': True,
 'port': 20002}
 当前Embbedings模型: bge-large-zh-v1.5 @ cuda
 
 
 L20 *4 是AUTODL的环境
 
 操作系统:Linux-5.15.0-91-generic-x86_64-with-glibc2.35.
 python版本:3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0]
 项目版本:v0.2.10
 langchain版本:0.0.354. fastchat版本:0.2.35
 
 
 当前使用的分词器:ChineseRecursiveTextSplitter
 当前启动的LLM模型:['Qwen1.5-32B-Chat'] @ cuda
 {'device': 'cuda',
 'host': '0.0.0.0',
 'infer_turbo': False,
 'model_path': 'Qwen/Qwen1.5-32B-Chat',
 'model_path_exists': True,
 'port': 20002}
 当前Embbedings模型: bge-large-zh-v1.5 @ cuda
 
 
 RTX 4090*2  环境
 
 操作系统:Linux-6.5.0-27-generic-x86_64-with-glibc2.35.
 python版本:3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0]
 项目版本:v0.2.10
 langchain版本:0.0.354. fastchat版本:0.2.35
 
 
 当前使用的分词器:ChineseRecursiveTextSplitter
 当前启动的LLM模型:['Qwen1.5-32B-Chat-AWQ'] @ cuda
 {'device': 'cuda',
 'host': '0.0.0.0',
 'infer_turbo': False,
 'model_path': 'Qwen/Qwen1.5-32B-Chat-AWQ',
 'model_path_exists': True,
 'port': 20002}
 当前Embbedings模型: bge-large-zh-v1.5 @ cuda
 
 
 
 目前遇到的问题是,推理时RTX 5880的GPU频率上不去
 
   
 后面就越来越慢
 
 
   
 
 | 
 |