LNT 发表于 2025-2-28 19:15

7955wx+512G+4090 48G测试deepseek-r1

本帖最后由 LNT 于 2025-2-28 19:15 编辑


模型都是q4版本

测试平台如下
Thinkstation P8
CPU:7955wx
内存:64G x 8
显卡:4090 48G x 1

Macbook pro
m3max + 64G内存

32b和70b都使用ollama直接运行,在没有爆显存的情况下,4090为m3max的3~5倍
关于70b的模型,如果使用双3090或4090 24G版本,速度也有16~17 tps。如果使用单个4090 24G参考去年测试的llama3 70b,会爆显存直接变成1~2 tps

671b的软件环境
ubuntu 20.04
python 3.11 + ktransformer 0.2.2rc1
CUDA 12.4
Torch 2.6
部署一次成功无微调,用local.chat结果为6.2 tps。瓶颈应该是由于7955wx的2 CCDs问题导致内存读取带宽为100GB/s,如果换7965wx及以上的4 CCDs及以上的TR pro则可以到230GB/s(非超频环境)。

671b第一次加载耗时2分半钟,大概为390GB/150s=2.6G/s,目测遇到SSD持续读的瓶颈?或者文件系统的问题。第二次加载速度为70秒。
671b运行过程中显卡功耗大概在100W,显存占用14G左右,上下文多了会到19G,显卡使用率始终低于50%。CPU占用也只有40%左右,机器全程比较安静。
用ktransformer的话,跟显卡速度关系不大,上下文长对显存有一定的需求,48G完全过剩

其他测试671 q4的结果
H100 x 8(非ktransformer方案)那个可以到24 tps单用户
ktransformer方案最快的应该是9275f * 2+4070ti的方案,能到18.5tps,单9654可以做到14.5tps,双路提升大概在30%,这个已经非常可用了

视频版测试结果
https://www.bilibili.com/video/BV1oF9gYwEVY/?spm_id_from=333.337.search-card.all.click&vd_source=e6adce689d100b923709f0551a2100b7

os39000 发表于 2025-2-28 19:55

楼主ubuntu是实体系统还是虚拟机?

LNT 发表于 2025-2-28 20:36

os39000 发表于 2025-2-28 19:55
楼主ubuntu是实体系统还是虚拟机?

实体系统

YsHaNg 发表于 2025-2-28 20:41

关心应用部署 ktransformers当api接入能用本地搜索/rag/function吗 https://github.com/ubergarm/r1-ktransformers-guide

q3again0605 发表于 2025-2-28 21:21

ktransformer方案能并发吗?

LNT 发表于 2025-2-28 21:28

q3again0605 发表于 2025-2-28 21:21
ktransformer方案能并发吗?

目前ktransformers不支持多用户

松田 发表于 2025-2-28 22:36

用KimmyGLM大所介绍的EPYC9135, 配够它12条内存, 应该比TPRO好吧, 毕竟内存读取带宽大小是卡脖的原因

q3again0605 发表于 2025-2-28 23:29

LNT 发表于 2025-2-28 21:28
目前ktransformers不支持多用户

明白,也看了帖子用ngix等做了尝试,都失败了

guitengyue 发表于 2025-2-28 23:33

ktransformer方案最快的应该是9275f * 2+4070ti的方案,能到18.5tps,单9654可以做到14.5tps,双路提升大概在30%,这个已经非常可用了
奇怪,我跑的时候,4080s的16G显存说不够,还差1.7G

uprit 发表于 2025-2-28 23:46

kt方案瓶颈还是在内存带宽,顶天了也只能个人玩玩

yueyue 发表于 2025-3-1 00:06

前几天epyc平台无显卡2.22bit量化版本跑出来3.5token/s,内存不够跑不起来q4版本的

配置如下:
CPU: amd epyc 7k62
内存:8 x 32g ddr4 3200
页: [1]
查看完整版本: 7955wx+512G+4090 48G测试deepseek-r1