7955wx+512G+4090 48G测试deepseek-r1

LNT 发表于 2025-2-28 19:15

本帖最后由 LNT 于 2025-2-28 19:15 编辑

模型都是q4版本

测试平台如下
Thinkstation P8
CPU：7955wx
内存：64G x 8
显卡：4090 48G x 1

Macbook pro
m3max + 64G内存

32b和70b都使用ollama直接运行，在没有爆显存的情况下，4090为m3max的3~5倍
关于70b的模型，如果使用双3090或4090 24G版本，速度也有16~17 tps。如果使用单个4090 24G参考去年测试的llama3 70b，会爆显存直接变成1~2 tps

671b的软件环境
ubuntu 20.04
python 3.11 + ktransformer 0.2.2rc1
CUDA 12.4
Torch 2.6
部署一次成功无微调，用local.chat结果为6.2 tps。瓶颈应该是由于7955wx的2 CCDs问题导致内存读取带宽为100GB/s，如果换7965wx及以上的4 CCDs及以上的TR pro则可以到230GB/s(非超频环境)。

671b第一次加载耗时2分半钟，大概为390GB/150s=2.6G/s，目测遇到SSD持续读的瓶颈？或者文件系统的问题。第二次加载速度为70秒。
671b运行过程中显卡功耗大概在100W，显存占用14G左右，上下文多了会到19G，显卡使用率始终低于50%。CPU占用也只有40%左右，机器全程比较安静。
用ktransformer的话，跟显卡速度关系不大，上下文长对显存有一定的需求，48G完全过剩

其他测试671 q4的结果
H100 x 8（非ktransformer方案）那个可以到24 tps单用户
ktransformer方案最快的应该是9275f * 2+4070ti的方案，能到18.5tps，单9654可以做到14.5tps，双路提升大概在30%，这个已经非常可用了

视频版测试结果
https://www.bilibili.com/video/BV1oF9gYwEVY/?spm_id_from=333.337.search-card.all.click&vd_source=e6adce689d100b923709f0551a2100b7

os39000 发表于 2025-2-28 19:55

楼主ubuntu是实体系统还是虚拟机？

LNT 发表于 2025-2-28 20:36

os39000 发表于 2025-2-28 19:55
楼主ubuntu是实体系统还是虚拟机？

实体系统

YsHaNg 发表于 2025-2-28 20:41

关心应用部署 ktransformers当api接入能用本地搜索/rag/function吗 https://github.com/ubergarm/r1-ktransformers-guide

q3again0605 发表于 2025-2-28 21:21

ktransformer方案能并发吗？

LNT 发表于 2025-2-28 21:28

q3again0605 发表于 2025-2-28 21:21
ktransformer方案能并发吗？

目前ktransformers不支持多用户

松田发表于 2025-2-28 22:36

用KimmyGLM大所介绍的EPYC9135, 配够它12条内存, 应该比TPRO好吧, 毕竟内存读取带宽大小是卡脖的原因

q3again0605 发表于 2025-2-28 23:29

LNT 发表于 2025-2-28 21:28
目前ktransformers不支持多用户

明白，也看了帖子用ngix等做了尝试，都失败了

guitengyue 发表于 2025-2-28 23:33

ktransformer方案最快的应该是9275f * 2+4070ti的方案，能到18.5tps，单9654可以做到14.5tps，双路提升大概在30%，这个已经非常可用了
奇怪，我跑的时候，4080s的16G显存说不够，还差1.7G

uprit 发表于 2025-2-28 23:46

kt方案瓶颈还是在内存带宽，顶天了也只能个人玩玩

yueyue 发表于 2025-3-1 00:06

前几天epyc平台无显卡2.22bit量化版本跑出来3.5token/s，内存不够跑不起来q4版本的

配置如下：
CPU： amd epyc 7k62
内存：8 x 32g ddr4 3200

页: [1]

Chiphell - 分享与交流用户体验's Archiver

7955wx+512G+4090 48G测试deepseek-r1