7955wx+512G+4090 48G测试deepseek-r1
本帖最后由 LNT 于 2025-2-28 19:15 编辑模型都是q4版本
测试平台如下
Thinkstation P8
CPU:7955wx
内存:64G x 8
显卡:4090 48G x 1
Macbook pro
m3max + 64G内存
32b和70b都使用ollama直接运行,在没有爆显存的情况下,4090为m3max的3~5倍
关于70b的模型,如果使用双3090或4090 24G版本,速度也有16~17 tps。如果使用单个4090 24G参考去年测试的llama3 70b,会爆显存直接变成1~2 tps
671b的软件环境
ubuntu 20.04
python 3.11 + ktransformer 0.2.2rc1
CUDA 12.4
Torch 2.6
部署一次成功无微调,用local.chat结果为6.2 tps。瓶颈应该是由于7955wx的2 CCDs问题导致内存读取带宽为100GB/s,如果换7965wx及以上的4 CCDs及以上的TR pro则可以到230GB/s(非超频环境)。
671b第一次加载耗时2分半钟,大概为390GB/150s=2.6G/s,目测遇到SSD持续读的瓶颈?或者文件系统的问题。第二次加载速度为70秒。
671b运行过程中显卡功耗大概在100W,显存占用14G左右,上下文多了会到19G,显卡使用率始终低于50%。CPU占用也只有40%左右,机器全程比较安静。
用ktransformer的话,跟显卡速度关系不大,上下文长对显存有一定的需求,48G完全过剩
其他测试671 q4的结果
H100 x 8(非ktransformer方案)那个可以到24 tps单用户
ktransformer方案最快的应该是9275f * 2+4070ti的方案,能到18.5tps,单9654可以做到14.5tps,双路提升大概在30%,这个已经非常可用了
视频版测试结果
https://www.bilibili.com/video/BV1oF9gYwEVY/?spm_id_from=333.337.search-card.all.click&vd_source=e6adce689d100b923709f0551a2100b7
楼主ubuntu是实体系统还是虚拟机? os39000 发表于 2025-2-28 19:55
楼主ubuntu是实体系统还是虚拟机?
实体系统 关心应用部署 ktransformers当api接入能用本地搜索/rag/function吗 https://github.com/ubergarm/r1-ktransformers-guide ktransformer方案能并发吗? q3again0605 发表于 2025-2-28 21:21
ktransformer方案能并发吗?
目前ktransformers不支持多用户 用KimmyGLM大所介绍的EPYC9135, 配够它12条内存, 应该比TPRO好吧, 毕竟内存读取带宽大小是卡脖的原因 LNT 发表于 2025-2-28 21:28
目前ktransformers不支持多用户
明白,也看了帖子用ngix等做了尝试,都失败了 ktransformer方案最快的应该是9275f * 2+4070ti的方案,能到18.5tps,单9654可以做到14.5tps,双路提升大概在30%,这个已经非常可用了
奇怪,我跑的时候,4080s的16G显存说不够,还差1.7G kt方案瓶颈还是在内存带宽,顶天了也只能个人玩玩
前几天epyc平台无显卡2.22bit量化版本跑出来3.5token/s,内存不够跑不起来q4版本的
配置如下:
CPU: amd epyc 7k62
内存:8 x 32g ddr4 3200
页:
[1]