285k+192G内存+48G 4090+pm9a3怒战deepseek r1 2.51bit+Ktransformers

ux4d 发表于 2025-2-27 10:27

本帖最后由 ux4d 于 2025-3-2 03:49 编辑

楼主为了彻底解决磁盘io的瓶颈，购置pcie5.0 4TB SSD一枚，并在该硬盘上安装了原生环境的ubuntu24.04并部署了unsloth deepseek r1 671b 2.51bit，获得了2.7tokens/s的推理速度，比之前的0.3tokens/s有惊人提升！

楼主凑齐了四根酷兽ddr5 48G，费了一番功夫让它们稳定跑在5600Mhz 28-34-34-64 @1.3V，然后就开始折腾llm。

ps:这四根条都是神体质，每两根都能稳定7200C36@1.4V日常用，但是ddr5你懂的，主板也不行，就华硕的便宜prime。

开胃菜是千问2.5 72B，可以完全跑在48G显存里面，11tokes/s，飞快。

随后用llama.cpp尝试了unsloth的deepseek R1 671b 1.58bit动态量化，超长文输出2tokens/s，把192G内存和48G显存正好用干净，没有跑到虚拟内存里去，但是主要是cpu干活。此时瓶颈在80GB/s的内存带宽。

最后在wsl2上使用清华Ktransformers方案尝试了unsloth的deepseek R1 671b 2.51bit动态量化，只有0.3tokens/s。内存根本不够用，ssd虚拟内存一直在读读读读。把gguf文件搬到wsl2文件系统内部之后，排除了wsl2和宿主机之间的垃圾磁盘io，但cpu一直在满载，磁盘占用还是很低，显卡也一直在睡觉，且48g显存没有发挥作用，显存占用只有14G。需要找时间用非虚拟环境的部署一次试试来进一步排除性能瓶颈。

KimmyGLM 发表于 2025-2-27 10:32

玩到后面就发现内存不够用，要不来和我一起玩ES 服务器吧。

ux4d 发表于 2025-2-27 10:36

KimmyGLM 发表于 2025-2-27 10:32
玩到后面就发现内存不够用，要不来和我一起玩ES 服务器吧。

太对了哥，折腾这些东西不整epyc xeon没有前途，内存容量和内存带宽被双双爆杀

ttt5t5t 发表于 2025-2-27 10:43

这成本已经超过xeonepyu洋垃圾了吧

KimmyGLM 发表于 2025-2-27 10:44

ux4d 发表于 2025-2-27 10:36
太对了哥，折腾这些东西不整epyc xeon没有前途，内存容量和内存带宽被双双爆杀 ...

折腾这个，比玩游戏带劲多了，哈哈哈哈。

ux4d 发表于 2025-2-27 10:47

ttt5t5t 发表于 2025-2-27 10:43
这成本已经超过xeonepyu洋垃圾了吧

超了，但是相比洋垃圾优点还是有的，就是它真的还能日常用

我輩樹である 发表于 2025-2-27 10:52

有趣的尝试。

testmepro 发表于 2025-2-27 11:02

消费级还是差点意思上线撕至少8-12通道内存带宽能上200g速度能起来

deepfishing 发表于 2025-2-27 11:06

我感觉内存可以不管延迟硬拉频率吧，跑这种任务应该是带宽优先，延迟不太重要，所以我好奇农企新的ai395再接个显卡跑起来咋样

KimmyGLM 发表于 2025-2-27 11:09

testmepro 发表于 2025-2-27 11:02
消费级还是差点意思上线撕至少8-12通道内存带宽能上200g速度能起来

TR 只有4通道，TR pro 就8通道，站里有7985wx的测试，带宽超频后300G+
但是！TR pro 是天价，比一众Xeon / eypc 9004 9005 双路都贵出不少

ux4d 发表于 2025-2-27 11:11

我輩樹である发表于 2025-2-27 10:52
有趣的尝试。

感谢树导捧场。追加总结一句，Ktransformers方案看起来很美好，但是预分配前摇太久，要把deepseek的61个层一层一层有选择性地朝显存里面搬（个人的浅薄理解），导致它离实际生产有距离，现在还没有很实用。

ux4d 发表于 2025-2-27 11:14

deepfishing 发表于 2025-2-27 11:06
我感觉内存可以不管延迟硬拉频率吧，跑这种任务应该是带宽优先，延迟不太重要，所以我好奇农企新的ai395再 ...

带宽不会再有质变了，这些内存直插两根的时候跑7200c36也就100GB/s~110GB/s的带宽，就算未来有办法四根也能跑7200c36，相比5600c28的78GB/s也就那回事。ai395内存最大128G，还是不够用。。

ux4d 发表于 2025-2-27 11:16

KimmyGLM 发表于 2025-2-27 11:09
TR 只有4通道，TR pro 就8通道，站里有7985wx的测试，带宽超频后300G+
但是！TR pro 是天价，比一众Xeon...

整这么一套tr pro的钱是不是够四张48G 4090了。。

ux4d 发表于 2025-2-27 11:17

testmepro 发表于 2025-2-27 11:02
消费级还是差点意思上线撕至少8-12通道内存带宽能上200g速度能起来

是的，双通道小水管啃不动这硬骨头了

testmepro 发表于 2025-2-27 11:21

本帖最后由 testmepro 于 2025-2-27 11:22 编辑

虚心请教,个人本地部署大模型有什么变现模式吗?如果有我也想整一套线撕pro,毕竟好几万花出去得有收益吧,不然说服不了自己花几万整个工作站扔家吃灰.
现在大模型AI是风口但是不知道怎么抓住呀.没想明白变现模式是啥,所谓的数据安全啥的对于个人来说好像也不是那么太重要吧

meooo 发表于 2025-2-27 11:21

佩服大佬的动手能力。心向往之，观摩学习了~

yddy 发表于 2025-2-27 11:25

下本啊，还是多加点现存啊[狂笑]

bingshitian 发表于 2025-2-27 11:26

等等新款M4 Ultra的MAC Studio，内存带宽我个人估计可以超过1000，老款最高800，如果最高内存能到256G，可以运行量化版的deepseek

松田发表于 2025-2-27 11:29

KimmyGLM 发表于 2025-2-27 11:09
TR 只有4通道，TR pro 就8通道，站里有7985wx的测试，带宽超频后300G+
但是！TR pro 是天价，比一众Xeon...

那组个最便宜的 7955WX, 可不可以呢, 也是8通, 反正CPU的使用度不高, 要的就是它的扩充能力

gdsd 发表于 2025-2-27 11:32

打消了我 192g的念头。。。感谢楼主勇敢小白鼠。

ux4d 发表于 2025-2-27 11:36

gdsd 发表于 2025-2-27 11:32
打消了我 192g的念头。。。感谢楼主勇敢小白鼠。

你原本想要192g做什么

→L← 发表于 2025-2-27 11:39

为啥苹果的内存带宽能这么高，pc实现起来成本太高了

gdsd 发表于 2025-2-27 11:40

ux4d 发表于 2025-2-27 11:36
你原本想要192g做什么

家里电脑用来 671b 动态量化。API也在用，强迫症还是想私有化~~正好升级9950x+192，这哈没理由了

我輩樹である 发表于 2025-2-27 11:40

→L← 发表于 2025-2-27 11:39
为啥苹果的内存带宽能这么高，pc实现起来成本太高了

苹果实现起来成本也很高，只是它的用户群帮他消化了溢价。

ux4d 发表于 2025-2-27 11:40

testmepro 发表于 2025-2-27 11:21
虚心请教,个人本地部署大模型有什么变现模式吗?如果有我也想整一套线撕pro,毕竟好几万花出去得有收益吧,不 ...

您好，楼主不是那种有预测未来本事的高人，整这些玩意从未想要过变现，一方面是兴趣爱好，一方面是时代大浪使然，担心自己不更新知识和技能的学习就有一天会被淘汰，而折腾llm只是一个让自己持续学习的窗口而已。

ux4d 发表于 2025-2-27 11:44

gdsd 发表于 2025-2-27 11:40
家里电脑用来 671b 动态量化。API也在用，强迫症还是想私有化~~正好升级9950x+192，这哈没理由了 ...

192g跑Ktransformers+ds 2.51bit量化肯定有优化空间，我自认为我的是一个失败案例，因为github社区有用你说的这套配置跑出来5tokens/s的案例。我也并且到此为止了，后面要在pcie5.0存储介质里建个原生环境继续搞。
不要害怕，大胆尝试！！！

q3again0605 发表于 2025-2-27 11:48

本帖最后由 q3again0605 于 2025-2-27 11:52 编辑

qween 72b你是跑8bit量化吗，4bit能跑多少tks？5600估计只有9GB/s左右内存带宽吧。毕竟只有双通道。跑kt显存多少没有影响，只要14个G以上所以24G 4090和48G没有区别。瓶颈还是内存带宽上。wsl2下磁盘性能损失还是有点大，但是wsl2不知道内存性能损失如何。装个原装ubuntu比较一下。

ux4d 发表于 2025-2-27 12:00

q3again0605 发表于 2025-2-27 11:48
qween 72b你是跑8bit量化吗，4bit能跑多少tks？5600估计只有9GB/s左右内存带宽吧。毕竟只有双通道。跑kt显 ...

qwen2.5 72b应该就是4bit量化跑的，因为跑8bit必定炸显存。5600双通道我这边带宽78G/s，你是不是少打了一个0？但是这个确实是瓶颈。
wsl2缩内存io性能的情况我确实没有想过，原生环境后面肯定要搭，感谢指教

KimmyGLM 发表于 2025-2-27 12:10

本帖最后由 KimmyGLM 于 2025-2-27 12:43 编辑

松田发表于 2025-2-27 11:29
那组个最便宜的 7955WX, 可不可以呢, 也是8通, 反正CPU的使用度不高, 要的就是它的扩充能力 ...

不太行，tr pro的理论带宽上限，搭配7000 OC 的内存，也不过才400G 带宽。还不如epyc 9135 这种入门16CCD 跑满带宽的划算。

站里帖子：https://www.chiphell.com/thread-2616386-1-1.html
里面就有实际带宽，才200G .....

来看看超冒烟的xeon 带宽（也是8通道）

testmepro 发表于 2025-2-27 12:11

看b站一个up主4张2080ti 22g 可以跑32b非量化版.效果可以够小公司十几个人使用

页: [1] 2

Chiphell - 分享与交流用户体验's Archiver

285k+192G内存+48G 4090+pm9a3怒战deepseek r1 2.51bit+Ktransformers