285k+192G内存+48G 4090+pm9a3怒战deepseek r1 2.51bit+Ktransformers
本帖最后由 ux4d 于 2025-3-2 03:49 编辑楼主为了彻底解决磁盘io的瓶颈,购置pcie5.0 4TB SSD一枚,并在该硬盘上安装了原生环境的ubuntu24.04并部署了unsloth deepseek r1 671b 2.51bit,获得了2.7tokens/s的推理速度,比之前的0.3tokens/s有惊人提升!
楼主凑齐了四根酷兽ddr5 48G,费了一番功夫让它们稳定跑在5600Mhz 28-34-34-64 @1.3V,然后就开始折腾llm。
ps:这四根条都是神体质,每两根都能稳定7200C36@1.4V日常用,但是ddr5你懂的,主板也不行,就华硕的便宜prime。
开胃菜是千问2.5 72B,可以完全跑在48G显存里面,11tokes/s,飞快。
随后用llama.cpp尝试了unsloth的deepseek R1 671b 1.58bit动态量化,超长文输出2tokens/s,把192G内存和48G显存正好用干净,没有跑到虚拟内存里去,但是主要是cpu干活。此时瓶颈在80GB/s的内存带宽。
最后在wsl2上使用清华Ktransformers方案尝试了unsloth的deepseek R1 671b 2.51bit动态量化,只有0.3tokens/s。内存根本不够用,ssd虚拟内存一直在读读读读。把gguf文件搬到wsl2文件系统内部之后,排除了wsl2和宿主机之间的垃圾磁盘io,但cpu一直在满载,磁盘占用还是很低,显卡也一直在睡觉,且48g显存没有发挥作用,显存占用只有14G。需要找时间用非虚拟环境的部署一次试试来进一步排除性能瓶颈。
玩到后面就发现内存不够用,要不来和我一起玩ES 服务器吧。
KimmyGLM 发表于 2025-2-27 10:32
玩到后面就发现内存不够用,要不来和我一起玩ES 服务器吧。
太对了哥,折腾这些东西不整epyc xeon没有前途,内存容量和内存带宽被双双爆杀 这成本已经超过xeonepyu洋垃圾了吧 ux4d 发表于 2025-2-27 10:36
太对了哥,折腾这些东西不整epyc xeon没有前途,内存容量和内存带宽被双双爆杀 ...
折腾这个,比玩游戏带劲多了,哈哈哈哈。
ttt5t5t 发表于 2025-2-27 10:43
这成本已经超过xeonepyu洋垃圾了吧
超了,但是相比洋垃圾优点还是有的,就是它真的还能日常用 有趣的尝试。 消费级还是差点意思上线撕 至少8-12通道内存带宽能上200g速度能起来 我感觉内存可以不管延迟硬拉频率吧,跑这种任务应该是带宽优先,延迟不太重要,所以我好奇农企新的ai395再接个显卡跑起来咋样 testmepro 发表于 2025-2-27 11:02
消费级还是差点意思上线撕 至少8-12通道内存带宽能上200g速度能起来
TR 只有4通道,TR pro 就8通道,站里有7985wx的测试,带宽超频后300G+
但是!TR pro 是天价,比一众Xeon / eypc 9004 9005 双路都贵出不少 我輩樹である 发表于 2025-2-27 10:52
有趣的尝试。
感谢树导捧场。追加总结一句,Ktransformers方案看起来很美好,但是预分配前摇太久,要把deepseek的61个层一层一层有选择性地朝显存里面搬(个人的浅薄理解),导致它离实际生产有距离,现在还没有很实用。 deepfishing 发表于 2025-2-27 11:06
我感觉内存可以不管延迟硬拉频率吧,跑这种任务应该是带宽优先,延迟不太重要,所以我好奇农企新的ai395再 ...
带宽不会再有质变了,这些内存直插两根的时候跑7200c36也就100GB/s~110GB/s的带宽,就算未来有办法四根也能跑7200c36,相比5600c28的78GB/s也就那回事。ai395内存最大128G,还是不够用。。 KimmyGLM 发表于 2025-2-27 11:09
TR 只有4通道,TR pro 就8通道,站里有7985wx的测试,带宽超频后300G+
但是!TR pro 是天价,比一众Xeon...
整这么一套tr pro的钱是不是够四张48G 4090了。。 testmepro 发表于 2025-2-27 11:02
消费级还是差点意思上线撕 至少8-12通道内存带宽能上200g速度能起来
是的,双通道小水管啃不动这硬骨头了 本帖最后由 testmepro 于 2025-2-27 11:22 编辑
虚心请教,个人本地部署大模型有什么变现模式吗?如果有我也想整一套线撕pro,毕竟好几万花出去得有收益吧,不然说服不了自己花几万整个工作站扔家吃灰.
现在大模型AI是风口但是不知道怎么抓住呀.没想明白变现模式是啥,所谓的数据安全啥的对于个人来说好像也不是那么太重要吧
佩服大佬的动手能力。心向往之,观摩学习了~ 下本啊,还是多加点现存啊[狂笑] 等等新款M4 Ultra的MAC Studio,内存带宽我个人估计可以超过1000,老款最高800,如果最高内存能到256G,可以运行量化版的deepseek KimmyGLM 发表于 2025-2-27 11:09
TR 只有4通道,TR pro 就8通道,站里有7985wx的测试,带宽超频后300G+
但是!TR pro 是天价,比一众Xeon...
那组个最便宜的 7955WX, 可不可以呢, 也是8通, 反正CPU的使用度不高, 要的就是它的扩充能力 打消了我 192g的念头。。。感谢楼主勇敢小白鼠。 gdsd 发表于 2025-2-27 11:32
打消了我 192g的念头。。。感谢楼主勇敢小白鼠。
你原本想要192g做什么 为啥苹果的内存带宽能这么高,pc实现起来成本太高了 ux4d 发表于 2025-2-27 11:36
你原本想要192g做什么
家里电脑用来 671b 动态量化。API也在用,强迫症还是想私有化~~正好升级9950x+192,这哈没理由了 →L← 发表于 2025-2-27 11:39
为啥苹果的内存带宽能这么高,pc实现起来成本太高了
苹果实现起来成本也很高,只是它的用户群帮他消化了溢价。 testmepro 发表于 2025-2-27 11:21
虚心请教,个人本地部署大模型有什么变现模式吗?如果有我也想整一套线撕pro,毕竟好几万花出去得有收益吧,不 ...
您好,楼主不是那种有预测未来本事的高人,整这些玩意从未想要过变现,一方面是兴趣爱好,一方面是时代大浪使然,担心自己不更新知识和技能的学习就有一天会被淘汰,而折腾llm只是一个让自己持续学习的窗口而已。 gdsd 发表于 2025-2-27 11:40
家里电脑用来 671b 动态量化。API也在用,强迫症还是想私有化~~正好升级9950x+192,这哈没理由了 ...
192g跑Ktransformers+ds 2.51bit量化肯定有优化空间,我自认为我的是一个失败案例,因为github社区有用你说的这套配置跑出来5tokens/s的案例。我也并且到此为止了,后面要在pcie5.0存储介质里建个原生环境继续搞。
不要害怕,大胆尝试!!! 本帖最后由 q3again0605 于 2025-2-27 11:52 编辑
qween 72b你是跑8bit量化吗,4bit能跑多少tks?5600估计只有9GB/s左右内存带宽吧。毕竟只有双通道。跑kt显存多少没有影响,只要14个G以上所以24G 4090和48G没有区别。瓶颈还是内存带宽上。wsl2下磁盘性能损失还是有点大,但是wsl2不知道内存性能损失如何。装个原装ubuntu比较一下。 q3again0605 发表于 2025-2-27 11:48
qween 72b你是跑8bit量化吗,4bit能跑多少tks?5600估计只有9GB/s左右内存带宽吧。毕竟只有双通道。跑kt显 ...
qwen2.5 72b应该就是4bit量化跑的,因为跑8bit必定炸显存。5600双通道我这边带宽78G/s,你是不是少打了一个0?但是这个确实是瓶颈。
wsl2缩内存io性能的情况我确实没有想过,原生环境后面肯定要搭,感谢指教 本帖最后由 KimmyGLM 于 2025-2-27 12:43 编辑
松田 发表于 2025-2-27 11:29
那组个最便宜的 7955WX, 可不可以呢, 也是8通, 反正CPU的使用度不高, 要的就是它的扩充能力 ...
不太行,tr pro的理论带宽上限,搭配7000 OC 的内存,也不过才400G 带宽。还不如epyc 9135 这种入门16CCD 跑满带宽的划算。
站里帖子:https://www.chiphell.com/thread-2616386-1-1.html
里面就有实际带宽,才200G .....
来看看超冒烟的xeon 带宽(也是8通道) 看b站一个up主4张2080ti 22g 可以跑32b非量化版.效果可以够小公司十几个人使用
页:
[1]
2