找回密码
 加入我们
搜索
      
查看: 2849|回复: 43

[CPU] 9700x+192G 跑1.58bit 671B 分享

[复制链接]
发表于 2025-2-17 20:26 | 显示全部楼层 |阅读模式
本帖最后由 KimmyGLM 于 2025-2-17 20:28 编辑

主板目前只有微星能做到192G 满插 FCLK2000 1:1 6000C28,我为了稳定跑deepseek 暂时没有追求极限小参;
小绿条体质感觉还可以,在论坛直接抄了一套,跑Memotest 半小时不报错;

纯CPU+大内存+核显跑1.58bit 671B, 也试了下1.73bit的版本,中间会爆内存,巨卡,作罢;

用ollama 直接跑经典问题,繁字有多少笔画?
前两次跑出来16画,后面套了个anythingllm的壳,略调了参数,终于回答正确了;
对对联和比大小没啥问题,组字不太行,问专业的法律问题测试了豆包/在线DS/Kimi,从结果来看还行,就是不如在线版本严谨;

速度这块,首次输出2.5token/s,长上下文1.7-2token/s 左右;
联动另外一位水友的帖子 https://www.chiphell.com/thread-2671426-1-2.html ,感觉有没有显卡都差不多;

最后,这个版本的Deepseek在深度思考的时候,容易重复,感觉像在自己转圈转不出来;
1.jpg
2.jpg
3.jpg
4.jpg

评分

参与人数 1邪恶指数 +10 收起 理由
醉酒棕熊 + 10

查看全部评分

发表于 2025-2-17 20:29 | 显示全部楼层
加张显卡 有优化吗
 楼主| 发表于 2025-2-17 20:32 | 显示全部楼层
鱿鱼锅锅 发表于 2025-2-17 20:29
加张显卡 有优化吗

如果还是llama.cpp,可以尝试用offload配置,但不会有太大变化;
如果是KTransformers, 混合部署可以提高;
发表于 2025-2-17 20:40 | 显示全部楼层
主板是啥?
发表于 2025-2-17 20:41 | 显示全部楼层
cpu换9950x速度会翻倍吗
发表于 2025-2-17 20:42 | 显示全部楼层
9700X的核显就2CU,你这也太狠了
 楼主| 发表于 2025-2-17 20:52 | 显示全部楼层
ainomelody 发表于 2025-2-17 20:41
cpu换9950x速度会翻倍吗

不会,跟CPU没关系
 楼主| 发表于 2025-2-17 20:58 | 显示全部楼层

X870E carbon
发表于 2025-2-17 20:59 | 显示全部楼层
"……anythingllm的壳,略调了参数,终于回答正确了;"
好奇你调整些什么?那么671b以下的模型,同样调整参数,能不能回答正确这个问题,已知ollama部署的肯定是不行的。
发表于 2025-2-17 21:03 | 显示全部楼层
核显跑,AI395最强吧?  
发表于 2025-2-17 21:03 | 显示全部楼层
Dual channel DDR5 6000 = 94GB/S

遲下等我 EPYC到了試試能不能翻倍
 楼主| 发表于 2025-2-17 21:04 | 显示全部楼层
xks07 发表于 2025-2-17 21:03
核显跑,AI395最强吧?

跟核显无关,这只是用来亮机的
发表于 2025-2-17 21:06 | 显示全部楼层
显示处理结果分析的命令是哪个呢
发表于 2025-2-17 22:03 | 显示全部楼层
hawie 发表于 2025-2-17 12:59
"……anythingllm的壳,略调了参数,终于回答正确了;"
好奇你调整些什么?那么671b以下的模型,同样调整参 ...

你anythingllm好像不用ollama后端似的。。。
发表于 2025-2-17 22:27 | 显示全部楼层
这么看下来,丐中丐的X79 DDR3平台也不是太落后了
发表于 2025-2-17 22:38 | 显示全部楼层
不要1:1把内存频率干上去呢,带宽应该能提升不少吧
发表于 2025-2-18 08:01 | 显示全部楼层
YsHaNg 发表于 2025-2-17 22:03
你anythingllm好像不用ollama后端似的。。。

所以,关心的是调整了什么参数能回答正确繁字笔画问题
发表于 2025-2-18 08:14 | 显示全部楼层
“也试了下1.73bit的版本,中间会爆内存,巨卡”——如果再加上显卡的显存是不是就不会爆内存了
发表于 2025-2-18 08:50 | 显示全部楼层
9684X跑671B 1.58bit 10token/s。我觉得5-10基本算能用,10-20算流畅,20+算实时交互的水准。
 楼主| 发表于 2025-2-18 09:04 | 显示全部楼层
shadowlock 发表于 2025-2-18 08:50
9684X跑671B 1.58bit 10token/s。我觉得5-10基本算能用,10-20算流畅,20+算实时交互的水准。 ...

也许双路6代志强+AMX+mcridmm8000内存,可能流畅。。。
发表于 2025-2-18 09:13 | 显示全部楼层
思路是对的  现阶段暴显存gpu就用不上了
发表于 2025-2-18 09:31 | 显示全部楼层
KimmyGLM 发表于 2025-2-18 09:04
也许双路6代志强+AMX+mcridmm8000内存,可能流畅。。。

Granite Rapids的Xeon和Zen5 EPYC VCache应该都可以。另外,Xeon 8480+实测双路比单路的加速比只有大约1.2-1.5x,EPYC干脆只需要一路的一半核心就够了,多出来那一路纯粹是用它的内存通道做跨片跨NUMA,而且延迟和实际带宽还拖后腿。
纯CPU推理的软件优化还是很差,我用性能模型算了一下,软件完全优化好,token/s的提升空间还是非常大。
发表于 2025-2-18 09:36 | 显示全部楼层
本帖最后由 qdzx123 于 2025-2-18 09:37 编辑

【【全球首发】不到2000元价格成功快速运行deepseek r1 -671b完整版 q4 q6 fp8量化,并开源配置单与配置方法,可自行购买复现!】 https://www.bilibili.com/video/B ... 33c03ac1e6f2670dff7

省流 傲腾

低价运行的问题已经被终结了

求求各位大佬 别研究花里胡哨的了 多琢磨琢磨实用的 比如ktransformers
 楼主| 发表于 2025-2-18 09:37 | 显示全部楼层
shadowlock 发表于 2025-2-18 09:31
Granite Rapids的Xeon和Zen5 EPYC VCache应该都可以。另外,Xeon 8480+实测双路比单路的加速比只有大约1. ...

9004 9005 Socket 之间互联还可以,查了官方文档,最高512G,比7000系列的150G小水管好上太多了;

感觉就是ollma 还是 llama.cpp 对于Numa 配置调用还是不够好,双路提升太小了,我估摸着还是卡在了互联带宽上(也就是现阶段无法突破512G 上限)
numa.jpg
 楼主| 发表于 2025-2-18 09:40 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-2-18 09:42 编辑
qdzx123 发表于 2025-2-18 09:36
【【全球首发】不到2000元价格成功快速运行deepseek r1 -671b完整版 q4 q6 fp8量化,并开源配置单与配置方 ...


只能说可玩,也挺好;
但是上限锁死了,没有提升的希望。2000块当学习费用吧

KT 的prefill 巨大提升核心来自于456可拓展志强的AMX指令集加速
发表于 2025-2-18 09:46 | 显示全部楼层
LZ是法律行业的?这个能解读判决书不?
 楼主| 发表于 2025-2-18 09:47 | 显示全部楼层
卜orz 发表于 2025-2-18 09:46
LZ是法律行业的?这个能解读判决书不?

不是,只是和公司法务关系好,正好帮忙提了个问题测试下;
发表于 2025-2-18 09:48 | 显示全部楼层
本帖最后由 qdzx123 于 2025-2-18 09:51 编辑
KimmyGLM 发表于 2025-2-18 09:40
只能说可玩,也挺好;
但是上限锁死了,没有提升的希望。2000块当学习费用吧


kt的优化是一整套的 目前看做的是最好的
还有双路的容量换带宽(或者说延迟)
可惜DCPMM300只有样品了...不然正好可以用上
牢英的傲腾死的冤枉
 楼主| 发表于 2025-2-18 09:54 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-2-18 09:56 编辑
qdzx123 发表于 2025-2-18 09:48
kt的优化是一整套的 目前看做的是最好的
还有双路的容量换带宽
可惜DCPMM300只有样品了...不然正好可以 ...


傲腾死的不冤枉,这玩意没前途啊,本身傲腾安装都要1根傲腾+1根普通dimm内存交替;
带宽就算是第三代D5,也没多少提升;
至于说双路,木桶短板在U 间互联,如果说互联带宽能大于1p的带宽,双路还有点小提升;

KT v0.3的优化,需要flash attention2,也就是30系以后的显卡,需要AMX 指令集,缺一不可。

说到小众,老英还有个Xeon Max 专为AI开发的U,可惜只给了64G HBM,做东西只做一半,这就是老英
发表于 2025-2-18 09:56 | 显示全部楼层
KimmyGLM 发表于 2025-2-18 09:47
不是,只是和公司法务关系好,正好帮忙提了个问题测试下;

帮忙上传个判决书要DS解析下,要是准确性还可以的话,我也部署个纯CPU跑的DS
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-19 04:40 , Processed in 0.015286 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表