KimmyGLM 发表于 2025-2-17 20:26

9700x+192G 跑1.58bit 671B 分享

本帖最后由 KimmyGLM 于 2025-2-17 20:28 编辑

主板目前只有微星能做到192G 满插 FCLK2000 1:1 6000C28,我为了稳定跑deepseek 暂时没有追求极限小参;
小绿条体质感觉还可以,在论坛直接抄了一套,跑Memotest 半小时不报错;

纯CPU+大内存+核显跑1.58bit 671B, 也试了下1.73bit的版本,中间会爆内存,巨卡,作罢;

用ollama 直接跑经典问题,繁字有多少笔画?
前两次跑出来16画,后面套了个anythingllm的壳,略调了参数,终于回答正确了;
对对联和比大小没啥问题,组字不太行,问专业的法律问题测试了豆包/在线DS/Kimi,从结果来看还行,就是不如在线版本严谨;

速度这块,首次输出2.5token/s,长上下文1.7-2token/s 左右;
联动另外一位水友的帖子 https://www.chiphell.com/thread-2671426-1-2.html ,感觉有没有显卡都差不多;

最后,这个版本的Deepseek在深度思考的时候,容易重复,感觉像在自己转圈转不出来;

鱿鱼锅锅 发表于 2025-2-17 20:29

加张显卡 有优化吗

KimmyGLM 发表于 2025-2-17 20:32

鱿鱼锅锅 发表于 2025-2-17 20:29
加张显卡 有优化吗

如果还是llama.cpp,可以尝试用offload配置,但不会有太大变化;
如果是KTransformers, 混合部署可以提高;

目已 发表于 2025-2-17 20:40

主板是啥?

ainomelody 发表于 2025-2-17 20:41

cpu换9950x速度会翻倍吗

某人的马甲 发表于 2025-2-17 20:42

9700X的核显就2CU,你这也太狠了[吐槽]

KimmyGLM 发表于 2025-2-17 20:52

ainomelody 发表于 2025-2-17 20:41
cpu换9950x速度会翻倍吗

不会,跟CPU没关系

KimmyGLM 发表于 2025-2-17 20:58

目已 发表于 2025-2-17 20:40
主板是啥?

X870E carbon

hawie 发表于 2025-2-17 20:59

"……anythingllm的壳,略调了参数,终于回答正确了;"
好奇你调整些什么?那么671b以下的模型,同样调整参数,能不能回答正确这个问题,已知ollama部署的肯定是不行的。

xks07 发表于 2025-2-17 21:03

核显跑,AI395最强吧?

oolmfoo 发表于 2025-2-17 21:03

Dual channel DDR5 6000 = 94GB/S

遲下等我 EPYC到了試試能不能翻倍

KimmyGLM 发表于 2025-2-17 21:04

xks07 发表于 2025-2-17 21:03
核显跑,AI395最强吧?

跟核显无关,这只是用来亮机的

假面式寂寞 发表于 2025-2-17 21:06

显示处理结果分析的命令是哪个呢

YsHaNg 发表于 2025-2-17 22:03

hawie 发表于 2025-2-17 12:59
"……anythingllm的壳,略调了参数,终于回答正确了;"
好奇你调整些什么?那么671b以下的模型,同样调整参 ...

你anythingllm好像不用ollama后端似的。。。

petruswang 发表于 2025-2-17 22:27

这么看下来,丐中丐的X79 DDR3平台也不是太落后了[狂笑]

Barcelona 发表于 2025-2-17 22:38

不要1:1把内存频率干上去呢,带宽应该能提升不少吧

hawie 发表于 2025-2-18 08:01

YsHaNg 发表于 2025-2-17 22:03
你anythingllm好像不用ollama后端似的。。。

所以,关心的是调整了什么参数能回答正确繁字笔画问题

Penguindad 发表于 2025-2-18 08:14

“也试了下1.73bit的版本,中间会爆内存,巨卡”——如果再加上显卡的显存是不是就不会爆内存了

shadowlock 发表于 2025-2-18 08:50

9684X跑671B 1.58bit 10token/s。我觉得5-10基本算能用,10-20算流畅,20+算实时交互的水准。

KimmyGLM 发表于 2025-2-18 09:04

shadowlock 发表于 2025-2-18 08:50
9684X跑671B 1.58bit 10token/s。我觉得5-10基本算能用,10-20算流畅,20+算实时交互的水准。 ...

也许双路6代志强+AMX+mcridmm8000内存,可能流畅。。。

kkiller007 发表于 2025-2-18 09:13

思路是对的现阶段暴显存gpu就用不上了

shadowlock 发表于 2025-2-18 09:31

KimmyGLM 发表于 2025-2-18 09:04
也许双路6代志强+AMX+mcridmm8000内存,可能流畅。。。

Granite Rapids的Xeon和Zen5 EPYC VCache应该都可以。另外,Xeon 8480+实测双路比单路的加速比只有大约1.2-1.5x,EPYC干脆只需要一路的一半核心就够了,多出来那一路纯粹是用它的内存通道做跨片跨NUMA,而且延迟和实际带宽还拖后腿。
纯CPU推理的软件优化还是很差,我用性能模型算了一下,软件完全优化好,token/s的提升空间还是非常大。

qdzx123 发表于 2025-2-18 09:36

本帖最后由 qdzx123 于 2025-2-18 09:37 编辑

【【全球首发】不到2000元价格成功快速运行deepseek r1 -671b完整版 q4 q6 fp8量化,并开源配置单与配置方法,可自行购买复现!】 https://www.bilibili.com/video/BV1SPwdevEKP/?share_source=copy_web&vd_source=31cb13dcd37e533c03ac1e6f2670dff7

省流 傲腾

[偷笑]低价运行的问题已经被终结了

求求各位大佬 别研究花里胡哨的了 多琢磨琢磨实用的 比如ktransformers

KimmyGLM 发表于 2025-2-18 09:37

shadowlock 发表于 2025-2-18 09:31
Granite Rapids的Xeon和Zen5 EPYC VCache应该都可以。另外,Xeon 8480+实测双路比单路的加速比只有大约1. ...

9004 9005 Socket 之间互联还可以,查了官方文档,最高512G,比7000系列的150G小水管好上太多了;

感觉就是ollma 还是 llama.cpp 对于Numa 配置调用还是不够好,双路提升太小了,我估摸着还是卡在了互联带宽上(也就是现阶段无法突破512G 上限)

KimmyGLM 发表于 2025-2-18 09:40

本帖最后由 KimmyGLM 于 2025-2-18 09:42 编辑

qdzx123 发表于 2025-2-18 09:36
【【全球首发】不到2000元价格成功快速运行deepseek r1 -671b完整版 q4 q6 fp8量化,并开源配置单与配置方 ...

只能说可玩,也挺好;
但是上限锁死了,没有提升的希望。2000块当学习费用吧

KT 的prefill 巨大提升核心来自于456可拓展志强的AMX指令集加速

卜orz 发表于 2025-2-18 09:46

LZ是法律行业的?这个能解读判决书不?

KimmyGLM 发表于 2025-2-18 09:47

卜orz 发表于 2025-2-18 09:46
LZ是法律行业的?这个能解读判决书不?

不是,只是和公司法务关系好,正好帮忙提了个问题测试下;

qdzx123 发表于 2025-2-18 09:48

本帖最后由 qdzx123 于 2025-2-18 09:51 编辑

KimmyGLM 发表于 2025-2-18 09:40
只能说可玩,也挺好;
但是上限锁死了,没有提升的希望。2000块当学习费用吧



kt的优化是一整套的 目前看做的是最好的
还有双路的容量换带宽(或者说延迟)
可惜DCPMM300只有样品了...不然正好可以用上
牢英的傲腾死的冤枉

KimmyGLM 发表于 2025-2-18 09:54

本帖最后由 KimmyGLM 于 2025-2-18 09:56 编辑

qdzx123 发表于 2025-2-18 09:48
kt的优化是一整套的 目前看做的是最好的
还有双路的容量换带宽
可惜DCPMM300只有样品了...不然正好可以 ...

傲腾死的不冤枉,这玩意没前途啊,本身傲腾安装都要1根傲腾+1根普通dimm内存交替;
带宽就算是第三代D5,也没多少提升;
至于说双路,木桶短板在U 间互联,如果说互联带宽能大于1p的带宽,双路还有点小提升;

KT v0.3的优化,需要flash attention2,也就是30系以后的显卡,需要AMX 指令集,缺一不可。

说到小众,老英还有个Xeon Max 专为AI开发的U,可惜只给了64G HBM,做东西只做一半,这就是老英

卜orz 发表于 2025-2-18 09:56

KimmyGLM 发表于 2025-2-18 09:47
不是,只是和公司法务关系好,正好帮忙提了个问题测试下;

帮忙上传个判决书要DS解析下,要是准确性还可以的话,我也部署个纯CPU跑的DS[偷笑]
页: [1] 2
查看完整版本: 9700x+192G 跑1.58bit 671B 分享