9700x+192G 跑1.58bit 671B 分享

KimmyGLM 发表于 2025-2-17 20:26

本帖最后由 KimmyGLM 于 2025-2-17 20:28 编辑

主板目前只有微星能做到192G 满插 FCLK2000 1：1 6000C28，我为了稳定跑deepseek 暂时没有追求极限小参；
小绿条体质感觉还可以，在论坛直接抄了一套，跑Memotest 半小时不报错；

纯CPU+大内存+核显跑1.58bit 671B，也试了下1.73bit的版本，中间会爆内存，巨卡，作罢；

用ollama 直接跑经典问题，繁字有多少笔画？
前两次跑出来16画，后面套了个anythingllm的壳，略调了参数，终于回答正确了；
对对联和比大小没啥问题，组字不太行，问专业的法律问题测试了豆包/在线DS/Kimi，从结果来看还行，就是不如在线版本严谨；

速度这块，首次输出2.5token/s，长上下文1.7-2token/s 左右；
联动另外一位水友的帖子 https://www.chiphell.com/thread-2671426-1-2.html ，感觉有没有显卡都差不多;

最后，这个版本的Deepseek在深度思考的时候，容易重复，感觉像在自己转圈转不出来；

鱿鱼锅锅 发表于 2025-2-17 20:29

加张显卡有优化吗

KimmyGLM 发表于 2025-2-17 20:32

鱿鱼锅锅发表于 2025-2-17 20:29
加张显卡有优化吗

如果还是llama.cpp，可以尝试用offload配置，但不会有太大变化；
如果是KTransformers, 混合部署可以提高；

目已发表于 2025-2-17 20:40

主板是啥？

ainomelody 发表于 2025-2-17 20:41

cpu换9950x速度会翻倍吗

某人的马甲 发表于 2025-2-17 20:42

9700X的核显就2CU，你这也太狠了[吐槽]

KimmyGLM 发表于 2025-2-17 20:52

ainomelody 发表于 2025-2-17 20:41
cpu换9950x速度会翻倍吗

不会，跟CPU没关系

KimmyGLM 发表于 2025-2-17 20:58

目已发表于 2025-2-17 20:40
主板是啥？

X870E carbon

hawie 发表于 2025-2-17 20:59

"……anythingllm的壳，略调了参数，终于回答正确了；"
好奇你调整些什么？那么671b以下的模型，同样调整参数，能不能回答正确这个问题，已知ollama部署的肯定是不行的。

xks07 发表于 2025-2-17 21:03

核显跑，AI395最强吧？

oolmfoo 发表于 2025-2-17 21:03

Dual channel DDR5 6000 = 94GB/S

遲下等我 EPYC到了試試能不能翻倍

KimmyGLM 发表于 2025-2-17 21:04

xks07 发表于 2025-2-17 21:03
核显跑，AI395最强吧？

跟核显无关，这只是用来亮机的

假面式寂寞 发表于 2025-2-17 21:06

显示处理结果分析的命令是哪个呢

YsHaNg 发表于 2025-2-17 22:03

hawie 发表于 2025-2-17 12:59
"……anythingllm的壳，略调了参数，终于回答正确了；"
好奇你调整些什么？那么671b以下的模型，同样调整参 ...

你anythingllm好像不用ollama后端似的。。。

petruswang 发表于 2025-2-17 22:27

这么看下来，丐中丐的X79 DDR3平台也不是太落后了[狂笑]

Barcelona 发表于 2025-2-17 22:38

不要1：1把内存频率干上去呢，带宽应该能提升不少吧

hawie 发表于 2025-2-18 08:01

YsHaNg 发表于 2025-2-17 22:03
你anythingllm好像不用ollama后端似的。。。

所以，关心的是调整了什么参数能回答正确繁字笔画问题

Penguindad 发表于 2025-2-18 08:14

“也试了下1.73bit的版本，中间会爆内存，巨卡”——如果再加上显卡的显存是不是就不会爆内存了

shadowlock 发表于 2025-2-18 08:50

9684X跑671B 1.58bit 10token/s。我觉得5-10基本算能用，10-20算流畅，20+算实时交互的水准。

KimmyGLM 发表于 2025-2-18 09:04

shadowlock 发表于 2025-2-18 08:50
9684X跑671B 1.58bit 10token/s。我觉得5-10基本算能用，10-20算流畅，20+算实时交互的水准。 ...

也许双路6代志强+AMX+mcridmm8000内存，可能流畅。。。

kkiller007 发表于 2025-2-18 09:13

思路是对的现阶段暴显存gpu就用不上了

shadowlock 发表于 2025-2-18 09:31

KimmyGLM 发表于 2025-2-18 09:04
也许双路6代志强+AMX+mcridmm8000内存，可能流畅。。。

Granite Rapids的Xeon和Zen5 EPYC VCache应该都可以。另外，Xeon 8480+实测双路比单路的加速比只有大约1.2-1.5x，EPYC干脆只需要一路的一半核心就够了，多出来那一路纯粹是用它的内存通道做跨片跨NUMA，而且延迟和实际带宽还拖后腿。
纯CPU推理的软件优化还是很差，我用性能模型算了一下，软件完全优化好，token/s的提升空间还是非常大。

qdzx123 发表于 2025-2-18 09:36

本帖最后由 qdzx123 于 2025-2-18 09:37 编辑

【【全球首发】不到2000元价格成功快速运行deepseek r1 -671b完整版 q4 q6 fp8量化，并开源配置单与配置方法，可自行购买复现！】 https://www.bilibili.com/video/BV1SPwdevEKP/?share_source=copy_web&vd_source=31cb13dcd37e533c03ac1e6f2670dff7

省流傲腾

[偷笑]低价运行的问题已经被终结了

求求各位大佬别研究花里胡哨的了多琢磨琢磨实用的比如ktransformers

KimmyGLM 发表于 2025-2-18 09:37

shadowlock 发表于 2025-2-18 09:31
Granite Rapids的Xeon和Zen5 EPYC VCache应该都可以。另外，Xeon 8480+实测双路比单路的加速比只有大约1. ...

9004 9005 Socket 之间互联还可以，查了官方文档，最高512G，比7000系列的150G小水管好上太多了；

感觉就是ollma 还是 llama.cpp 对于Numa 配置调用还是不够好，双路提升太小了，我估摸着还是卡在了互联带宽上（也就是现阶段无法突破512G 上限）

KimmyGLM 发表于 2025-2-18 09:40

本帖最后由 KimmyGLM 于 2025-2-18 09:42 编辑

qdzx123 发表于 2025-2-18 09:36
【【全球首发】不到2000元价格成功快速运行deepseek r1 -671b完整版 q4 q6 fp8量化，并开源配置单与配置方 ...

只能说可玩，也挺好；
但是上限锁死了，没有提升的希望。2000块当学习费用吧

KT 的prefill 巨大提升核心来自于456可拓展志强的AMX指令集加速

卜orz 发表于 2025-2-18 09:46

LZ是法律行业的？这个能解读判决书不？

KimmyGLM 发表于 2025-2-18 09:47

卜orz 发表于 2025-2-18 09:46
LZ是法律行业的？这个能解读判决书不？

不是，只是和公司法务关系好，正好帮忙提了个问题测试下；

qdzx123 发表于 2025-2-18 09:48

本帖最后由 qdzx123 于 2025-2-18 09:51 编辑

KimmyGLM 发表于 2025-2-18 09:40
只能说可玩，也挺好；
但是上限锁死了，没有提升的希望。2000块当学习费用吧

kt的优化是一整套的目前看做的是最好的
还有双路的容量换带宽（或者说延迟）
可惜DCPMM300只有样品了...不然正好可以用上
牢英的傲腾死的冤枉

KimmyGLM 发表于 2025-2-18 09:54

本帖最后由 KimmyGLM 于 2025-2-18 09:56 编辑

qdzx123 发表于 2025-2-18 09:48
kt的优化是一整套的目前看做的是最好的
还有双路的容量换带宽
可惜DCPMM300只有样品了...不然正好可以 ...

傲腾死的不冤枉，这玩意没前途啊，本身傲腾安装都要1根傲腾+1根普通dimm内存交替；
带宽就算是第三代D5，也没多少提升；
至于说双路，木桶短板在U 间互联，如果说互联带宽能大于1p的带宽，双路还有点小提升；

KT v0.3的优化，需要flash attention2，也就是30系以后的显卡，需要AMX 指令集，缺一不可。

说到小众，老英还有个Xeon Max 专为AI开发的U，可惜只给了64G HBM，做东西只做一半，这就是老英

卜orz 发表于 2025-2-18 09:56

KimmyGLM 发表于 2025-2-18 09:47
不是，只是和公司法务关系好，正好帮忙提了个问题测试下；

帮忙上传个判决书要DS解析下，要是准确性还可以的话，我也部署个纯CPU跑的DS[偷笑]

页: [1] 2

Chiphell - 分享与交流用户体验's Archiver

9700x+192G 跑1.58bit 671B 分享