9700x+192G 跑1.58bit 671B 分享
本帖最后由 KimmyGLM 于 2025-2-17 20:28 编辑主板目前只有微星能做到192G 满插 FCLK2000 1:1 6000C28,我为了稳定跑deepseek 暂时没有追求极限小参;
小绿条体质感觉还可以,在论坛直接抄了一套,跑Memotest 半小时不报错;
纯CPU+大内存+核显跑1.58bit 671B, 也试了下1.73bit的版本,中间会爆内存,巨卡,作罢;
用ollama 直接跑经典问题,繁字有多少笔画?
前两次跑出来16画,后面套了个anythingllm的壳,略调了参数,终于回答正确了;
对对联和比大小没啥问题,组字不太行,问专业的法律问题测试了豆包/在线DS/Kimi,从结果来看还行,就是不如在线版本严谨;
速度这块,首次输出2.5token/s,长上下文1.7-2token/s 左右;
联动另外一位水友的帖子 https://www.chiphell.com/thread-2671426-1-2.html ,感觉有没有显卡都差不多;
最后,这个版本的Deepseek在深度思考的时候,容易重复,感觉像在自己转圈转不出来; 加张显卡 有优化吗 鱿鱼锅锅 发表于 2025-2-17 20:29
加张显卡 有优化吗
如果还是llama.cpp,可以尝试用offload配置,但不会有太大变化;
如果是KTransformers, 混合部署可以提高; 主板是啥? cpu换9950x速度会翻倍吗 9700X的核显就2CU,你这也太狠了[吐槽] ainomelody 发表于 2025-2-17 20:41
cpu换9950x速度会翻倍吗
不会,跟CPU没关系 目已 发表于 2025-2-17 20:40
主板是啥?
X870E carbon "……anythingllm的壳,略调了参数,终于回答正确了;"
好奇你调整些什么?那么671b以下的模型,同样调整参数,能不能回答正确这个问题,已知ollama部署的肯定是不行的。 核显跑,AI395最强吧? Dual channel DDR5 6000 = 94GB/S
遲下等我 EPYC到了試試能不能翻倍 xks07 发表于 2025-2-17 21:03
核显跑,AI395最强吧?
跟核显无关,这只是用来亮机的 显示处理结果分析的命令是哪个呢
hawie 发表于 2025-2-17 12:59
"……anythingllm的壳,略调了参数,终于回答正确了;"
好奇你调整些什么?那么671b以下的模型,同样调整参 ...
你anythingllm好像不用ollama后端似的。。。 这么看下来,丐中丐的X79 DDR3平台也不是太落后了[狂笑] 不要1:1把内存频率干上去呢,带宽应该能提升不少吧 YsHaNg 发表于 2025-2-17 22:03
你anythingllm好像不用ollama后端似的。。。
所以,关心的是调整了什么参数能回答正确繁字笔画问题 “也试了下1.73bit的版本,中间会爆内存,巨卡”——如果再加上显卡的显存是不是就不会爆内存了 9684X跑671B 1.58bit 10token/s。我觉得5-10基本算能用,10-20算流畅,20+算实时交互的水准。 shadowlock 发表于 2025-2-18 08:50
9684X跑671B 1.58bit 10token/s。我觉得5-10基本算能用,10-20算流畅,20+算实时交互的水准。 ...
也许双路6代志强+AMX+mcridmm8000内存,可能流畅。。。 思路是对的现阶段暴显存gpu就用不上了 KimmyGLM 发表于 2025-2-18 09:04
也许双路6代志强+AMX+mcridmm8000内存,可能流畅。。。
Granite Rapids的Xeon和Zen5 EPYC VCache应该都可以。另外,Xeon 8480+实测双路比单路的加速比只有大约1.2-1.5x,EPYC干脆只需要一路的一半核心就够了,多出来那一路纯粹是用它的内存通道做跨片跨NUMA,而且延迟和实际带宽还拖后腿。
纯CPU推理的软件优化还是很差,我用性能模型算了一下,软件完全优化好,token/s的提升空间还是非常大。
本帖最后由 qdzx123 于 2025-2-18 09:37 编辑
【【全球首发】不到2000元价格成功快速运行deepseek r1 -671b完整版 q4 q6 fp8量化,并开源配置单与配置方法,可自行购买复现!】 https://www.bilibili.com/video/BV1SPwdevEKP/?share_source=copy_web&vd_source=31cb13dcd37e533c03ac1e6f2670dff7
省流 傲腾
[偷笑]低价运行的问题已经被终结了
求求各位大佬 别研究花里胡哨的了 多琢磨琢磨实用的 比如ktransformers shadowlock 发表于 2025-2-18 09:31
Granite Rapids的Xeon和Zen5 EPYC VCache应该都可以。另外,Xeon 8480+实测双路比单路的加速比只有大约1. ...
9004 9005 Socket 之间互联还可以,查了官方文档,最高512G,比7000系列的150G小水管好上太多了;
感觉就是ollma 还是 llama.cpp 对于Numa 配置调用还是不够好,双路提升太小了,我估摸着还是卡在了互联带宽上(也就是现阶段无法突破512G 上限)
本帖最后由 KimmyGLM 于 2025-2-18 09:42 编辑
qdzx123 发表于 2025-2-18 09:36
【【全球首发】不到2000元价格成功快速运行deepseek r1 -671b完整版 q4 q6 fp8量化,并开源配置单与配置方 ...
只能说可玩,也挺好;
但是上限锁死了,没有提升的希望。2000块当学习费用吧
KT 的prefill 巨大提升核心来自于456可拓展志强的AMX指令集加速 LZ是法律行业的?这个能解读判决书不? 卜orz 发表于 2025-2-18 09:46
LZ是法律行业的?这个能解读判决书不?
不是,只是和公司法务关系好,正好帮忙提了个问题测试下; 本帖最后由 qdzx123 于 2025-2-18 09:51 编辑
KimmyGLM 发表于 2025-2-18 09:40
只能说可玩,也挺好;
但是上限锁死了,没有提升的希望。2000块当学习费用吧
kt的优化是一整套的 目前看做的是最好的
还有双路的容量换带宽(或者说延迟)
可惜DCPMM300只有样品了...不然正好可以用上
牢英的傲腾死的冤枉 本帖最后由 KimmyGLM 于 2025-2-18 09:56 编辑
qdzx123 发表于 2025-2-18 09:48
kt的优化是一整套的 目前看做的是最好的
还有双路的容量换带宽
可惜DCPMM300只有样品了...不然正好可以 ...
傲腾死的不冤枉,这玩意没前途啊,本身傲腾安装都要1根傲腾+1根普通dimm内存交替;
带宽就算是第三代D5,也没多少提升;
至于说双路,木桶短板在U 间互联,如果说互联带宽能大于1p的带宽,双路还有点小提升;
KT v0.3的优化,需要flash attention2,也就是30系以后的显卡,需要AMX 指令集,缺一不可。
说到小众,老英还有个Xeon Max 专为AI开发的U,可惜只给了64G HBM,做东西只做一半,这就是老英 KimmyGLM 发表于 2025-2-18 09:47
不是,只是和公司法务关系好,正好帮忙提了个问题测试下;
帮忙上传个判决书要DS解析下,要是准确性还可以的话,我也部署个纯CPU跑的DS[偷笑]
页:
[1]
2