找回密码
 加入我们
搜索
      
查看: 1514|回复: 30

[CPU] 水友用单路9654+KT框架跑 Q4 deepseek 671B 出14Token/S !

[复制链接]
发表于 2025-2-17 16:36 | 显示全部楼层 |阅读模式
本帖最后由 KimmyGLM 于 2025-2-17 17:02 编辑

水友用单路9654配合KT框架,AVX512加速,最终大约是长文10,短文14;家用部署迎来曙光;

对比下KT课题组用的配置, 6454S双路,DDR5-4800(志强也就只能跑这个速度,2DPC 1R/2R 实际4400),8通道内存;
AMX 加速应该只在Prefill阶段起作用,EPYC享受不到;

对比Decode 阶段就让人忍俊不禁了.....8通道双路跑不过Apro的12通道单路

Decode Speed (tokens/s):
KTransfermor: 8.73 (32 cores) → 11.26 (dual-socket, 2×32 cores) → 13.69 (selectively using 6 experts, V0.3 only)
Compared to 4.51 tokens/s in llama.cpp with 2×32 cores, achieving up to 3.03× speedup.

PS. 如果大家要玩服务器平台,建议还是多花钱直接D5平台起步,Q4 671起步。1.58bit 的unsloth还是比较一般;
再就是,双路并没有出现double的情况,提升较小
KT.jpg
带宽.jpg
发表于 2025-2-17 16:49 | 显示全部楼层
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点
 楼主| 发表于 2025-2-17 16:53 | 显示全部楼层
manwomans 发表于 2025-2-17 16:49
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点

别的模型还没看到,目前他们课题组说在优化unsolth 的版本;
70B 全精度 140G 左右,要想快,要么192G m2ultra;
要么掏钱给老黄
发表于 2025-2-17 16:54 | 显示全部楼层
8581C什么成绩?
 楼主| 发表于 2025-2-17 16:56 | 显示全部楼层

B站有单路跑671B 2.51bit, 速度不咋样,长上下文 4.72Tok/s

https://www.bilibili.com/video/B ... bc464b86ef34c9a4287
发表于 2025-2-17 16:58 | 显示全部楼层
KimmyGLM 发表于 2025-2-17 16:56
B站有单路跑671B 2.51bit, 速度不咋样,长上下文 4.72Tok/s

https://www.bilibili.com/video/BV1vSKVeB ...

这个我在下面留言问过了,他没用KT架构也没开AMX,就普通ollama
发表于 2025-2-17 16:59 来自手机 | 显示全部楼层
技嘉有单路,24条内存的9004板子,比单路12条内存贵不了多少,但是32g内存省下来的钱还能有剩,哪怕还用64,我可以预留出12条,方便后续升级更大的模型,不过这个板子的布局得用延长线来接全尺寸的显卡
 楼主| 发表于 2025-2-17 17:01 | 显示全部楼层
591280714 发表于 2025-2-17 16:58
这个我在下面留言问过了,他没用KT架构也没开AMX,就普通ollama

还是以Q4 671B为统一准绳吧。双路提升比较有限,整个B站的视频我都看了,Q4最快跑出的是UP主:春日野穹b Xeon 6430 32C 双路共64核128T 内存 480GB DDR5 显卡 4090 24G 单卡

6-8Token/S,还没有用KT
 楼主| 发表于 2025-2-17 17:04 | 显示全部楼层
StevenG 发表于 2025-2-17 16:59
技嘉有单路,24条内存的9004板子,比单路12条内存贵不了多少,但是32g内存省下来的钱还能有剩,哪怕还用64 ...

9004 9005 C741a 两边加起来一共6张板子.....延长线什么的都是小事了,本身这是适配服务器机架的
发表于 2025-2-17 17:04 | 显示全部楼层
KimmyGLM 发表于 2025-2-17 17:01
还是以Q4 671B为统一准绳吧。双路提升比较有限,整个B站的视频我都看了,Q4最快跑出的是UP主:春日野穹b  ...

所以我现在特别想知道8581c开AMX的速度跟9654这种12通道但没AMX的U比哪个更快,然后准备搞一台
 楼主| 发表于 2025-2-17 17:05 | 显示全部楼层
591280714 发表于 2025-2-17 17:04
所以我现在特别想知道8581c开AMX的速度跟9654这种12通道但没AMX的U比哪个更快,然后准备搞一台 ...

AMX 加速只在prefill阶段起作用啊,decode speed我不给给出答案了嘛,8通道跑不过人家12通道;
双路大家都有小幅提升;
发表于 2025-2-17 17:08 | 显示全部楼层
  1. prompt eval time =   49944.85 ms /  1653 tokens (   30.21 ms per token,    33.10 tokens per second)
  2.        eval time =  101428.64 ms /   329 tokens (  308.29 ms per token,     3.24 tokens per second)
  3.       total time =  151373.49 ms /  1982 tokens
复制代码


我用双路7002的epyc+6张4090跑出来的速度,2.22bit模型,用8卡4090 48能把全部模型装进gpu说不定有点意义
 楼主| 发表于 2025-2-17 17:15 来自手机 | 显示全部楼层
deepfishing 发表于 2025-2-17 17:08
我用双路7002的epyc+6张4090跑出来的速度,2.22bit模型,用8卡4090 48能把全部模型装进gpu说不定有点意义 ...

富哥你好,上面那几个配置只需要两张4090 48G…
发表于 2025-2-17 17:16 | 显示全部楼层
KimmyGLM 发表于 2025-2-17 17:05
AMX 加速只在prefill阶段起作用啊,decode speed我不给给出答案了嘛,8通道跑不过人家12通道;
双路大家 ...

所以总体速度的话呢?9654快呗?
发表于 2025-2-17 17:21 | 显示全部楼层
manwomans 发表于 2025-2-17 16:49
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点

70B的这个llama效果一般,没有比32B的qwen强多少,更何况32B的速度还快。
实测本地部署的4bit 32B的推理能力已经吊打一众非DS模型了。全量的R1-32B在多个指标上比O1-mini都厉害。

 楼主| 发表于 2025-2-17 17:24 来自手机 | 显示全部楼层
uprit 发表于 2025-2-17 17:21
70B的这个llama效果一般,没有比32B的qwen强多少,更何况32B的速度还快。
实测本地部署的4bit 32B的推理 ...

不知道为啥ds官方没给qwen 70b的蒸馏版本,挺好奇的
发表于 2025-2-17 17:25 | 显示全部楼层
manwomans 发表于 2025-2-17 16:49
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点

半块RTX4090 玩转70B大语言模型
https://www.chiphell.com/thread-2621437-1-1.html
(出处: Chiphell - 分享与交流用户体验)
发表于 2025-2-17 17:27 | 显示全部楼层
KimmyGLM 发表于 2025-2-17 17:24
不知道为啥ds官方没给qwen 70b的蒸馏版本,挺好奇的

应该和开源协议有关系。72B的协议和32B的不一样。

发表于 2025-2-17 17:29 | 显示全部楼层
这波挺有意思,我蹲蹲看,能不能有家用CPU的本地部署方案哈,比如14900K+192G内存+4090.
发表于 2025-2-17 17:30 | 显示全部楼层
KimmyGLM 发表于 2025-2-17 17:15
富哥你好,上面那几个配置只需要两张4090 48G…

超低精度量化最低估计能部到strixhalo+一张48G的卡上,或者两片strixhalo。
虽然但是,农企不靠谱的软件适配和产品经理
 楼主| 发表于 2025-2-17 17:31 来自手机 | 显示全部楼层
bingshitian 发表于 2025-2-17 17:29
这波挺有意思,我蹲蹲看,能不能有家用CPU的本地部署方案哈,比如14900K+192G内存+4090. ...

9700x+192g跑1.58bit 671b前天刚测完,首次问答2.5t,上下问1.7-2t;
发表于 2025-2-17 17:32 | 显示全部楼层
这个方案在双路9654 + 1TB内存 + 4070ts(16G显存)的配置下比纯CPU推理会好很多吗?

我部署的671B Q4版本ollama纯CPU推理大概5t/s 。
发表于 2025-2-17 17:33 | 显示全部楼层
KimmyGLM 发表于 2025-2-17 17:31
9700x+192g跑1.58bit 671b前天刚测完,首次问答2.5t,上下问1.7-2t;

你这有点慢,等优化到10t/s就可以啦。看看有没有大神开发出新思路。
 楼主| 发表于 2025-2-17 17:38 来自手机 | 显示全部楼层
wzhg 发表于 2025-2-17 17:32
这个方案在双路9654 + 1TB内存 + 4070ts(16G显存)的配置下比纯CPU推理会好很多吗?

我部署的671B Q4版本 ...

KT只半开源了模型,amx加速其实没有开源……只有四代五代志强才能享受到提升
发表于 2025-2-17 17:49 来自手机 | 显示全部楼层
KimmyGLM 发表于 2025-2-17 17:05
AMX 加速只在prefill阶段起作用啊,decode speed我不给给出答案了嘛,8通道跑不过人家12通道;
双路大家 ...

我昨天在家跑的时候,发现个现象,写完提示词后,模型一直loading,直到内存占用从400g增加到800g,然后等了会儿,才开始输出。一个问题,差不多等上近10分钟才开始吐字,一个半字/s的速度。。在ubuntu虚拟机下,用ollama运行的,就是它官网给的671b的命令。双路7542,分了120核,960g内存
IMG_20250217_084719.jpg
 楼主| 发表于 2025-2-17 17:50 来自手机 | 显示全部楼层
StevenG 发表于 2025-2-17 17:49
我昨天在家跑的时候,发现个现象,写完提示词后,模型一直loading,直到内存占用从400g增加到800g,然后 ...

关闭超线程,有效核数设置为40以下,再试试。
发表于 2025-2-17 17:56 来自手机 | 显示全部楼层
KimmyGLM 发表于 2025-2-17 17:50
关闭超线程,有效核数设置为40以下,再试试。

好的,这两天抽空再试试
发表于 2025-2-18 08:55 | 显示全部楼层
看网上有人反映,KT跑deepseek时有出现降智现象
 楼主| 发表于 2025-2-18 09:02 | 显示全部楼层
FlyKite 发表于 2025-2-18 08:55
看网上有人反映,KT跑deepseek时有出现降智现象

KT 的精度,我也觉得目前还需要等更多人来验证,毕竟是6or8 experts of 256,总感觉怪怪的。
发表于 2025-2-18 10:52 | 显示全部楼层
KimmyGLM 发表于 2025-2-17 17:38
KT只半开源了模型,amx加速其实没有开源……只有四代五代志强才能享受到提升 ...

据说是想要往上游直接贡献 我觉着合理 等等看吧
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-19 04:50 , Processed in 0.014732 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表