水友用单路9654+KT框架跑 Q4 deepseek 671B 出14Token/S ！

KimmyGLM · 发表于 2025-2-17 16:36

本帖最后由 KimmyGLM 于 2025-2-17 17:02 编辑

水友用单路9654配合KT框架，AVX512加速，最终大约是长文10，短文14；家用部署迎来曙光；

对比下KT课题组用的配置， 6454S双路，DDR5-4800（志强也就只能跑这个速度，2DPC 1R/2R 实际4400），8通道内存；
AMX 加速应该只在Prefill阶段起作用，EPYC享受不到；

对比Decode 阶段就让人忍俊不禁了.....8通道双路跑不过Apro的12通道单路

Decode Speed (tokens/s):
KTransfermor: 8.73 (32 cores) → 11.26 (dual-socket, 2×32 cores) → 13.69 (selectively using 6 experts, V0.3 only)
Compared to 4.51 tokens/s in llama.cpp with 2×32 cores, achieving up to 3.03× speedup.

PS. 如果大家要玩服务器平台，建议还是多花钱直接D5平台起步，Q4 671起步。1.58bit 的unsloth还是比较一般；
再就是，双路并没有出现double的情况，提升较小

manwomans · 发表于 2025-2-17 16:49

这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点

KimmyGLM · 发表于 2025-2-17 16:53

manwomans 发表于 2025-2-17 16:49
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点

别的模型还没看到，目前他们课题组说在优化unsolth 的版本；
70B 全精度 140G 左右，要想快，要么192G m2ultra;
要么掏钱给老黄

591280714 · 发表于 2025-2-17 16:54

8581C什么成绩？

KimmyGLM · 发表于 2025-2-17 16:56

591280714 发表于 2025-2-17 16:54
8581C什么成绩？

B站有单路跑671B 2.51bit，速度不咋样，长上下文 4.72Tok/s

https://www.bilibili.com/video/B ... bc464b86ef34c9a4287

591280714 · 发表于 2025-2-17 16:58

KimmyGLM 发表于 2025-2-17 16:56
B站有单路跑671B 2.51bit，速度不咋样，长上下文 4.72Tok/s

https://www.bilibili.com/video/BV1vSKVeB ...

这个我在下面留言问过了，他没用KT架构也没开AMX，就普通ollama

StevenG · 发表于 2025-2-17 16:59

技嘉有单路，24条内存的9004板子，比单路12条内存贵不了多少，但是32g内存省下来的钱还能有剩，哪怕还用64，我可以预留出12条，方便后续升级更大的模型，不过这个板子的布局得用延长线来接全尺寸的显卡

KimmyGLM · 发表于 2025-2-17 17:01

591280714 发表于 2025-2-17 16:58
这个我在下面留言问过了，他没用KT架构也没开AMX，就普通ollama

还是以Q4 671B为统一准绳吧。双路提升比较有限，整个B站的视频我都看了，Q4最快跑出的是UP主：春日野穹b Xeon 6430 32C 双路共64核128T 内存 480GB DDR5 显卡 4090 24G 单卡

6-8Token/S，还没有用KT

KimmyGLM · 发表于 2025-2-17 17:04

StevenG 发表于 2025-2-17 16:59
技嘉有单路，24条内存的9004板子，比单路12条内存贵不了多少，但是32g内存省下来的钱还能有剩，哪怕还用64 ...

9004 9005 C741a 两边加起来一共6张板子.....延长线什么的都是小事了，本身这是适配服务器机架的

591280714 · 发表于 2025-2-17 17:04

KimmyGLM 发表于 2025-2-17 17:01
还是以Q4 671B为统一准绳吧。双路提升比较有限，整个B站的视频我都看了，Q4最快跑出的是UP主：春日野穹b ...

所以我现在特别想知道8581c开AMX的速度跟9654这种12通道但没AMX的U比哪个更快，然后准备搞一台

KimmyGLM · 发表于 2025-2-17 17:05

591280714 发表于 2025-2-17 17:04
所以我现在特别想知道8581c开AMX的速度跟9654这种12通道但没AMX的U比哪个更快，然后准备搞一台 ...

AMX 加速只在prefill阶段起作用啊，decode speed我不给给出答案了嘛，8通道跑不过人家12通道；
双路大家都有小幅提升；

deepfishing · 发表于 2025-2-17 17:08

prompt eval time = 49944.85 ms / 1653 tokens ( 30.21 ms per token, 33.10 tokens per second)
eval time = 101428.64 ms / 329 tokens ( 308.29 ms per token, 3.24 tokens per second)
total time = 151373.49 ms / 1982 tokens

复制代码

我用双路7002的epyc+6张4090跑出来的速度，2.22bit模型，用8卡4090 48能把全部模型装进gpu说不定有点意义

KimmyGLM · 发表于 2025-2-17 17:15

deepfishing 发表于 2025-2-17 17:08
我用双路7002的epyc+6张4090跑出来的速度，2.22bit模型，用8卡4090 48能把全部模型装进gpu说不定有点意义 ...

富哥你好，上面那几个配置只需要两张4090 48G…

591280714 · 发表于 2025-2-17 17:16

KimmyGLM 发表于 2025-2-17 17:05
AMX 加速只在prefill阶段起作用啊，decode speed我不给给出答案了嘛，8通道跑不过人家12通道；
双路大家 ...

所以总体速度的话呢？9654快呗？

uprit · 发表于 2025-2-17 17:21

manwomans 发表于 2025-2-17 16:49
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点

70B的这个llama效果一般，没有比32B的qwen强多少，更何况32B的速度还快。
实测本地部署的4bit 32B的推理能力已经吊打一众非DS模型了。全量的R1-32B在多个指标上比O1-mini都厉害。

KimmyGLM · 发表于 2025-2-17 17:24

uprit 发表于 2025-2-17 17:21
70B的这个llama效果一般，没有比32B的qwen强多少，更何况32B的速度还快。
实测本地部署的4bit 32B的推理 ...

不知道为啥ds官方没给qwen 70b的蒸馏版本，挺好奇的

awpak78 · 发表于 2025-2-17 17:25

manwomans 发表于 2025-2-17 16:49
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点

半块RTX4090 玩转70B大语言模型
https://www.chiphell.com/thread-2621437-1-1.html
(出处: Chiphell - 分享与交流用户体验)

uprit · 发表于 2025-2-17 17:27

KimmyGLM 发表于 2025-2-17 17:24
不知道为啥ds官方没给qwen 70b的蒸馏版本，挺好奇的

应该和开源协议有关系。72B的协议和32B的不一样。

bingshitian · 发表于 2025-2-17 17:29

这波挺有意思，我蹲蹲看，能不能有家用CPU的本地部署方案哈，比如14900K+192G内存+4090.

deepfishing · 发表于 2025-2-17 17:30

KimmyGLM 发表于 2025-2-17 17:15
富哥你好，上面那几个配置只需要两张4090 48G…

超低精度量化最低估计能部到strixhalo+一张48G的卡上，或者两片strixhalo。
虽然但是，农企不靠谱的软件适配和产品经理

KimmyGLM · 发表于 2025-2-17 17:31

bingshitian 发表于 2025-2-17 17:29
这波挺有意思，我蹲蹲看，能不能有家用CPU的本地部署方案哈，比如14900K+192G内存+4090. ...

9700x+192g跑1.58bit 671b前天刚测完，首次问答2.5t，上下问1.7-2t；

wzhg · 发表于 2025-2-17 17:32

这个方案在双路9654 + 1TB内存 + 4070ts（16G显存）的配置下比纯CPU推理会好很多吗？

我部署的671B Q4版本ollama纯CPU推理大概5t/s 。

bingshitian · 发表于 2025-2-17 17:33

KimmyGLM 发表于 2025-2-17 17:31
9700x+192g跑1.58bit 671b前天刚测完，首次问答2.5t，上下问1.7-2t；

你这有点慢，等优化到10t/s就可以啦。看看有没有大神开发出新思路。

KimmyGLM · 发表于 2025-2-17 17:38

wzhg 发表于 2025-2-17 17:32
这个方案在双路9654 + 1TB内存 + 4070ts（16G显存）的配置下比纯CPU推理会好很多吗？

我部署的671B Q4版本 ...

KT只半开源了模型，amx加速其实没有开源……只有四代五代志强才能享受到提升

StevenG · 发表于 2025-2-17 17:49

KimmyGLM 发表于 2025-2-17 17:05
AMX 加速只在prefill阶段起作用啊，decode speed我不给给出答案了嘛，8通道跑不过人家12通道；
双路大家 ...

我昨天在家跑的时候，发现个现象，写完提示词后，模型一直loading，直到内存占用从400g增加到800g，然后等了会儿，才开始输出。一个问题，差不多等上近10分钟才开始吐字，一个半字/s的速度。。在ubuntu虚拟机下，用ollama运行的，就是它官网给的671b的命令。双路7542，分了120核，960g内存

KimmyGLM · 发表于 2025-2-17 17:50

StevenG 发表于 2025-2-17 17:49
我昨天在家跑的时候，发现个现象，写完提示词后，模型一直loading，直到内存占用从400g增加到800g，然后 ...

关闭超线程，有效核数设置为40以下，再试试。

StevenG · 发表于 2025-2-17 17:56

KimmyGLM 发表于 2025-2-17 17:50
关闭超线程，有效核数设置为40以下，再试试。

好的，这两天抽空再试试

FlyKite · 发表于 2025-2-18 08:55

看网上有人反映，KT跑deepseek时有出现降智现象

KimmyGLM · 发表于 2025-2-18 09:02

FlyKite 发表于 2025-2-18 08:55
看网上有人反映，KT跑deepseek时有出现降智现象

KT 的精度，我也觉得目前还需要等更多人来验证，毕竟是6or8 experts of 256，总感觉怪怪的。

qdzx123 · 发表于 2025-2-18 10:52

KimmyGLM 发表于 2025-2-17 17:38
KT只半开源了模型，amx加速其实没有开源……只有四代五代志强才能享受到提升 ...

据说是想要往上游直接贡献我觉着合理等等看吧

账号		自动登录	找回密码
密码			加入我们

[CPU] 水友用单路9654+KT框架跑 Q4 deepseek 671B 出14Token/S ！