KimmyGLM 发表于 2025-2-17 16:36

水友用单路9654+KT框架跑 Q4 deepseek 671B 出14Token/S !

本帖最后由 KimmyGLM 于 2025-2-17 17:02 编辑

水友用单路9654配合KT框架,AVX512加速,最终大约是长文10,短文14;家用部署迎来曙光;

对比下KT课题组用的配置, 6454S双路,DDR5-4800(志强也就只能跑这个速度,2DPC 1R/2R 实际4400),8通道内存;
AMX 加速应该只在Prefill阶段起作用,EPYC享受不到;

对比Decode 阶段就让人忍俊不禁了.....8通道双路跑不过Apro的12通道单路

Decode Speed (tokens/s):
KTransfermor: 8.73 (32 cores) → 11.26 (dual-socket, 2×32 cores) → 13.69 (selectively using 6 experts, V0.3 only)
Compared to 4.51 tokens/s in llama.cpp with 2×32 cores, achieving up to 3.03× speedup.

PS. 如果大家要玩服务器平台,建议还是多花钱直接D5平台起步,Q4 671起步。1.58bit 的unsloth还是比较一般;
再就是,双路并没有出现double的情况,提升较小

manwomans 发表于 2025-2-17 16:49

这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点

KimmyGLM 发表于 2025-2-17 16:53

manwomans 发表于 2025-2-17 16:49
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点

别的模型还没看到,目前他们课题组说在优化unsolth 的版本;
70B 全精度 140G 左右,要想快,要么192G m2ultra;
要么掏钱给老黄

591280714 发表于 2025-2-17 16:54

8581C什么成绩?

KimmyGLM 发表于 2025-2-17 16:56

591280714 发表于 2025-2-17 16:54
8581C什么成绩?

B站有单路跑671B 2.51bit, 速度不咋样,长上下文 4.72Tok/s

https://www.bilibili.com/video/BV1vSKVeBE79/?spm_id_from=333.337.search-card.all.click&vd_source=97f01d79213c9bc464b86ef34c9a4287

591280714 发表于 2025-2-17 16:58

KimmyGLM 发表于 2025-2-17 16:56
B站有单路跑671B 2.51bit, 速度不咋样,长上下文 4.72Tok/s

https://www.bilibili.com/video/BV1vSKVeB ...

这个我在下面留言问过了,他没用KT架构也没开AMX,就普通ollama

StevenG 发表于 2025-2-17 16:59

技嘉有单路,24条内存的9004板子,比单路12条内存贵不了多少,但是32g内存省下来的钱还能有剩,哪怕还用64,我可以预留出12条,方便后续升级更大的模型,不过这个板子的布局得用延长线来接全尺寸的显卡[生病]

KimmyGLM 发表于 2025-2-17 17:01

591280714 发表于 2025-2-17 16:58
这个我在下面留言问过了,他没用KT架构也没开AMX,就普通ollama

还是以Q4 671B为统一准绳吧。双路提升比较有限,整个B站的视频我都看了,Q4最快跑出的是UP主:春日野穹b Xeon 6430 32C 双路共64核128T 内存 480GB DDR5 显卡 4090 24G 单卡

6-8Token/S,还没有用KT

KimmyGLM 发表于 2025-2-17 17:04

StevenG 发表于 2025-2-17 16:59
技嘉有单路,24条内存的9004板子,比单路12条内存贵不了多少,但是32g内存省下来的钱还能有剩,哪怕还用64 ...

9004 9005 C741a 两边加起来一共6张板子.....延长线什么的都是小事了,本身这是适配服务器机架的

591280714 发表于 2025-2-17 17:04

KimmyGLM 发表于 2025-2-17 17:01
还是以Q4 671B为统一准绳吧。双路提升比较有限,整个B站的视频我都看了,Q4最快跑出的是UP主:春日野穹b...

所以我现在特别想知道8581c开AMX的速度跟9654这种12通道但没AMX的U比哪个更快,然后准备搞一台

KimmyGLM 发表于 2025-2-17 17:05

591280714 发表于 2025-2-17 17:04
所以我现在特别想知道8581c开AMX的速度跟9654这种12通道但没AMX的U比哪个更快,然后准备搞一台 ...

AMX 加速只在prefill阶段起作用啊,decode speed我不给给出答案了嘛,8通道跑不过人家12通道;
双路大家都有小幅提升;

deepfishing 发表于 2025-2-17 17:08

prompt eval time =   49944.85 ms /1653 tokens (   30.21 ms per token,    33.10 tokens per second)
       eval time =101428.64 ms /   329 tokens (308.29 ms per token,   3.24 tokens per second)
      total time =151373.49 ms /1982 tokens

我用双路7002的epyc+6张4090跑出来的速度,2.22bit模型,用8卡4090 48能把全部模型装进gpu说不定有点意义

KimmyGLM 发表于 2025-2-17 17:15

deepfishing 发表于 2025-2-17 17:08
我用双路7002的epyc+6张4090跑出来的速度,2.22bit模型,用8卡4090 48能把全部模型装进gpu说不定有点意义 ...

富哥你好,上面那几个配置只需要两张4090 48G…

591280714 发表于 2025-2-17 17:16

KimmyGLM 发表于 2025-2-17 17:05
AMX 加速只在prefill阶段起作用啊,decode speed我不给给出答案了嘛,8通道跑不过人家12通道;
双路大家 ...

所以总体速度的话呢?9654快呗?

uprit 发表于 2025-2-17 17:21

manwomans 发表于 2025-2-17 16:49
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点

70B的这个llama效果一般,没有比32B的qwen强多少,更何况32B的速度还快。
实测本地部署的4bit 32B的推理能力已经吊打一众非DS模型了。全量的R1-32B在多个指标上比O1-mini都厉害。

KimmyGLM 发表于 2025-2-17 17:24

uprit 发表于 2025-2-17 17:21
70B的这个llama效果一般,没有比32B的qwen强多少,更何况32B的速度还快。
实测本地部署的4bit 32B的推理 ...

不知道为啥ds官方没给qwen 70b的蒸馏版本,挺好奇的

awpak78 发表于 2025-2-17 17:25

manwomans 发表于 2025-2-17 16:49
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点

半块RTX4090 玩转70B大语言模型
https://www.chiphell.com/thread-2621437-1-1.html
(出处: Chiphell - 分享与交流用户体验)

uprit 发表于 2025-2-17 17:27

KimmyGLM 发表于 2025-2-17 17:24
不知道为啥ds官方没给qwen 70b的蒸馏版本,挺好奇的

应该和开源协议有关系。72B的协议和32B的不一样。

bingshitian 发表于 2025-2-17 17:29

这波挺有意思,我蹲蹲看,能不能有家用CPU的本地部署方案哈,比如14900K+192G内存+4090.

deepfishing 发表于 2025-2-17 17:30

KimmyGLM 发表于 2025-2-17 17:15
富哥你好,上面那几个配置只需要两张4090 48G…

超低精度量化最低估计能部到strixhalo+一张48G的卡上,或者两片strixhalo。
虽然但是,农企不靠谱的软件适配和产品经理

KimmyGLM 发表于 2025-2-17 17:31

bingshitian 发表于 2025-2-17 17:29
这波挺有意思,我蹲蹲看,能不能有家用CPU的本地部署方案哈,比如14900K+192G内存+4090. ...

9700x+192g跑1.58bit 671b前天刚测完,首次问答2.5t,上下问1.7-2t;

wzhg 发表于 2025-2-17 17:32

这个方案在双路9654 + 1TB内存 + 4070ts(16G显存)的配置下比纯CPU推理会好很多吗?

我部署的671B Q4版本ollama纯CPU推理大概5t/s 。

bingshitian 发表于 2025-2-17 17:33

KimmyGLM 发表于 2025-2-17 17:31
9700x+192g跑1.58bit 671b前天刚测完,首次问答2.5t,上下问1.7-2t;

你这有点慢,等优化到10t/s就可以啦。看看有没有大神开发出新思路。

KimmyGLM 发表于 2025-2-17 17:38

wzhg 发表于 2025-2-17 17:32
这个方案在双路9654 + 1TB内存 + 4070ts(16G显存)的配置下比纯CPU推理会好很多吗?

我部署的671B Q4版本 ...

KT只半开源了模型,amx加速其实没有开源……只有四代五代志强才能享受到提升

StevenG 发表于 2025-2-17 17:49

KimmyGLM 发表于 2025-2-17 17:05
AMX 加速只在prefill阶段起作用啊,decode speed我不给给出答案了嘛,8通道跑不过人家12通道;
双路大家 ...

我昨天在家跑的时候,发现个现象,写完提示词后,模型一直loading,直到内存占用从400g增加到800g,然后等了会儿,才开始输出。一个问题,差不多等上近10分钟才开始吐字,一个半字/s的速度。。在ubuntu虚拟机下,用ollama运行的,就是它官网给的671b的命令。双路7542,分了120核,960g内存

KimmyGLM 发表于 2025-2-17 17:50

StevenG 发表于 2025-2-17 17:49
我昨天在家跑的时候,发现个现象,写完提示词后,模型一直loading,直到内存占用从400g增加到800g,然后 ...

关闭超线程,有效核数设置为40以下,再试试。

StevenG 发表于 2025-2-17 17:56

KimmyGLM 发表于 2025-2-17 17:50
关闭超线程,有效核数设置为40以下,再试试。

好的,这两天抽空再试试

FlyKite 发表于 2025-2-18 08:55

看网上有人反映,KT跑deepseek时有出现降智现象

KimmyGLM 发表于 2025-2-18 09:02

FlyKite 发表于 2025-2-18 08:55
看网上有人反映,KT跑deepseek时有出现降智现象

KT 的精度,我也觉得目前还需要等更多人来验证,毕竟是6or8 experts of 256,总感觉怪怪的。

qdzx123 发表于 2025-2-18 10:52

KimmyGLM 发表于 2025-2-17 17:38
KT只半开源了模型,amx加速其实没有开源……只有四代五代志强才能享受到提升 ...

据说是想要往上游直接贡献 我觉着合理 等等看吧
页: [1] 2
查看完整版本: 水友用单路9654+KT框架跑 Q4 deepseek 671B 出14Token/S !