水友用单路9654+KT框架跑 Q4 deepseek 671B 出14Token/S !
本帖最后由 KimmyGLM 于 2025-2-17 17:02 编辑水友用单路9654配合KT框架,AVX512加速,最终大约是长文10,短文14;家用部署迎来曙光;
对比下KT课题组用的配置, 6454S双路,DDR5-4800(志强也就只能跑这个速度,2DPC 1R/2R 实际4400),8通道内存;
AMX 加速应该只在Prefill阶段起作用,EPYC享受不到;
对比Decode 阶段就让人忍俊不禁了.....8通道双路跑不过Apro的12通道单路
Decode Speed (tokens/s):
KTransfermor: 8.73 (32 cores) → 11.26 (dual-socket, 2×32 cores) → 13.69 (selectively using 6 experts, V0.3 only)
Compared to 4.51 tokens/s in llama.cpp with 2×32 cores, achieving up to 3.03× speedup.
PS. 如果大家要玩服务器平台,建议还是多花钱直接D5平台起步,Q4 671起步。1.58bit 的unsloth还是比较一般;
再就是,双路并没有出现double的情况,提升较小
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点 manwomans 发表于 2025-2-17 16:49
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点
别的模型还没看到,目前他们课题组说在优化unsolth 的版本;
70B 全精度 140G 左右,要想快,要么192G m2ultra;
要么掏钱给老黄 8581C什么成绩? 591280714 发表于 2025-2-17 16:54
8581C什么成绩?
B站有单路跑671B 2.51bit, 速度不咋样,长上下文 4.72Tok/s
https://www.bilibili.com/video/BV1vSKVeBE79/?spm_id_from=333.337.search-card.all.click&vd_source=97f01d79213c9bc464b86ef34c9a4287 KimmyGLM 发表于 2025-2-17 16:56
B站有单路跑671B 2.51bit, 速度不咋样,长上下文 4.72Tok/s
https://www.bilibili.com/video/BV1vSKVeB ...
这个我在下面留言问过了,他没用KT架构也没开AMX,就普通ollama 技嘉有单路,24条内存的9004板子,比单路12条内存贵不了多少,但是32g内存省下来的钱还能有剩,哪怕还用64,我可以预留出12条,方便后续升级更大的模型,不过这个板子的布局得用延长线来接全尺寸的显卡[生病] 591280714 发表于 2025-2-17 16:58
这个我在下面留言问过了,他没用KT架构也没开AMX,就普通ollama
还是以Q4 671B为统一准绳吧。双路提升比较有限,整个B站的视频我都看了,Q4最快跑出的是UP主:春日野穹b Xeon 6430 32C 双路共64核128T 内存 480GB DDR5 显卡 4090 24G 单卡
6-8Token/S,还没有用KT StevenG 发表于 2025-2-17 16:59
技嘉有单路,24条内存的9004板子,比单路12条内存贵不了多少,但是32g内存省下来的钱还能有剩,哪怕还用64 ...
9004 9005 C741a 两边加起来一共6张板子.....延长线什么的都是小事了,本身这是适配服务器机架的 KimmyGLM 发表于 2025-2-17 17:01
还是以Q4 671B为统一准绳吧。双路提升比较有限,整个B站的视频我都看了,Q4最快跑出的是UP主:春日野穹b...
所以我现在特别想知道8581c开AMX的速度跟9654这种12通道但没AMX的U比哪个更快,然后准备搞一台 591280714 发表于 2025-2-17 17:04
所以我现在特别想知道8581c开AMX的速度跟9654这种12通道但没AMX的U比哪个更快,然后准备搞一台 ...
AMX 加速只在prefill阶段起作用啊,decode speed我不给给出答案了嘛,8通道跑不过人家12通道;
双路大家都有小幅提升; prompt eval time = 49944.85 ms /1653 tokens ( 30.21 ms per token, 33.10 tokens per second)
eval time =101428.64 ms / 329 tokens (308.29 ms per token, 3.24 tokens per second)
total time =151373.49 ms /1982 tokens
我用双路7002的epyc+6张4090跑出来的速度,2.22bit模型,用8卡4090 48能把全部模型装进gpu说不定有点意义 deepfishing 发表于 2025-2-17 17:08
我用双路7002的epyc+6张4090跑出来的速度,2.22bit模型,用8卡4090 48能把全部模型装进gpu说不定有点意义 ...
富哥你好,上面那几个配置只需要两张4090 48G… KimmyGLM 发表于 2025-2-17 17:05
AMX 加速只在prefill阶段起作用啊,decode speed我不给给出答案了嘛,8通道跑不过人家12通道;
双路大家 ...
所以总体速度的话呢?9654快呗? manwomans 发表于 2025-2-17 16:49
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点
70B的这个llama效果一般,没有比32B的qwen强多少,更何况32B的速度还快。
实测本地部署的4bit 32B的推理能力已经吊打一众非DS模型了。全量的R1-32B在多个指标上比O1-mini都厉害。
uprit 发表于 2025-2-17 17:21
70B的这个llama效果一般,没有比32B的qwen强多少,更何况32B的速度还快。
实测本地部署的4bit 32B的推理 ...
不知道为啥ds官方没给qwen 70b的蒸馏版本,挺好奇的 manwomans 发表于 2025-2-17 16:49
这个是仅限于deepseek吧
别的模型能运行吗
我就想本地部署的70b能跑快点
半块RTX4090 玩转70B大语言模型
https://www.chiphell.com/thread-2621437-1-1.html
(出处: Chiphell - 分享与交流用户体验)
KimmyGLM 发表于 2025-2-17 17:24
不知道为啥ds官方没给qwen 70b的蒸馏版本,挺好奇的
应该和开源协议有关系。72B的协议和32B的不一样。
这波挺有意思,我蹲蹲看,能不能有家用CPU的本地部署方案哈,比如14900K+192G内存+4090. KimmyGLM 发表于 2025-2-17 17:15
富哥你好,上面那几个配置只需要两张4090 48G…
超低精度量化最低估计能部到strixhalo+一张48G的卡上,或者两片strixhalo。
虽然但是,农企不靠谱的软件适配和产品经理 bingshitian 发表于 2025-2-17 17:29
这波挺有意思,我蹲蹲看,能不能有家用CPU的本地部署方案哈,比如14900K+192G内存+4090. ...
9700x+192g跑1.58bit 671b前天刚测完,首次问答2.5t,上下问1.7-2t; 这个方案在双路9654 + 1TB内存 + 4070ts(16G显存)的配置下比纯CPU推理会好很多吗?
我部署的671B Q4版本ollama纯CPU推理大概5t/s 。
KimmyGLM 发表于 2025-2-17 17:31
9700x+192g跑1.58bit 671b前天刚测完,首次问答2.5t,上下问1.7-2t;
你这有点慢,等优化到10t/s就可以啦。看看有没有大神开发出新思路。 wzhg 发表于 2025-2-17 17:32
这个方案在双路9654 + 1TB内存 + 4070ts(16G显存)的配置下比纯CPU推理会好很多吗?
我部署的671B Q4版本 ...
KT只半开源了模型,amx加速其实没有开源……只有四代五代志强才能享受到提升 KimmyGLM 发表于 2025-2-17 17:05
AMX 加速只在prefill阶段起作用啊,decode speed我不给给出答案了嘛,8通道跑不过人家12通道;
双路大家 ...
我昨天在家跑的时候,发现个现象,写完提示词后,模型一直loading,直到内存占用从400g增加到800g,然后等了会儿,才开始输出。一个问题,差不多等上近10分钟才开始吐字,一个半字/s的速度。。在ubuntu虚拟机下,用ollama运行的,就是它官网给的671b的命令。双路7542,分了120核,960g内存 StevenG 发表于 2025-2-17 17:49
我昨天在家跑的时候,发现个现象,写完提示词后,模型一直loading,直到内存占用从400g增加到800g,然后 ...
关闭超线程,有效核数设置为40以下,再试试。
KimmyGLM 发表于 2025-2-17 17:50
关闭超线程,有效核数设置为40以下,再试试。
好的,这两天抽空再试试 看网上有人反映,KT跑deepseek时有出现降智现象 FlyKite 发表于 2025-2-18 08:55
看网上有人反映,KT跑deepseek时有出现降智现象
KT 的精度,我也觉得目前还需要等更多人来验证,毕竟是6or8 experts of 256,总感觉怪怪的。 KimmyGLM 发表于 2025-2-17 17:38
KT只半开源了模型,amx加速其实没有开源……只有四代五代志强才能享受到提升 ...
据说是想要往上游直接贡献 我觉着合理 等等看吧
页:
[1]
2