完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡

KimmyGLM · 发表于 2025-2-12 13:14

msdelphi 发表于 2025-2-12 13:02
epyc 3 平台，671b Q4 如何才能跑到5-6token？内存有DDR4 3200 640GB，双路 16通道了，木有显卡，才跑 1 t ...

D4 没前途的，早日上D5，来看看水友前几天发的双路8581c的带宽, 600G+
总体成本也不贵

https://www.chiphell.com/thread-2606946-1-1.html

oolmfoo · 发表于 2025-2-12 13:29

msdelphi 发表于 2025-2-12 13:02
epyc 3 平台，671b Q4 如何才能跑到5-6token？内存有DDR4 3200 640GB，双路 16通道了，木有显卡，才跑 1 t ...

什麼cpu? 會不會只有8 ccd 的cpu才能滿速

装陈醋的酱油瓶 · 发表于 2025-2-12 13:38

一懒众衫小发表于 2025-2-11 18:10
确实只需要提高内存的带宽就行了。这是是没想到131g的版本速度比70b还快。 ...

用CPU 跑的话，如果模型不够大，是只会放在某个NUMA节点的内存里的，实际只有几分之一的内存性能

这点牙膏U 要好不少

msdelphi · 发表于 2025-2-12 14:51

oolmfoo 发表于 2025-2-12 13:29
什麼cpu? 會不會只有8 ccd 的cpu才能滿速

48核 7R13

msdelphi · 发表于 2025-2-12 15:10

KimmyGLM 发表于 2025-2-12 13:14
D4 没前途的，早日上D5，来看看水友前几天发的双路8581c的带宽, 600G+
总体成本也不贵

贵多了，如果是epyc 双路，24通道D5，成本就高好几倍，U也贵得多

KimmyGLM · 发表于 2025-2-12 15:14

本帖最后由 KimmyGLM 于 2025-2-12 15:26 编辑

msdelphi 发表于 2025-2-12 15:10
贵多了，如果是epyc 双路，24通道D5，成本就高好几倍，U也贵得多

epyc 有便宜的9554 ES;
五代志强有便宜的8592 QS；
捡垃圾即可

主要价差就是内存条本身而已，但是D5的带宽提升，非常值得稍微多花点钱；
DDR4 RDIMM 插满，稳定在3200频率基本就顶天了，双路的带宽上限300-400G之间；
D5 RDIMM 5600起步，好一点的6000也可能；
镁光和老英还有合作的MRDIMM（这个天价，但是以后也许能捡到大船货）

补充一个：论坛还有好多服务器U或者TR pro的评测，D5单路带宽8通道都能200G 起步了，

一懒众衫小 · 发表于 2025-2-12 15:29

装陈醋的酱油瓶发表于 2025-2-12 13:38
用CPU 跑的话，如果模型不够大，是只会放在某个NUMA节点的内存里的，实际只有几分之一的内存性能

这点牙 ...

原来如此

我輩樹である · 发表于 2025-2-12 15:37

推荐这套。

	单价	数量	总价
三星/海力士 REGECC DDR5 4800 32GB	820	24	19680
Gigabyte MZ73-LM0	8200	1	8200
EPYC 9124（4CCD）	4300	2	8600
金钱豹散热器	290	2	580
鞋盒机箱	0	1	0
红星R600电源	145	1	145

mdeu · 发表于 2025-2-12 15:46

我輩樹である发表于 2025-2-12 15:37
推荐这套。

只看前三行是吧

我輩樹である · 发表于 2025-2-12 15:58

mdeu 发表于 2025-2-12 15:46
只看前三行是吧

好钢用在刀刃上。

一懒众衫小 · 发表于 2025-2-13 14:10

haphaphap 发表于 2025-2-12 09:17
可以试一下KTransformers的方案。

查了一下，现在 KTransformers 还不支持 Q1 的量化，也就是1.58bit暂时没戏，太可惜了，只能继续等待他们的改进。估计推理速度能提升一倍以上吧。

zgpnhhy · 发表于 2025-2-13 14:17

如果
9950x
192g内存
4080
1.58bit 有戏吗？

一懒众衫小 · 发表于 2025-2-14 08:56

zgpnhhy 发表于 2025-2-13 14:17
如果
9950x
192g内存

等 KTransformers 的方案更新吧，你内存比我多64g，显存少8g，预计能比我多18k的上下文长度（我极限是4.5k，我电脑上每多1k长度增加3G内存需求），推理速度不好说，你的内存带宽不知道多少，我的是80G/s。
猜测你现在用llama.cpp的推理速度在4t/s左右（现在llama.cpp方案在大量模型卸载到内存时对显卡利用率几乎为0，只关心显存大小），预计用 KTransformers 更新后支持Q1的方案的话也许能到 7t/s
如果你不追求那么多的 ctx 上下文长度的话，倒是可以尝试1.73bit版本，那个比1.58bit要多需求30G左右的内存，按照这样推算，你能用的ctx上下文长度大概在4k左右，勉强够用了。

nagashinn · 发表于 2025-2-14 10:04

让模型飞一会儿。2个月后估计cpu大内存就能干活了，慢点无所谓，7x24跑批就行了

zgpnhhy · 发表于 2025-2-14 10:11

一懒众衫小发表于 2025-2-14 08:56
等 KTransformers 的方案更新吧，你内存比我多64g，显存少8g，预计能比我多18k的上下文长度（我极限是4.5 ...

非常感谢！我研究研究

我輩樹である · 发表于 2025-2-14 10:16

ollama今天更新amx支持了。动作挺快。

千古伟人空一格 · 发表于 2025-2-14 10:17

等9070 32G版本，这卡可能是平民ai的最佳选择了

petruswang · 发表于 2025-2-14 23:54

试试这个问题
一个汉字具有左右结构，左边是木，右边是乞。这个字是什么?
答案是杚。。。据说正版4b以下的没一个能答对，能当各种api接口的验证器了。。。
y1s1，deepseek比我强

atlantis414 · 发表于 2025-2-15 00:36

跑了70b的蒸馏版本

好，我现在需要为上联“三光日月星”找一个合适的下联。首先，理解上联中的每个字，“三”代表数量或多重，“光”指的是光辉、光芒，而“日月星”则分别指代太阳、月亮和星辰，这些都是天体，象征着自然界的光明与力量。整体来看，上联在表达一种宏伟壮丽的景象。

接下来，我需要找到一个下联，在字数、结构和意境上与上联相匹配。通常对仗工整是关键，所以每个词都应有对应的位置。“三光”可以对应“九霄”，这样在数量和词性上形成呼应。“日月星”则需要找到三个同样具有象征意义的元素。

考虑到自然界中除了太阳、月亮和星辰，还有风、雨、雷等元素，它们也是大自然中的重要组成部分。于是，我想到“风雨雷”，这三个词不仅在数量上与“日月星”相匹配，而且在表现自然力量方面也非常契合。

然后，整体组合起来就是“九霄风雨雷”。这样不仅字数对仗工整，而且意境上形成了一种从天空的广阔（九霄）到地球上的自然现象（风雨雷）的递进关系，使整个对联更加丰富和有层次感。

最后，检查一下是否符合对仗要求，每个部分都要在词性、结构上相匹配。“三”对“九”，“光”对“霄”，“日月星”对“风雨雷”。这样不仅保持了数量的一致，也在意象上形成了和谐的呼应。

总结一下，经过分析和思考，我选择“九霄风雨雷”作为下联，既符合字数、结构上的要求，又在意境上与上联相得益彰，整体看起来对仗工整，富有画面感。

下联：九霄风雨雷
我觉得对的不错啊

6892731 · 发表于 2025-2-15 00:36

本帖最后由 6892731 于 2025-2-15 00:47 编辑

671B 4bit量化还行，可用；max_new_tokens 4000

KimmyGLM · 发表于 2025-2-15 00:59

6892731 发表于 2025-2-15 00:36
671B 4bit量化还行，可用；max_new_tokens 4000

啥配置跑的？

一懒众衫小 · 发表于 2025-2-15 10:00

本帖最后由一懒众衫小于 2025-2-15 10:12 编辑

atlantis414 发表于 2025-2-15 00:36
跑了70b的蒸馏版本

看到很多测试，llama 70b 的蒸馏还不如 qwen 32b的，不过这个对联都没答对。
昨天又试了下1.58b，居然还答出四德元亨利这样苏轼的神对，只不过又排除了。

一懒众衫小 · 发表于 2025-2-15 10:02

本帖最后由一懒众衫小于 2025-2-15 10:13 编辑

6892731 发表于 2025-2-15 00:36
671B 4bit量化还行，可用；max_new_tokens 4000

你的配置上 KTransformers 有望啊，如果模型大小400g，单个token激活大概是37b，所以单个token需求 37/671*400=22.1G，
所以用 KT 的理论上限能到内存带宽/22.1 t/s

一懒众衫小 · 发表于 2025-2-15 10:03

atlantis414 发表于 2025-2-15 00:36
跑了70b的蒸馏版本

哈哈哈，创造性。总比四水江河淮好（济水消失了的意思吧

）

robles · 发表于 2025-2-15 13:58

不用着急，今年之内硬件厂商包括显卡厂商，会出适合的硬件。到时候估计几万就能上速度不错的fp8真正满血版。

网仙 · 发表于 2025-2-15 15:45

一懒众衫小发表于 2025-2-15 10:02
你的配置上 KTransformers 有望啊，如果模型大小400g，单个token激活大概是37b，所以单个token需求 37/6 ...

单路至强8通道的内存带宽300G+
差不多有15tk/s的输出能力

双路600多的带宽，理论可以到30输出，可惜目前还没有优化算法，与单路区别不大

fudaming · 发表于 2025-2-15 19:36

本帖最后由 fudaming 于 2025-2-15 19:42 编辑

https://www.bilibili.com/video/BV1A3Fje6Ej6
整活可以看看这个，多mac设备组exo集群

目前在找有没有多雷电设备互联的方案，就是超过2个的，类似雷电交换机的概念。

zhanming · 发表于 2025-2-17 16:48

请问
epyc 7642 48核心96线程
3090 24GB
DDR4 3200 256GB

可以跑吗？

盐湖 · 发表于 2025-2-17 18:36

pdvc 发表于 2025-2-12 01:01
虚拟内存跑的我之前测过了，就2t/s速度，然后输入token多一点或者多轮次，就卡死在那要很久。

我试过一个 ...

为什么声学问题会成为类似benchmark的存在？求教

pdvc · 发表于 2025-2-17 23:51

盐湖发表于 2025-2-17 18:36
为什么声学问题会成为类似benchmark的存在？求教

涉及到的推理计算过程多一些嘛，输出的token相对也多一些。

账号		自动登录	找回密码
密码			加入我们

[显卡] 完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡

浏览过的版块