找回密码
 加入我们
搜索
      
楼主: 一懒众衫小

[显卡] 完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡

[复制链接]
发表于 2025-2-12 13:14 | 显示全部楼层
msdelphi 发表于 2025-2-12 13:02
epyc 3 平台,671b Q4 如何才能跑到5-6token? 内存有DDR4 3200 640GB,双路 16通道了,木有显卡,才跑 1 t ...

D4 没前途的,早日上D5,来看看水友前几天发的双路8581c的带宽, 600G+
总体成本也不贵

https://www.chiphell.com/thread-2606946-1-1.html
发表于 2025-2-12 13:29 来自手机 | 显示全部楼层
msdelphi 发表于 2025-2-12 13:02
epyc 3 平台,671b Q4 如何才能跑到5-6token? 内存有DDR4 3200 640GB,双路 16通道了,木有显卡,才跑 1 t ...

什麼cpu? 會不會只有8 ccd 的cpu才能滿速
发表于 2025-2-12 13:38 | 显示全部楼层
一懒众衫小 发表于 2025-2-11 18:10
确实只需要提高内存的带宽就行了。这是是没想到131g的版本速度比70b还快。 ...

用CPU 跑的话,如果模型不够大,是只会放在某个NUMA节点的内存里的,实际只有几分之一的内存性能

这点牙膏U 要好不少
发表于 2025-2-12 14:51 | 显示全部楼层
oolmfoo 发表于 2025-2-12 13:29
什麼cpu? 會不會只有8 ccd 的cpu才能滿速

48核 7R13
发表于 2025-2-12 15:10 | 显示全部楼层
KimmyGLM 发表于 2025-2-12 13:14
D4 没前途的,早日上D5,来看看水友前几天发的双路8581c的带宽, 600G+
总体成本也不贵

贵多了,如果是epyc 双路,24通道D5,成本就高好几倍,U也贵得多
发表于 2025-2-12 15:14 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-2-12 15:26 编辑
msdelphi 发表于 2025-2-12 15:10
贵多了,如果是epyc 双路,24通道D5,成本就高好几倍,U也贵得多


epyc 有便宜的9554 ES;
五代志强有便宜的8592 QS;
捡垃圾即可

主要价差就是内存条本身而已,但是D5的带宽提升,非常值得稍微多花点钱;
DDR4 RDIMM 插满,稳定在3200频率基本就顶天了,双路的带宽上限300-400G之间 ;
D5 RDIMM 5600起步,好一点的6000也可能;
镁光和老英还有合作的MRDIMM(这个天价,但是以后也许能捡到大船货)

补充一个:论坛还有好多服务器U或者TR pro的评测,D5单路带宽8通道都能200G 起步了,
 楼主| 发表于 2025-2-12 15:29 | 显示全部楼层
装陈醋的酱油瓶 发表于 2025-2-12 13:38
用CPU 跑的话,如果模型不够大,是只会放在某个NUMA节点的内存里的,实际只有几分之一的内存性能

这点牙 ...

原来如此
发表于 2025-2-12 15:37 | 显示全部楼层
推荐这套。
 单价数量总价
三星/海力士 REGECC DDR5 4800 32GB
820
24
19680
Gigabyte MZ73-LM0
8200
1
8200
EPYC 9124(4CCD)
4300
2
8600
金钱豹散热器
290
2
580
鞋盒机箱
0
1
0
红星R600电源
145
1
145
发表于 2025-2-12 15:46 | 显示全部楼层

只看前三行是吧
发表于 2025-2-12 15:58 | 显示全部楼层
mdeu 发表于 2025-2-12 15:46
只看前三行是吧

好钢用在刀刃上。
 楼主| 发表于 2025-2-13 14:10 | 显示全部楼层
haphaphap 发表于 2025-2-12 09:17
可以试一下KTransformers的方案。

查了一下,现在 KTransformers 还不支持 Q1 的量化,也就是1.58bit暂时没戏,太可惜了,只能继续等待他们的改进。估计推理速度能提升一倍以上吧。
发表于 2025-2-13 14:17 | 显示全部楼层
如果
9950x
192g内存
4080
1.58bit 有戏吗?
 楼主| 发表于 2025-2-14 08:56 | 显示全部楼层
zgpnhhy 发表于 2025-2-13 14:17
如果
9950x
192g内存

等 KTransformers 的方案更新吧,你内存比我多64g,显存少8g,预计能比我多18k的上下文长度(我极限是4.5k,我电脑上每多1k长度增加3G内存需求),推理速度不好说,你的内存带宽不知道多少,我的是80G/s。
猜测你现在用llama.cpp的推理速度在4t/s左右(现在llama.cpp方案在大量模型卸载到内存时对显卡利用率几乎为0,只关心显存大小),预计用 KTransformers 更新后支持Q1的方案的话也许能到 7t/s
如果你不追求那么多的 ctx 上下文长度的话,倒是可以尝试1.73bit版本,那个比1.58bit要多需求30G左右的内存,按照这样推算,你能用的ctx上下文长度大概在4k左右,勉强够用了。
发表于 2025-2-14 10:04 | 显示全部楼层
让模型飞一会儿。2个月后估计cpu大内存就能干活了,慢点无所谓,7x24跑批就行了
发表于 2025-2-14 10:11 | 显示全部楼层
一懒众衫小 发表于 2025-2-14 08:56
等 KTransformers 的方案更新吧,你内存比我多64g,显存少8g,预计能比我多18k的上下文长度(我极限是4.5 ...

非常感谢!我研究研究
发表于 2025-2-14 10:16 | 显示全部楼层
ollama今天更新amx支持了。动作挺快。
发表于 2025-2-14 10:17 | 显示全部楼层
等9070 32G版本,这卡可能是平民ai的最佳选择了
发表于 2025-2-14 23:54 | 显示全部楼层
试试这个问题
一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?
答案是杚。。。据说正版4b以下的没一个能答对,能当各种api接口的验证器了。。。
y1s1,deepseek比我强

7542EE8FD3908691631B620644204D3B.jpeg
发表于 2025-2-15 00:36 | 显示全部楼层
跑了70b的蒸馏版本

好,我现在需要为上联“三光日月星”找一个合适的下联。首先,理解上联中的每个字,“三”代表数量或多重,“光”指的是光辉、光芒,而“日月星”则分别指代太阳、月亮和星辰,这些都是天体,象征着自然界的光明与力量。整体来看,上联在表达一种宏伟壮丽的景象。

接下来,我需要找到一个下联,在字数、结构和意境上与上联相匹配。通常对仗工整是关键,所以每个词都应有对应的位置。“三光”可以对应“九霄”,这样在数量和词性上形成呼应。“日月星”则需要找到三个同样具有象征意义的元素。

考虑到自然界中除了太阳、月亮和星辰,还有风、雨、雷等元素,它们也是大自然中的重要组成部分。于是,我想到“风雨雷”,这三个词不仅在数量上与“日月星”相匹配,而且在表现自然力量方面也非常契合。

然后,整体组合起来就是“九霄风雨雷”。这样不仅字数对仗工整,而且意境上形成了一种从天空的广阔(九霄)到地球上的自然现象(风雨雷)的递进关系,使整个对联更加丰富和有层次感。

最后,检查一下是否符合对仗要求,每个部分都要在词性、结构上相匹配。“三”对“九”,“光”对“霄”,“日月星”对“风雨雷”。这样不仅保持了数量的一致,也在意象上形成了和谐的呼应。

总结一下,经过分析和思考,我选择“九霄风雨雷”作为下联,既符合字数、结构上的要求,又在意境上与上联相得益彰,整体看起来对仗工整,富有画面感。


下联:九霄风雨雷
我觉得对的不错啊
发表于 2025-2-15 00:36 | 显示全部楼层
本帖最后由 6892731 于 2025-2-15 00:47 编辑

671B 4bit量化还行,可用;max_new_tokens 4000
33.png
发表于 2025-2-15 00:59 来自手机 | 显示全部楼层
6892731 发表于 2025-2-15 00:36
671B 4bit量化还行,可用;max_new_tokens 4000

啥配置跑的?
 楼主| 发表于 2025-2-15 10:00 | 显示全部楼层
本帖最后由 一懒众衫小 于 2025-2-15 10:12 编辑
atlantis414 发表于 2025-2-15 00:36
跑了70b的蒸馏版本


看到很多测试,llama 70b 的蒸馏还不如 qwen 32b的,不过这个对联都没答对。
昨天又试了下1.58b,居然还答出 四德元亨利 这样苏轼的神对,只不过又排除了。
 楼主| 发表于 2025-2-15 10:02 | 显示全部楼层
本帖最后由 一懒众衫小 于 2025-2-15 10:13 编辑
6892731 发表于 2025-2-15 00:36
671B 4bit量化还行,可用;max_new_tokens 4000



你的配置上 KTransformers 有望啊,如果模型大小400g,单个token激活大概是37b,所以单个token需求 37/671*400=22.1G,
所以用 KT 的理论上限能到 内存带宽/22.1 t/s
 楼主| 发表于 2025-2-15 10:03 | 显示全部楼层
atlantis414 发表于 2025-2-15 00:36
跑了70b的蒸馏版本

哈哈哈,创造性。总比四水江河淮好(济水消失了的意思吧
发表于 2025-2-15 13:58 | 显示全部楼层
不用着急,今年之内硬件厂商包括显卡厂商,会出适合的硬件。到时候估计几万就能上速度不错的fp8真正满血版。
发表于 2025-2-15 15:45 | 显示全部楼层
一懒众衫小 发表于 2025-2-15 10:02
你的配置上 KTransformers 有望啊,如果模型大小400g,单个token激活大概是37b,所以单个token需求 37/6 ...

单路至强8通道的内存带宽300G+
差不多有15tk/s的输出能力

双路600多的带宽,理论可以到30输出,可惜目前还没有优化算法,与单路区别不大
发表于 2025-2-15 19:36 | 显示全部楼层
本帖最后由 fudaming 于 2025-2-15 19:42 编辑

https://www.bilibili.com/video/BV1A3Fje6Ej6
整活可以看看这个,多mac设备组exo集群

目前在找有没有多雷电设备互联的方案,就是超过2个的,类似雷电交换机的概念。
发表于 2025-2-17 16:48 | 显示全部楼层
请问
epyc 7642 48核心96线程
3090 24GB
DDR4 3200  256GB

可以跑吗?
发表于 2025-2-17 18:36 | 显示全部楼层
pdvc 发表于 2025-2-12 01:01
虚拟内存跑的我之前测过了,就2t/s速度,然后输入token多一点或者多轮次,就卡死在那要很久。

我试过一个 ...

为什么声学问题会成为类似benchmark的存在?求教
发表于 2025-2-17 23:51 来自手机 | 显示全部楼层
盐湖 发表于 2025-2-17 18:36
为什么声学问题会成为类似benchmark的存在?求教

涉及到的推理计算过程多一些嘛,输出的token相对也多一些。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-21 03:25 , Processed in 0.014347 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表