KimmyGLM 发表于 2025-2-12 13:14

msdelphi 发表于 2025-2-12 13:02
epyc 3 平台,671b Q4 如何才能跑到5-6token? 内存有DDR4 3200 640GB,双路 16通道了,木有显卡,才跑 1 t ...

D4 没前途的,早日上D5,来看看水友前几天发的双路8581c的带宽, 600G+
总体成本也不贵

https://www.chiphell.com/thread-2606946-1-1.html

oolmfoo 发表于 2025-2-12 13:29

msdelphi 发表于 2025-2-12 13:02
epyc 3 平台,671b Q4 如何才能跑到5-6token? 内存有DDR4 3200 640GB,双路 16通道了,木有显卡,才跑 1 t ...

什麼cpu? 會不會只有8 ccd 的cpu才能滿速

装陈醋的酱油瓶 发表于 2025-2-12 13:38

一懒众衫小 发表于 2025-2-11 18:10
确实只需要提高内存的带宽就行了。这是是没想到131g的版本速度比70b还快。 ...

用CPU 跑的话,如果模型不够大,是只会放在某个NUMA节点的内存里的,实际只有几分之一的内存性能

这点牙膏U 要好不少

msdelphi 发表于 2025-2-12 14:51

oolmfoo 发表于 2025-2-12 13:29
什麼cpu? 會不會只有8 ccd 的cpu才能滿速

48核 7R13

msdelphi 发表于 2025-2-12 15:10

KimmyGLM 发表于 2025-2-12 13:14
D4 没前途的,早日上D5,来看看水友前几天发的双路8581c的带宽, 600G+
总体成本也不贵



贵多了,如果是epyc 双路,24通道D5,成本就高好几倍,U也贵得多

KimmyGLM 发表于 2025-2-12 15:14

本帖最后由 KimmyGLM 于 2025-2-12 15:26 编辑

msdelphi 发表于 2025-2-12 15:10
贵多了,如果是epyc 双路,24通道D5,成本就高好几倍,U也贵得多

epyc 有便宜的9554 ES;
五代志强有便宜的8592 QS;
捡垃圾即可

主要价差就是内存条本身而已,但是D5的带宽提升,非常值得稍微多花点钱;
DDR4 RDIMM 插满,稳定在3200频率基本就顶天了,双路的带宽上限300-400G之间 ;
D5 RDIMM 5600起步,好一点的6000也可能;
镁光和老英还有合作的MRDIMM(这个天价,但是以后也许能捡到大船货)

补充一个:论坛还有好多服务器U或者TR pro的评测,D5单路带宽8通道都能200G 起步了,

一懒众衫小 发表于 2025-2-12 15:29

装陈醋的酱油瓶 发表于 2025-2-12 13:38
用CPU 跑的话,如果模型不够大,是只会放在某个NUMA节点的内存里的,实际只有几分之一的内存性能

这点牙 ...

原来如此

我輩樹である 发表于 2025-2-12 15:37

推荐这套。

 单价数量总价
三星/海力士 REGECC DDR5 4800 32GB8202419680
Gigabyte MZ73-LM0820018200
EPYC 9124(4CCD)430028600
金钱豹散热器2902580
鞋盒机箱010
红星R600电源1451145

mdeu 发表于 2025-2-12 15:46

我輩樹である 发表于 2025-2-12 15:37
推荐这套。

[流汗]只看前三行是吧

我輩樹である 发表于 2025-2-12 15:58

mdeu 发表于 2025-2-12 15:46
只看前三行是吧

好钢用在刀刃上。

一懒众衫小 发表于 2025-2-13 14:10

haphaphap 发表于 2025-2-12 09:17
可以试一下KTransformers的方案。

查了一下,现在 KTransformers 还不支持 Q1 的量化,也就是1.58bit暂时没戏,太可惜了,只能继续等待他们的改进。估计推理速度能提升一倍以上吧。

zgpnhhy 发表于 2025-2-13 14:17

如果
9950x
192g内存
4080
1.58bit 有戏吗?

一懒众衫小 发表于 2025-2-14 08:56

zgpnhhy 发表于 2025-2-13 14:17
如果
9950x
192g内存


等 KTransformers 的方案更新吧,你内存比我多64g,显存少8g,预计能比我多18k的上下文长度(我极限是4.5k,我电脑上每多1k长度增加3G内存需求),推理速度不好说,你的内存带宽不知道多少,我的是80G/s。
猜测你现在用llama.cpp的推理速度在4t/s左右(现在llama.cpp方案在大量模型卸载到内存时对显卡利用率几乎为0,只关心显存大小),预计用 KTransformers 更新后支持Q1的方案的话也许能到 7t/s
如果你不追求那么多的 ctx 上下文长度的话,倒是可以尝试1.73bit版本,那个比1.58bit要多需求30G左右的内存,按照这样推算,你能用的ctx上下文长度大概在4k左右,勉强够用了。

nagashinn 发表于 2025-2-14 10:04

让模型飞一会儿。2个月后估计cpu大内存就能干活了,慢点无所谓,7x24跑批就行了

zgpnhhy 发表于 2025-2-14 10:11

一懒众衫小 发表于 2025-2-14 08:56
等 KTransformers 的方案更新吧,你内存比我多64g,显存少8g,预计能比我多18k的上下文长度(我极限是4.5 ...

非常感谢!我研究研究

我輩樹である 发表于 2025-2-14 10:16

ollama今天更新amx支持了。动作挺快。

千古伟人空一格 发表于 2025-2-14 10:17

等9070 32G版本,这卡可能是平民ai的最佳选择了

petruswang 发表于 2025-2-14 23:54

试试这个问题
一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?
答案是杚。。。据说正版4b以下的没一个能答对,能当各种api接口的验证器了。。。
y1s1,deepseek比我强[晕倒]

atlantis414 发表于 2025-2-15 00:36

跑了70b的蒸馏版本

好,我现在需要为上联“三光日月星”找一个合适的下联。首先,理解上联中的每个字,“三”代表数量或多重,“光”指的是光辉、光芒,而“日月星”则分别指代太阳、月亮和星辰,这些都是天体,象征着自然界的光明与力量。整体来看,上联在表达一种宏伟壮丽的景象。

接下来,我需要找到一个下联,在字数、结构和意境上与上联相匹配。通常对仗工整是关键,所以每个词都应有对应的位置。“三光”可以对应“九霄”,这样在数量和词性上形成呼应。“日月星”则需要找到三个同样具有象征意义的元素。

考虑到自然界中除了太阳、月亮和星辰,还有风、雨、雷等元素,它们也是大自然中的重要组成部分。于是,我想到“风雨雷”,这三个词不仅在数量上与“日月星”相匹配,而且在表现自然力量方面也非常契合。

然后,整体组合起来就是“九霄风雨雷”。这样不仅字数对仗工整,而且意境上形成了一种从天空的广阔(九霄)到地球上的自然现象(风雨雷)的递进关系,使整个对联更加丰富和有层次感。

最后,检查一下是否符合对仗要求,每个部分都要在词性、结构上相匹配。“三”对“九”,“光”对“霄”,“日月星”对“风雨雷”。这样不仅保持了数量的一致,也在意象上形成了和谐的呼应。

总结一下,经过分析和思考,我选择“九霄风雨雷”作为下联,既符合字数、结构上的要求,又在意境上与上联相得益彰,整体看起来对仗工整,富有画面感。

下联:九霄风雨雷
我觉得对的不错啊[怪脸]

6892731 发表于 2025-2-15 00:36

本帖最后由 6892731 于 2025-2-15 00:47 编辑

671B 4bit量化还行,可用;max_new_tokens 4000

KimmyGLM 发表于 2025-2-15 00:59

6892731 发表于 2025-2-15 00:36
671B 4bit量化还行,可用;max_new_tokens 4000

啥配置跑的?

一懒众衫小 发表于 2025-2-15 10:00

本帖最后由 一懒众衫小 于 2025-2-15 10:12 编辑

atlantis414 发表于 2025-2-15 00:36
跑了70b的蒸馏版本




看到很多测试,llama 70b 的蒸馏还不如 qwen 32b的,不过这个对联都没答对。
昨天又试了下1.58b,居然还答出 四德元亨利 这样苏轼的神对,只不过又排除了。

一懒众衫小 发表于 2025-2-15 10:02

本帖最后由 一懒众衫小 于 2025-2-15 10:13 编辑

6892731 发表于 2025-2-15 00:36
671B 4bit量化还行,可用;max_new_tokens 4000


你的配置上 KTransformers 有望啊,如果模型大小400g,单个token激活大概是37b,所以单个token需求 37/671*400=22.1G,
所以用 KT 的理论上限能到 内存带宽/22.1 t/s

一懒众衫小 发表于 2025-2-15 10:03

atlantis414 发表于 2025-2-15 00:36
跑了70b的蒸馏版本




哈哈哈,创造性。总比四水江河淮好(济水消失了的意思吧[狂笑])

robles 发表于 2025-2-15 13:58

不用着急,今年之内硬件厂商包括显卡厂商,会出适合的硬件。到时候估计几万就能上速度不错的fp8真正满血版。

网仙 发表于 2025-2-15 15:45

一懒众衫小 发表于 2025-2-15 10:02
你的配置上 KTransformers 有望啊,如果模型大小400g,单个token激活大概是37b,所以单个token需求 37/6 ...

单路至强8通道的内存带宽300G+
差不多有15tk/s的输出能力

双路600多的带宽,理论可以到30输出,可惜目前还没有优化算法,与单路区别不大

fudaming 发表于 2025-2-15 19:36

本帖最后由 fudaming 于 2025-2-15 19:42 编辑

https://www.bilibili.com/video/BV1A3Fje6Ej6
整活可以看看这个,多mac设备组exo集群

目前在找有没有多雷电设备互联的方案,就是超过2个的,类似雷电交换机的概念。

zhanming 发表于 2025-2-17 16:48

请问
epyc 7642 48核心96线程
3090 24GB
DDR4 3200256GB

可以跑吗?

盐湖 发表于 2025-2-17 18:36

pdvc 发表于 2025-2-12 01:01
虚拟内存跑的我之前测过了,就2t/s速度,然后输入token多一点或者多轮次,就卡死在那要很久。

我试过一个 ...

为什么声学问题会成为类似benchmark的存在?求教

pdvc 发表于 2025-2-17 23:51

盐湖 发表于 2025-2-17 18:36
为什么声学问题会成为类似benchmark的存在?求教

涉及到的推理计算过程多一些嘛,输出的token相对也多一些。
页: 1 [2] 3
查看完整版本: 完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡