KimmyGLM
发表于 2025-2-12 13:14
msdelphi 发表于 2025-2-12 13:02
epyc 3 平台,671b Q4 如何才能跑到5-6token? 内存有DDR4 3200 640GB,双路 16通道了,木有显卡,才跑 1 t ...
D4 没前途的,早日上D5,来看看水友前几天发的双路8581c的带宽, 600G+
总体成本也不贵
https://www.chiphell.com/thread-2606946-1-1.html
oolmfoo
发表于 2025-2-12 13:29
msdelphi 发表于 2025-2-12 13:02
epyc 3 平台,671b Q4 如何才能跑到5-6token? 内存有DDR4 3200 640GB,双路 16通道了,木有显卡,才跑 1 t ...
什麼cpu? 會不會只有8 ccd 的cpu才能滿速
装陈醋的酱油瓶
发表于 2025-2-12 13:38
一懒众衫小 发表于 2025-2-11 18:10
确实只需要提高内存的带宽就行了。这是是没想到131g的版本速度比70b还快。 ...
用CPU 跑的话,如果模型不够大,是只会放在某个NUMA节点的内存里的,实际只有几分之一的内存性能
这点牙膏U 要好不少
msdelphi
发表于 2025-2-12 14:51
oolmfoo 发表于 2025-2-12 13:29
什麼cpu? 會不會只有8 ccd 的cpu才能滿速
48核 7R13
msdelphi
发表于 2025-2-12 15:10
KimmyGLM 发表于 2025-2-12 13:14
D4 没前途的,早日上D5,来看看水友前几天发的双路8581c的带宽, 600G+
总体成本也不贵
贵多了,如果是epyc 双路,24通道D5,成本就高好几倍,U也贵得多
KimmyGLM
发表于 2025-2-12 15:14
本帖最后由 KimmyGLM 于 2025-2-12 15:26 编辑
msdelphi 发表于 2025-2-12 15:10
贵多了,如果是epyc 双路,24通道D5,成本就高好几倍,U也贵得多
epyc 有便宜的9554 ES;
五代志强有便宜的8592 QS;
捡垃圾即可
主要价差就是内存条本身而已,但是D5的带宽提升,非常值得稍微多花点钱;
DDR4 RDIMM 插满,稳定在3200频率基本就顶天了,双路的带宽上限300-400G之间 ;
D5 RDIMM 5600起步,好一点的6000也可能;
镁光和老英还有合作的MRDIMM(这个天价,但是以后也许能捡到大船货)
补充一个:论坛还有好多服务器U或者TR pro的评测,D5单路带宽8通道都能200G 起步了,
一懒众衫小
发表于 2025-2-12 15:29
装陈醋的酱油瓶 发表于 2025-2-12 13:38
用CPU 跑的话,如果模型不够大,是只会放在某个NUMA节点的内存里的,实际只有几分之一的内存性能
这点牙 ...
原来如此
我輩樹である
发表于 2025-2-12 15:37
推荐这套。
单价数量总价
三星/海力士 REGECC DDR5 4800 32GB8202419680
Gigabyte MZ73-LM0820018200
EPYC 9124(4CCD)430028600
金钱豹散热器2902580
鞋盒机箱010
红星R600电源1451145
mdeu
发表于 2025-2-12 15:46
我輩樹である 发表于 2025-2-12 15:37
推荐这套。
[流汗]只看前三行是吧
我輩樹である
发表于 2025-2-12 15:58
mdeu 发表于 2025-2-12 15:46
只看前三行是吧
好钢用在刀刃上。
一懒众衫小
发表于 2025-2-13 14:10
haphaphap 发表于 2025-2-12 09:17
可以试一下KTransformers的方案。
查了一下,现在 KTransformers 还不支持 Q1 的量化,也就是1.58bit暂时没戏,太可惜了,只能继续等待他们的改进。估计推理速度能提升一倍以上吧。
zgpnhhy
发表于 2025-2-13 14:17
如果
9950x
192g内存
4080
1.58bit 有戏吗?
一懒众衫小
发表于 2025-2-14 08:56
zgpnhhy 发表于 2025-2-13 14:17
如果
9950x
192g内存
等 KTransformers 的方案更新吧,你内存比我多64g,显存少8g,预计能比我多18k的上下文长度(我极限是4.5k,我电脑上每多1k长度增加3G内存需求),推理速度不好说,你的内存带宽不知道多少,我的是80G/s。
猜测你现在用llama.cpp的推理速度在4t/s左右(现在llama.cpp方案在大量模型卸载到内存时对显卡利用率几乎为0,只关心显存大小),预计用 KTransformers 更新后支持Q1的方案的话也许能到 7t/s
如果你不追求那么多的 ctx 上下文长度的话,倒是可以尝试1.73bit版本,那个比1.58bit要多需求30G左右的内存,按照这样推算,你能用的ctx上下文长度大概在4k左右,勉强够用了。
nagashinn
发表于 2025-2-14 10:04
让模型飞一会儿。2个月后估计cpu大内存就能干活了,慢点无所谓,7x24跑批就行了
zgpnhhy
发表于 2025-2-14 10:11
一懒众衫小 发表于 2025-2-14 08:56
等 KTransformers 的方案更新吧,你内存比我多64g,显存少8g,预计能比我多18k的上下文长度(我极限是4.5 ...
非常感谢!我研究研究
我輩樹である
发表于 2025-2-14 10:16
ollama今天更新amx支持了。动作挺快。
千古伟人空一格
发表于 2025-2-14 10:17
等9070 32G版本,这卡可能是平民ai的最佳选择了
petruswang
发表于 2025-2-14 23:54
试试这个问题
一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?
答案是杚。。。据说正版4b以下的没一个能答对,能当各种api接口的验证器了。。。
y1s1,deepseek比我强[晕倒]
atlantis414
发表于 2025-2-15 00:36
跑了70b的蒸馏版本
好,我现在需要为上联“三光日月星”找一个合适的下联。首先,理解上联中的每个字,“三”代表数量或多重,“光”指的是光辉、光芒,而“日月星”则分别指代太阳、月亮和星辰,这些都是天体,象征着自然界的光明与力量。整体来看,上联在表达一种宏伟壮丽的景象。
接下来,我需要找到一个下联,在字数、结构和意境上与上联相匹配。通常对仗工整是关键,所以每个词都应有对应的位置。“三光”可以对应“九霄”,这样在数量和词性上形成呼应。“日月星”则需要找到三个同样具有象征意义的元素。
考虑到自然界中除了太阳、月亮和星辰,还有风、雨、雷等元素,它们也是大自然中的重要组成部分。于是,我想到“风雨雷”,这三个词不仅在数量上与“日月星”相匹配,而且在表现自然力量方面也非常契合。
然后,整体组合起来就是“九霄风雨雷”。这样不仅字数对仗工整,而且意境上形成了一种从天空的广阔(九霄)到地球上的自然现象(风雨雷)的递进关系,使整个对联更加丰富和有层次感。
最后,检查一下是否符合对仗要求,每个部分都要在词性、结构上相匹配。“三”对“九”,“光”对“霄”,“日月星”对“风雨雷”。这样不仅保持了数量的一致,也在意象上形成了和谐的呼应。
总结一下,经过分析和思考,我选择“九霄风雨雷”作为下联,既符合字数、结构上的要求,又在意境上与上联相得益彰,整体看起来对仗工整,富有画面感。
下联:九霄风雨雷
我觉得对的不错啊[怪脸]
6892731
发表于 2025-2-15 00:36
本帖最后由 6892731 于 2025-2-15 00:47 编辑
671B 4bit量化还行,可用;max_new_tokens 4000
KimmyGLM
发表于 2025-2-15 00:59
6892731 发表于 2025-2-15 00:36
671B 4bit量化还行,可用;max_new_tokens 4000
啥配置跑的?
一懒众衫小
发表于 2025-2-15 10:00
本帖最后由 一懒众衫小 于 2025-2-15 10:12 编辑
atlantis414 发表于 2025-2-15 00:36
跑了70b的蒸馏版本
看到很多测试,llama 70b 的蒸馏还不如 qwen 32b的,不过这个对联都没答对。
昨天又试了下1.58b,居然还答出 四德元亨利 这样苏轼的神对,只不过又排除了。
一懒众衫小
发表于 2025-2-15 10:02
本帖最后由 一懒众衫小 于 2025-2-15 10:13 编辑
6892731 发表于 2025-2-15 00:36
671B 4bit量化还行,可用;max_new_tokens 4000
你的配置上 KTransformers 有望啊,如果模型大小400g,单个token激活大概是37b,所以单个token需求 37/671*400=22.1G,
所以用 KT 的理论上限能到 内存带宽/22.1 t/s
一懒众衫小
发表于 2025-2-15 10:03
atlantis414 发表于 2025-2-15 00:36
跑了70b的蒸馏版本
哈哈哈,创造性。总比四水江河淮好(济水消失了的意思吧[狂笑])
robles
发表于 2025-2-15 13:58
不用着急,今年之内硬件厂商包括显卡厂商,会出适合的硬件。到时候估计几万就能上速度不错的fp8真正满血版。
网仙
发表于 2025-2-15 15:45
一懒众衫小 发表于 2025-2-15 10:02
你的配置上 KTransformers 有望啊,如果模型大小400g,单个token激活大概是37b,所以单个token需求 37/6 ...
单路至强8通道的内存带宽300G+
差不多有15tk/s的输出能力
双路600多的带宽,理论可以到30输出,可惜目前还没有优化算法,与单路区别不大
fudaming
发表于 2025-2-15 19:36
本帖最后由 fudaming 于 2025-2-15 19:42 编辑
https://www.bilibili.com/video/BV1A3Fje6Ej6
整活可以看看这个,多mac设备组exo集群
目前在找有没有多雷电设备互联的方案,就是超过2个的,类似雷电交换机的概念。
zhanming
发表于 2025-2-17 16:48
请问
epyc 7642 48核心96线程
3090 24GB
DDR4 3200256GB
可以跑吗?
盐湖
发表于 2025-2-17 18:36
pdvc 发表于 2025-2-12 01:01
虚拟内存跑的我之前测过了,就2t/s速度,然后输入token多一点或者多轮次,就卡死在那要很久。
我试过一个 ...
为什么声学问题会成为类似benchmark的存在?求教
pdvc
发表于 2025-2-17 23:51
盐湖 发表于 2025-2-17 18:36
为什么声学问题会成为类似benchmark的存在?求教
涉及到的推理计算过程多一些嘛,输出的token相对也多一些。