这个双路epyc本地部署完整650b R1的有搞头啊 - 第3页 - 电脑讨论(新) - Chiphell - 分享与交流用户体验

kingofgu 发表于 2025-2-14 06:18

xjr12000 发表于 2025-2-14 01:20
机器的配置和对应的模型规模如图
这是清华的一个项目，目前大大降低了对显卡和显存的要求 ...

绝望中给了intel一条活路 AMX指令集

xywjlidi 发表于 2025-2-14 08:48

xjr12000 发表于 2025-2-14 01:12
效率比ollama高的多的方式
机器配置要求也降低了不少
目前可以跑到13.9token

13.9是Q4的速度，Q8的速度原文写着会减半。等于跟全CPU跑的速度一样啊[流泪]

buliaoyin 发表于 2025-2-20 16:11

chip_discovery 发表于 2025-2-13 21:10
epyc 9565 内存带宽 576 GB/s，单路如果跑1.58-bit的671B模型的话，内存带宽限制下的token上限也就 576/1 ...

不是这个算法，MoE模型单token激活数量不是全部，按论文中的说法，每个token的激活量是37B，8bit下576GB/s的上限是15.6, 4bit是31.1, 2bit是62.3

页: 1 2 [3]

Chiphell - 分享与交流用户体验's Archiver