kingofgu 发表于 2025-2-14 06:18

xjr12000 发表于 2025-2-14 01:20
机器的配置和对应的模型规模如图
这是清华的一个项目,目前大大降低了对显卡和显存的要求 ...

绝望中给了intel一条活路 AMX指令集

xywjlidi 发表于 2025-2-14 08:48

xjr12000 发表于 2025-2-14 01:12
效率比ollama高的多的方式
机器配置要求也降低了不少
目前可以跑到13.9token

13.9是Q4的速度,Q8的速度原文写着会减半。等于跟全CPU跑的速度一样啊[流泪]

buliaoyin 发表于 2025-2-20 16:11

chip_discovery 发表于 2025-2-13 21:10
epyc 9565 内存带宽 576 GB/s,单路如果跑1.58-bit的671B模型的话,内存带宽限制下的token上限也就 576/1 ...

不是这个算法,MoE模型单token激活数量不是全部,按论文中的说法,每个token的激活量是37B,8bit下576GB/s的上限是15.6, 4bit是31.1, 2bit是62.3
页: 1 2 [3]
查看完整版本: 这个双路epyc本地部署完整650b R1的有搞头啊