kingofgu
发表于 2025-2-14 06:18
xjr12000 发表于 2025-2-14 01:20
机器的配置和对应的模型规模如图
这是清华的一个项目,目前大大降低了对显卡和显存的要求 ...
绝望中给了intel一条活路 AMX指令集
xywjlidi
发表于 2025-2-14 08:48
xjr12000 发表于 2025-2-14 01:12
效率比ollama高的多的方式
机器配置要求也降低了不少
目前可以跑到13.9token
13.9是Q4的速度,Q8的速度原文写着会减半。等于跟全CPU跑的速度一样啊[流泪]
buliaoyin
发表于 2025-2-20 16:11
chip_discovery 发表于 2025-2-13 21:10
epyc 9565 内存带宽 576 GB/s,单路如果跑1.58-bit的671B模型的话,内存带宽限制下的token上限也就 576/1 ...
不是这个算法,MoE模型单token激活数量不是全部,按论文中的说法,每个token的激活量是37B,8bit下576GB/s的上限是15.6, 4bit是31.1, 2bit是62.3