找回密码
 加入我们
搜索
      
楼主: kingofgu

[CPU] 这个双路epyc本地部署完整650b R1的有搞头啊

[复制链接]
 楼主| 发表于 2025-2-14 06:18 | 显示全部楼层
xjr12000 发表于 2025-2-14 01:20
机器的配置和对应的模型规模如图
这是清华的一个项目,目前大大降低了对显卡和显存的要求 ...

绝望中给了intel一条活路 AMX指令集
发表于 2025-2-14 08:48 | 显示全部楼层
xjr12000 发表于 2025-2-14 01:12
效率比ollama高的多的方式
机器配置要求也降低了不少
目前可以跑到13.9token

13.9是Q4的速度,Q8的速度原文写着会减半。等于跟全CPU跑的速度一样啊
发表于 2025-2-20 16:11 | 显示全部楼层
chip_discovery 发表于 2025-2-13 21:10
epyc 9565 内存带宽 576 GB/s,单路如果跑1.58-bit的671B模型的话,内存带宽限制下的token上限也就 576/1 ...

不是这个算法,MoE模型单token激活数量不是全部,按论文中的说法,每个token的激活量是37B,8bit下576GB/s的上限是15.6, 4bit是31.1, 2bit是62.3
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-21 18:29 , Processed in 0.008308 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表