找回密码
 加入我们
搜索
      
查看: 1687|回复: 16

[内存] 傲腾持久内存换llama运行671b 1.58bit版本速度还行

[复制链接]
发表于 2025-2-10 22:30 | 显示全部楼层 |阅读模式
前几天不是发帖吐槽傲腾持久内存用ollama跑70b模型不行吗。今天硬着头皮换llama跑671b 1.58bit版本速度还行,能到1.5tokens,而且回复效果还行。
总结就是可用,比预期的好,比70b(64G内存能跑的最大版本,64g内存有不少人有)、8b(8g显存能跑的最大版本)好不少,70b版本偶尔会胡说八道,比如背书就不行。

运行后台截图:
截屏2025-02-10 22.22.19.png

回复效果与内存占用,用的是傲腾一代128G*2,加6根16G内存,用aida测了下,读取100G/s,写入50G/s。
截屏2025-02-10 22.07.11.png

以下是在线版的普通回复和深度回复:

IMG_1304.PNG
IMG_1305.PNG
IMG_1306.PNG
发表于 2025-2-10 22:53 | 显示全部楼层
跑70B是不是非得64G+内存+16G+显存的搭配?
发表于 2025-2-10 22:56 | 显示全部楼层
tommyli219 发表于 2025-2-10 22:53
跑70B是不是非得64G+内存+16G+显存的搭配?

可以48g显存一步到位
发表于 2025-2-10 22:57 | 显示全部楼层
nepdaisuki 发表于 2025-2-10 22:56
可以48g显存一步到位

没那么多预算,打算本地办公室小规模用用
 楼主| 发表于 2025-2-10 22:57 | 显示全部楼层
tommyli219 发表于 2025-2-10 22:53
跑70B是不是非得64G+内存+16G+显存的搭配?

64G内存就够,显存、显卡要不要无所谓,因为几乎不参与计算,开不开显卡速度没区别,都很慢。
8b可以纯显卡跑,我4060,速度非常快,比人的阅读速度快。
发表于 2025-2-10 22:58 | 显示全部楼层
灰羽利亞 发表于 2025-2-10 22:57
64G内存就够,显存、显卡要不要无所谓,因为几乎不参与计算,开不开显卡速度没区别,都很慢。
8b可以纯显 ...

好的,谢谢。我看看,或者直接9900X+24G*4,
发表于 2025-2-10 22:59 | 显示全部楼层
tommyli219 发表于 2025-2-10 22:58
好的,谢谢。我看看,或者直接9900X+24G*4,

内存,共享内存都快不了,还得是显存
发表于 2025-2-10 23:00 | 显示全部楼层
tommyli219 发表于 2025-2-10 22:53
跑70B是不是非得64G+内存+16G+显存的搭配?

跑什么70B,除非你只是自己玩玩,不然那回答根本没法用
发表于 2025-2-10 23:01 | 显示全部楼层
a010301208 发表于 2025-2-10 23:00
跑什么70B,除非你只是自己玩玩,不然那回答根本没法用

额。。这样啊
 楼主| 发表于 2025-2-10 23:09 | 显示全部楼层

是的,如果专门买设备去跑70b不值得,如果8b的可用度是5%,70b的可用度就是20%,671b 1.58bit量化版的可用度大概70%,在线版大概80%,人类手动网络搜索20分钟大概95%。
 楼主| 发表于 2025-2-10 23:10 | 显示全部楼层
就是内存功耗有点高,6颗16g ddr4 3200跑2666频率,2颗傲腾持久128G跑2666频率,110瓦。
截屏2025-02-10 22.43.24.png
发表于 2025-2-10 23:32 来自手机 | 显示全部楼层
两条傲腾持久内存都可以,那感觉我的mf51-es3可以试试,插8条lrdimm,128G买不起64G还可以试试,512G内存倒是够了671B的显存要求,就是带宽估计不算大
发表于 2025-2-11 00:17 | 显示全部楼层
模型在内存、共享显存里跑的,怕不是不怕卡的。
别说什么8通12通,一样卡的天翻地覆。
内存和显存的带宽效率差距上量级了,cpu并不适用模型计算推理,效率差的一塌糊涂。
别看网上一堆用大内存、cpu跑的,能跑和正常效能状态差距非常非常大。别被带偏乱花银子了。
发表于 2025-2-11 07:12 | 显示全部楼层
跑推理的话,
目测 3090 24g x2 是个不错的选择,1200w电源能搞定,实际总功耗不到1000w,用ddr4平台跑,显存不爆就应该和ddr5没啥区别
发表于 2025-2-11 08:57 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-2-11 09:00 编辑
灰羽利亞 发表于 2025-2-10 22:57
64G内存就够,显存、显卡要不要无所谓,因为几乎不参与计算,开不开显卡速度没区别,都很慢。
8b可以纯显 ...


挺好的,穷鬼入门套餐,超级便宜。

不过遇到长下文,估计就不行了
 楼主| 发表于 2025-2-11 10:31 | 显示全部楼层
KimmyGLM 发表于 2025-2-11 08:57
挺好的,穷鬼入门套餐,超级便宜。

不过遇到长下文,估计就不行了

是的,能跑是0到1的变化,用不用得好就看自己需求了。
现实中有好多事也是交给别人做,要求半小时、1小时、1个工作日出结果,自建AI类似。
发表于 2025-2-11 15:24 | 显示全部楼层
灰羽利亞 发表于 2025-2-10 22:57
64G内存就够,显存、显卡要不要无所谓,因为几乎不参与计算,开不开显卡速度没区别,都很慢。
8b可以纯显 ...

DDR4 内存+显存跑 70B,总计41.5GB占用,约1.9token/s
供参考,几乎不可用。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-21 18:49 , Processed in 0.011901 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表