傲腾持久内存换llama运行671b 1.58bit版本速度还行

灰羽利亞 发表于 2025-2-10 22:30

前几天不是发帖吐槽傲腾持久内存用ollama跑70b模型不行吗。今天硬着头皮换llama跑671b 1.58bit版本速度还行，能到1.5tokens，而且回复效果还行。
总结就是可用，比预期的好，比70b（64G内存能跑的最大版本，64g内存有不少人有）、8b（8g显存能跑的最大版本）好不少，70b版本偶尔会胡说八道，比如背书就不行。

运行后台截图：

回复效果与内存占用，用的是傲腾一代128G*2，加6根16G内存，用aida测了下，读取100G/s，写入50G/s。

以下是在线版的普通回复和深度回复：

tommyli219 发表于 2025-2-10 22:53

跑70B是不是非得64G+内存+16G+显存的搭配？

nepdaisuki 发表于 2025-2-10 22:56

tommyli219 发表于 2025-2-10 22:53
跑70B是不是非得64G+内存+16G+显存的搭配？

可以48g显存一步到位

tommyli219 发表于 2025-2-10 22:57

nepdaisuki 发表于 2025-2-10 22:56
可以48g显存一步到位

没那么多预算，打算本地办公室小规模用用

灰羽利亞 发表于 2025-2-10 22:57

tommyli219 发表于 2025-2-10 22:53
跑70B是不是非得64G+内存+16G+显存的搭配？

64G内存就够，显存、显卡要不要无所谓，因为几乎不参与计算，开不开显卡速度没区别，都很慢。
8b可以纯显卡跑，我4060，速度非常快，比人的阅读速度快。

tommyli219 发表于 2025-2-10 22:58

灰羽利亞发表于 2025-2-10 22:57
64G内存就够，显存、显卡要不要无所谓，因为几乎不参与计算，开不开显卡速度没区别，都很慢。
8b可以纯显 ...

好的，谢谢。我看看，或者直接9900X+24G*4，

nepdaisuki 发表于 2025-2-10 22:59

tommyli219 发表于 2025-2-10 22:58
好的，谢谢。我看看，或者直接9900X+24G*4，

内存，共享内存都快不了，还得是显存

a010301208 发表于 2025-2-10 23:00

tommyli219 发表于 2025-2-10 22:53
跑70B是不是非得64G+内存+16G+显存的搭配？

跑什么70B，除非你只是自己玩玩，不然那回答根本没法用

tommyli219 发表于 2025-2-10 23:01

a010301208 发表于 2025-2-10 23:00
跑什么70B，除非你只是自己玩玩，不然那回答根本没法用

额。。这样啊

灰羽利亞 发表于 2025-2-10 23:09

tommyli219 发表于 2025-2-10 23:01
额。。这样啊

是的，如果专门买设备去跑70b不值得，如果8b的可用度是5%，70b的可用度就是20%，671b 1.58bit量化版的可用度大概70%，在线版大概80%，人类手动网络搜索20分钟大概95%。

灰羽利亞 发表于 2025-2-10 23:10

就是内存功耗有点高，6颗16g ddr4 3200跑2666频率，2颗傲腾持久128G跑2666频率，110瓦。

chip_discovery 发表于 2025-2-10 23:32

两条傲腾持久内存都可以，那感觉我的mf51-es3可以试试，插8条lrdimm，128G买不起64G还可以试试，512G内存倒是够了671B的显存要求，就是带宽估计不算大

zerozerone 发表于 2025-2-11 00:17

模型在内存、共享显存里跑的，怕不是不怕卡的。
别说什么8通12通，一样卡的天翻地覆。
内存和显存的带宽效率差距上量级了，cpu并不适用模型计算推理，效率差的一塌糊涂。
别看网上一堆用大内存、cpu跑的，能跑和正常效能状态差距非常非常大。别被带偏乱花银子了。

nagashinn 发表于 2025-2-11 07:12

跑推理的话，
目测 3090 24g x2 是个不错的选择，1200w电源能搞定，实际总功耗不到1000w，用ddr4平台跑，显存不爆就应该和ddr5没啥区别

KimmyGLM 发表于 2025-2-11 08:57

本帖最后由 KimmyGLM 于 2025-2-11 09:00 编辑

灰羽利亞发表于 2025-2-10 22:57
64G内存就够，显存、显卡要不要无所谓，因为几乎不参与计算，开不开显卡速度没区别，都很慢。
8b可以纯显 ...

挺好的，穷鬼入门套餐，超级便宜。

不过遇到长下文，估计就不行了

灰羽利亞 发表于 2025-2-11 10:31

KimmyGLM 发表于 2025-2-11 08:57
挺好的，穷鬼入门套餐，超级便宜。

不过遇到长下文，估计就不行了

是的，能跑是0到1的变化，用不用得好就看自己需求了。
现实中有好多事也是交给别人做，要求半小时、1小时、1个工作日出结果，自建AI类似。

TincoJ 发表于 2025-2-11 15:24

灰羽利亞发表于 2025-2-10 22:57
64G内存就够，显存、显卡要不要无所谓，因为几乎不参与计算，开不开显卡速度没区别，都很慢。
8b可以纯显 ...

DDR4 内存+显存跑 70B，总计41.5GB占用，约1.9token/s
供参考，几乎不可用。[生病]

页: [1]

Chiphell - 分享与交流用户体验's Archiver

傲腾持久内存换llama运行671b 1.58bit版本速度还行