傲腾持久内存换llama运行671b 1.58bit版本速度还行
前几天不是发帖吐槽傲腾持久内存用ollama跑70b模型不行吗。今天硬着头皮换llama跑671b 1.58bit版本速度还行,能到1.5tokens,而且回复效果还行。总结就是可用,比预期的好,比70b(64G内存能跑的最大版本,64g内存有不少人有)、8b(8g显存能跑的最大版本)好不少,70b版本偶尔会胡说八道,比如背书就不行。
运行后台截图:
回复效果与内存占用,用的是傲腾一代128G*2,加6根16G内存,用aida测了下,读取100G/s,写入50G/s。
以下是在线版的普通回复和深度回复:
跑70B是不是非得64G+内存+16G+显存的搭配? tommyli219 发表于 2025-2-10 22:53
跑70B是不是非得64G+内存+16G+显存的搭配?
可以48g显存一步到位 nepdaisuki 发表于 2025-2-10 22:56
可以48g显存一步到位
没那么多预算,打算本地办公室小规模用用 tommyli219 发表于 2025-2-10 22:53
跑70B是不是非得64G+内存+16G+显存的搭配?
64G内存就够,显存、显卡要不要无所谓,因为几乎不参与计算,开不开显卡速度没区别,都很慢。
8b可以纯显卡跑,我4060,速度非常快,比人的阅读速度快。 灰羽利亞 发表于 2025-2-10 22:57
64G内存就够,显存、显卡要不要无所谓,因为几乎不参与计算,开不开显卡速度没区别,都很慢。
8b可以纯显 ...
好的,谢谢。我看看,或者直接9900X+24G*4, tommyli219 发表于 2025-2-10 22:58
好的,谢谢。我看看,或者直接9900X+24G*4,
内存,共享内存都快不了,还得是显存 tommyli219 发表于 2025-2-10 22:53
跑70B是不是非得64G+内存+16G+显存的搭配?
跑什么70B,除非你只是自己玩玩,不然那回答根本没法用 a010301208 发表于 2025-2-10 23:00
跑什么70B,除非你只是自己玩玩,不然那回答根本没法用
额。。这样啊 tommyli219 发表于 2025-2-10 23:01
额。。这样啊
是的,如果专门买设备去跑70b不值得,如果8b的可用度是5%,70b的可用度就是20%,671b 1.58bit量化版的可用度大概70%,在线版大概80%,人类手动网络搜索20分钟大概95%。 就是内存功耗有点高,6颗16g ddr4 3200跑2666频率,2颗傲腾持久128G跑2666频率,110瓦。
两条傲腾持久内存都可以,那感觉我的mf51-es3可以试试,插8条lrdimm,128G买不起64G还可以试试,512G内存倒是够了671B的显存要求,就是带宽估计不算大 模型在内存、共享显存里跑的,怕不是不怕卡的。
别说什么8通12通,一样卡的天翻地覆。
内存和显存的带宽效率差距上量级了,cpu并不适用模型计算推理,效率差的一塌糊涂。
别看网上一堆用大内存、cpu跑的,能跑和正常效能状态差距非常非常大。别被带偏乱花银子了。 跑推理的话,
目测 3090 24g x2 是个不错的选择,1200w电源能搞定,实际总功耗不到1000w,用ddr4平台跑,显存不爆就应该和ddr5没啥区别 本帖最后由 KimmyGLM 于 2025-2-11 09:00 编辑
灰羽利亞 发表于 2025-2-10 22:57
64G内存就够,显存、显卡要不要无所谓,因为几乎不参与计算,开不开显卡速度没区别,都很慢。
8b可以纯显 ...
挺好的,穷鬼入门套餐,超级便宜。
不过遇到长下文,估计就不行了 KimmyGLM 发表于 2025-2-11 08:57
挺好的,穷鬼入门套餐,超级便宜。
不过遇到长下文,估计就不行了
是的,能跑是0到1的变化,用不用得好就看自己需求了。
现实中有好多事也是交给别人做,要求半小时、1小时、1个工作日出结果,自建AI类似。 灰羽利亞 发表于 2025-2-10 22:57
64G内存就够,显存、显卡要不要无所谓,因为几乎不参与计算,开不开显卡速度没区别,都很慢。
8b可以纯显 ...
DDR4 内存+显存跑 70B,总计41.5GB占用,约1.9token/s
供参考,几乎不可用。[生病]
页:
[1]