wun_008 发表于 2024-5-20 08:55

两个p102-10 能运行14b模型

本帖最后由 wun_008 于 2024-5-20 09:02 编辑

像显存不能叠加,ollama 什么的有没有优化过的多卡协作功能呢? 能流畅跑14b吗?又没有过来人,分享下经验,现在廉价ai服务器怎么玩性价比高一些呢 ?现在p40 都涨到1400了 太夸张,以前200买的 p102-10 现在也380了 再买一个有帮助吗?

zzyzzy0512 发表于 2025-2-15 11:41


搞了两个p102测试了一下,ollama可以叠加,跑qwen2.5-14b基本上6G显存/卡,1.1x4带宽太小导致模型载入时间比较长,载入之后生成速度不算慢


rppr 发表于 2025-2-15 13:44

zzyzzy0512 发表于 2025-2-15 11:41
搞了两个p102测试了一下,ollama可以叠加,跑qwen2.5-14b基本上6G显存/卡,1.1x4带宽太小导致模型载入时间 ...

负载也是双卡平分吗?有没有1卡忙死1卡旁观的情况

zzyzzy0512 发表于 2025-2-15 17:44

rppr 发表于 2025-2-15 13:44
负载也是双卡平分吗?有没有1卡忙死1卡旁观的情况

运行基本上也是平分的,不过p102的带宽影响了生成的速率,双卡基本上都在50%左右,生成率20token/s,基本够用了。要跑32b的话需要4卡,等过几天借了卡再试试。


卡上有双sli接口,但是手边没线,不知道sli接口有没有作用

wun_008 发表于 2025-2-15 19:11

zzyzzy0512 发表于 2025-2-15 17:44
运行基本上也是平分的,不过p102的带宽影响了生成的速率,双卡基本上都在50%左右,生成率20token/s,基本 ...

我已经成功了 慢一些 可以运行 32b 不错

老饭 发表于 2025-2-15 19:12

14b cpu直接跑不就得了

wun_008 发表于 2025-2-15 20:25

老饭 发表于 2025-2-15 19:12
14b cpu直接跑不就得了

我双p102 96g 内存 cpu e5 2698Bv3 跑 70b 一秒钟一个字载入需要8 分钟 太慢了

老饭 发表于 2025-2-15 20:38

wun_008 发表于 2025-2-15 20:25
我双p102 96g 内存 cpu e5 2698Bv3 跑 70b 一秒钟一个字载入需要8 分钟 太慢了

还不如直接接api

wun_008 发表于 2025-2-15 20:56

老饭 发表于 2025-2-15 20:38
还不如直接接api

有时候处理公司文件 不方便 上传云端 咸鱼上买了 200w token 不错 正在使用

Neo_Granzon 发表于 2025-2-15 21:35

新消息,4090D 24GB能跑满血671b的ds模型了。

https://news.mydrivers.com/1/1030/1030487.htm

a010301208 发表于 2025-2-15 21:38

跑个14b搞这么麻烦干什么[偷笑]

wun_008 发表于 2025-2-16 12:14

a010301208 发表于 2025-2-15 21:38
跑个14b搞这么麻烦干什么

现在 ollama 支持分层 跑32b 挺快 70b 还不行

zzyzzy0512 发表于 2025-2-16 12:53

wun_008 发表于 2025-2-15 20:25
我双p102 96g 内存 cpu e5 2698Bv3 跑 70b 一秒钟一个字载入需要8 分钟 太慢了

cpu跑要可用需要d5这一代以上的处理器了,我的二代铂金跑8b都很卡,但是自用的ryzen7950x3d却很流畅

rppr 发表于 2025-2-16 13:03

zzyzzy0512 发表于 2025-2-15 17:44
运行基本上也是平分的,不过p102的带宽影响了生成的速率,双卡基本上都在50%左右,生成率20token/s,基本 ...

收到!看来14b用2块P104是可以的
页: [1]
查看完整版本: 两个p102-10 能运行14b模型