两个p102-10 能运行14b模型

wun_008 发表于 2024-5-20 08:55

本帖最后由 wun_008 于 2024-5-20 09:02 编辑

像显存不能叠加，ollama 什么的有没有优化过的多卡协作功能呢？能流畅跑14b吗？又没有过来人，分享下经验，现在廉价ai服务器怎么玩性价比高一些呢？现在p40 都涨到1400了太夸张，以前200买的 p102-10 现在也380了再买一个有帮助吗？

zzyzzy0512 发表于 2025-2-15 11:41

搞了两个p102测试了一下，ollama可以叠加，跑qwen2.5-14b基本上6G显存/卡，1.1x4带宽太小导致模型载入时间比较长，载入之后生成速度不算慢

rppr 发表于 2025-2-15 13:44

zzyzzy0512 发表于 2025-2-15 11:41
搞了两个p102测试了一下，ollama可以叠加，跑qwen2.5-14b基本上6G显存/卡，1.1x4带宽太小导致模型载入时间 ...

负载也是双卡平分吗？有没有1卡忙死1卡旁观的情况

zzyzzy0512 发表于 2025-2-15 17:44

rppr 发表于 2025-2-15 13:44
负载也是双卡平分吗？有没有1卡忙死1卡旁观的情况

运行基本上也是平分的，不过p102的带宽影响了生成的速率，双卡基本上都在50%左右，生成率20token/s，基本够用了。要跑32b的话需要4卡，等过几天借了卡再试试。

卡上有双sli接口，但是手边没线，不知道sli接口有没有作用

wun_008 发表于 2025-2-15 19:11

zzyzzy0512 发表于 2025-2-15 17:44
运行基本上也是平分的，不过p102的带宽影响了生成的速率，双卡基本上都在50%左右，生成率20token/s，基本 ...

我已经成功了慢一些可以运行 32b 不错

老饭发表于 2025-2-15 19:12

14b cpu直接跑不就得了

wun_008 发表于 2025-2-15 20:25

老饭发表于 2025-2-15 19:12
14b cpu直接跑不就得了

我双p102 96g 内存 cpu e5 2698Bv3 跑 70b 一秒钟一个字载入需要8 分钟太慢了

老饭发表于 2025-2-15 20:38

wun_008 发表于 2025-2-15 20:25
我双p102 96g 内存 cpu e5 2698Bv3 跑 70b 一秒钟一个字载入需要8 分钟太慢了

还不如直接接api

wun_008 发表于 2025-2-15 20:56

老饭发表于 2025-2-15 20:38
还不如直接接api

有时候处理公司文件不方便上传云端咸鱼上买了 200w token 不错正在使用

Neo_Granzon 发表于 2025-2-15 21:35

新消息，4090D 24GB能跑满血671b的ds模型了。

https://news.mydrivers.com/1/1030/1030487.htm

a010301208 发表于 2025-2-15 21:38

跑个14b搞这么麻烦干什么[偷笑]

wun_008 发表于 2025-2-16 12:14

a010301208 发表于 2025-2-15 21:38
跑个14b搞这么麻烦干什么

现在 ollama 支持分层跑32b 挺快 70b 还不行

zzyzzy0512 发表于 2025-2-16 12:53

wun_008 发表于 2025-2-15 20:25
我双p102 96g 内存 cpu e5 2698Bv3 跑 70b 一秒钟一个字载入需要8 分钟太慢了

cpu跑要可用需要d5这一代以上的处理器了，我的二代铂金跑8b都很卡，但是自用的ryzen7950x3d却很流畅

rppr 发表于 2025-2-16 13:03

zzyzzy0512 发表于 2025-2-15 17:44
运行基本上也是平分的，不过p102的带宽影响了生成的速率，双卡基本上都在50%左右，生成率20token/s，基本 ...

收到！看来14b用2块P104是可以的

页: [1]

Chiphell - 分享与交流用户体验's Archiver

两个p102-10 能运行14b模型