找回密码
 加入我们
搜索
      
楼主: awpak78

[装机] 半块RTX4090 玩转70B大语言模型

[复制链接]
发表于 2024-7-22 09:36 | 显示全部楼层
搞基薛定谔 发表于 2024-7-22 08:45
家里现在的双4090可以跑 llama3:70b 到16tok/s左右。基本够用了。

m1 ultra 128gb,满载100w,70b 7tok/s,110b 5tok/s
发表于 2024-7-22 09:52 | 显示全部楼层
家用双卡4090 70b模型比如Qwen2和LLaMa3应该都是16~18token/s用LM Studio。

不过我感觉好像这种家用70b应用场景不多,谷歌的Gemma 27b可以单卡4090/3090跑速度很快性能也够用了,需要更高性能肯定直接openai api了。
发表于 2024-7-22 10:18 | 显示全部楼层
fut888 发表于 2024-7-22 09:36
m1 ultra 128gb,满载100w,70b 7tok/s,110b 5tok/s

挺好,过几天弄个m2 ultra试试水。
 楼主| 发表于 2024-7-22 20:07 | 显示全部楼层
pdvc 发表于 2024-7-21 01:08
G-P-T4o mini的API很便宜了,web版也免费了,自己折腾意义不大了......

百度网盘不收费的时候是能跑满100M上下传的
 楼主| 发表于 2024-7-22 20:08 | 显示全部楼层
用户 发表于 2024-7-21 01:37
谁能拿8490H+amx跑一个比比,现在单路8490H好像7000人刀能拿到了

双路8490H功耗高点,但不会有显存焦虑 ...

没有用,DDR5的速度相比HBM就是弟中弟
 楼主| 发表于 2024-7-22 20:09 | 显示全部楼层
搞基薛定谔 发表于 2024-7-22 08:45
家里现在的双4090可以跑 llama3:70b 到16tok/s左右。基本够用了。

把垃圾ollama删了,换vllm速度立马翻倍

评分

参与人数 1邪恶指数 +1 收起 理由
搞基薛定谔 + 1 666

查看全部评分

 楼主| 发表于 2024-7-22 20:12 | 显示全部楼层
赫敏 发表于 2024-7-21 10:47
要不是老黄故意阉割SLI/nvlink哪有这些东西什么事啊。当然老黄也是为了把带nvlink的显卡卖多一位数 ...

nvlink要多卡组成全连接拓扑才有用。

PCIe标卡上面那只支持双卡互联的nvlink金手指基本等于超市里的免费试吃,也就只够尝下味道
 楼主| 发表于 2024-7-22 20:13 | 显示全部楼层
anishieh` 发表于 2024-7-22 09:52
家用双卡4090 70b模型比如Qwen2和LLaMa3应该都是16~18token/s用LM Studio。

不过我感觉好像这种家用70b应 ...

LM Studio的后端就是垃圾llama.cpp
删了换vllm速度立马翻倍
发表于 2024-7-22 23:45 来自手机 | 显示全部楼层
本帖最后由 pdvc 于 2024-7-23 05:33 编辑
awpak78 发表于 2024-7-22 20:07
百度网盘不收费的时候是能跑满100M上下传的


所以我说的mini版啊,如果要用百度产品类比,那也是一刻相册,而不是百度网盘。
发表于 2024-7-24 09:34 | 显示全部楼层
牛掰!!!
发表于 2024-8-13 14:58 | 显示全部楼层
来请教几个问题:1、张量并行奇数张卡行不。2、我目前的配置是2台机子,100g ib网路互联(有大神说2台其实ethernet也差不多延迟,x8槽不够了,只能pcie4.0x4互联,跑个50G)和你的pcie switch比较的话延时和易用性如何,因为要保持4.0x8,我也不想太多卡所以就最多4卡,然后后续更新。3、你的vllm是不是也用的支持pasacal的fork?为啥不用gguf?我也准备再加2张p100,已经有了1张4090。谢谢指教。
 楼主| 发表于 2024-8-13 22:57 | 显示全部楼层
q3again0605 发表于 2024-8-13 14:58
来请教几个问题:1、张量并行奇数张卡行不。2、我目前的配置是2台机子,100g ib网路互联(有大神说2台其实e ...

1. 必须是2^n张显卡
2. 跨节点肯定是流水线并行. 参考vllm文档节点内张量并行, 跨节点流水线并行
3. P100用mlc-llm速度更快, 你要双机分布式那就用vllm

gguf是llama.cpp发明的模型格式, llama.cpp以及调用它的那些乱七八糟的软件(比如ollama)都是纯粹的垃圾.
除了方便移植到各种根本不适合跑LLM的平台上强行演示以便卖货以外, 对于已经有N卡的人来说这就是最慢最垃圾的LLM推理框架.
发表于 2024-8-13 23:16 | 显示全部楼层
awpak78 发表于 2024-8-13 22:57
1. 必须是2^n张显卡
2. 跨节点肯定是流水线并行. 参考vllm文档节点内张量并行, 跨节点流水线并行
3. P100 ...

非常感谢!!!
发表于 2024-11-9 16:03 | 显示全部楼层
awpak78 发表于 2024-7-20 18:27
硬件倒是没什么问题,CPU的ECC和显卡的ECC都没有报错

还是软件的BUG太多了,最近vllm也支持Pascal老卡了 ...

原生还不行,需要自己改一下config然后自己编译一下,还是方便的。我32b 4bit的Qwen2.5试了一下还不错,比4090慢了不到30%。准备4卡+trx40+3960x再玩玩:)
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-11-27 00:04 , Processed in 0.010712 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表