找回密码
 加入我们
搜索
      
查看: 7247|回复: 16

[显卡] [吐槽]4090涡轮太贵了 另求问用Ptuning训练2张或4张4090能比1张RTX6000ADA快吗?

[复制链接]
发表于 2023-4-19 11:29 | 显示全部楼层 |阅读模式
本帖最后由 godspeed66 于 2023-4-19 11:35 编辑

4090涡轮太贵了 另求问用Ptuning训练2个及以上4090能比1个RTX6000ADA48GB快吗?

本地4090涡轮已经涨到1.75万一张了,而且还是未税的


即使在咸鱼上4090涡轮也要1.5万一张,就咸鱼那个维保服务,还不敢买



另求问用Ptuning训练2张或4张4090,能比1张RTX6000 ADA 48GB快很多吗?  网上有信息说由于4090和RTX6000 ADA不支持NVLINK,某些时候会导致多张训练效果还不如单卡。


目前设置batch_size 24  训练时大约使用45G显存,max_steps 20000 大约需要45个小时,max_steps 2000 大约需要2.1个小时



发表于 2023-4-19 11:39 | 显示全部楼层
能,mini_batch_size设置成12,4卡4090 DDP
发表于 2023-4-19 11:42 来自手机 | 显示全部楼层
4090涡轮质保条例一直在变,之前是可以个人送保去找厂家,现在变成只能去找经销商了。建议如果不是有本地商家认识的话,最好还是不要去闲鱼上买。或者你走闲鱼上商家采购合同买,开票对公。
发表于 2023-4-19 12:10 | 显示全部楼层
是tune哪个模型?我们实验室在玩llama,还没做优化,基本可以跑满4张4090(2张卡一台机器,2台,万兆连接)。

要在这里找到有多块H100/H800的人估计难吧。nvlink主要是改善统一寻址的速度,可以用nv nsight system prof分析一下python代码,看看同步的负载。
 楼主| 发表于 2023-4-19 13:20 | 显示全部楼层
本帖最后由 godspeed66 于 2023-4-19 13:22 编辑
我輩樹である 发表于 2023-4-19 12:10
是tune哪个模型?我们实验室在玩llama,还没做优化,基本可以跑满4张4090(2张卡一台机器,2台,万兆连接) ...


现在用的是chatglm-6b,用官方的ChatGLM-6B/ptuning/ 在训练;

也同步在探索llama。


目前验证结果是具备可玩性,但离最基本的可用还差亿点点距离,初步判断是训练数据不足导致,正在继续增加数据集JSON,为了确保数据集准确目前只能人工处理。


非常感谢大神的你的帮助,等我们的数据集处理完就向4090多卡前进了


再次感谢大神
 楼主| 发表于 2023-4-19 13:22 | 显示全部楼层
ycsos 发表于 2023-4-19 11:39
能,mini_batch_size设置成12,4卡4090 DDP

非常感谢提供参数
发表于 2023-4-19 14:03 | 显示全部楼层
godspeed66 发表于 2023-4-19 13:22
非常感谢提供参数

根据经验,你要是多卡训练的话,单卡能跑起来bs==1的情况下,没有nvlink的情况下,DDP的性能是最好的,因为DDP的反向梯度all reduce是overlap在反向回传里面的。但是如果模型bs==1放不下的话,只能用TP或者PP的话没有nvlink性能会下降很多,因为每次同步都要走pcie,所以还是要看你的模型大小。并且如果模型太大可以看看zero-2
发表于 2023-4-19 15:07 | 显示全部楼层
我们在用A100全NVLINK,多机IB800G互联,跑得飞起

a100.png
发表于 2023-4-19 15:17 | 显示全部楼层
对楼上的机器流下了羡慕的口水。
发表于 2023-4-19 15:17 | 显示全部楼层
问大神们一个问题,如果是做chatglm的ptuning,使用的数据是我们自己的5000条左右的对话,不太考虑时效,一晚上的时间10-12个小时能完成目前都能接受的情况,bs如果调到2或者1,用3080 10g够吗?谢谢
发表于 2023-4-19 15:18 | 显示全部楼层
本帖最后由 kovaakdebil 于 2023-4-19 15:25 编辑

再问问其他服务器商家吧,我问的一个是1.55万未税
发表于 2023-4-19 15:42 | 显示全部楼层
terryhux 发表于 2023-4-19 15:07
我们在用A100全NVLINK,多机IB800G互联,跑得飞起


你司这个是整机采购的么,哪里采的呢,方便PM不。SXM版的机器不太好买的牙子
发表于 2023-4-19 16:09 | 显示全部楼层
我们刚买了4090涡轮 一万七千多含税
发表于 2023-4-19 16:10 来自手机 | 显示全部楼层
上水就是单槽。
 楼主| 发表于 2023-4-21 08:14 | 显示全部楼层
q3again0605 发表于 2023-4-19 15:17
问大神们一个问题,如果是做chatglm的ptuning,使用的数据是我们自己的5000条左右的对话,不太考虑时效,一 ...

chatglm-6B    batch_size 2 ,FP16 非向量模式 ,需要15.4GB显存

预估用int 4  10GB显存能跑,但不建议,本来微调数据集量就小,再量化,不看好效果
 楼主| 发表于 2023-4-21 08:16 | 显示全部楼层
ycsos 发表于 2023-4-19 14:03
根据经验,你要是多卡训练的话,单卡能跑起来bs==1的情况下,没有nvlink的情况下,DDP的性能是最好的,因 ...

学习中,还没接触到你说的参数

发表于 2023-4-21 08:24 | 显示全部楼层
8楼的这是什么神仙配置,好生羡慕~
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-2 20:03 , Processed in 0.012949 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表