[吐槽]4090涡轮太贵了另求问用Ptuning训练2张或4张4090能比1张RTX6000ADA快吗？

godspeed66 · 发表于 2023-4-19 11:29

本帖最后由 godspeed66 于 2023-4-19 11:35 编辑

4090涡轮太贵了另求问用Ptuning训练2个及以上4090能比1个RTX6000ADA48GB快吗？

本地4090涡轮已经涨到1.75万一张了，而且还是未税的

即使在咸鱼上4090涡轮也要1.5万一张，就咸鱼那个维保服务，还不敢买

另求问用Ptuning训练2张或4张4090，能比1张RTX6000 ADA 48GB快很多吗？网上有信息说由于4090和RTX6000 ADA不支持NVLINK，某些时候会导致多张训练效果还不如单卡。

目前设置batch_size 24 训练时大约使用45G显存，max_steps 20000 大约需要45个小时，max_steps 2000 大约需要2.1个小时

ycsos · 发表于 2023-4-19 11:39

能，mini_batch_size设置成12,4卡4090 DDP

BFG9K · 发表于 2023-4-19 11:42

4090涡轮质保条例一直在变，之前是可以个人送保去找厂家，现在变成只能去找经销商了。建议如果不是有本地商家认识的话，最好还是不要去闲鱼上买。或者你走闲鱼上商家采购合同买，开票对公。

我輩樹である · 发表于 2023-4-19 12:10

是tune哪个模型？我们实验室在玩llama，还没做优化，基本可以跑满4张4090（2张卡一台机器，2台，万兆连接）。

要在这里找到有多块H100/H800的人估计难吧。nvlink主要是改善统一寻址的速度，可以用nv nsight system prof分析一下python代码，看看同步的负载。

godspeed66 · 发表于 2023-4-19 13:20

本帖最后由 godspeed66 于 2023-4-19 13:22 编辑

我輩樹である发表于 2023-4-19 12:10
是tune哪个模型？我们实验室在玩llama，还没做优化，基本可以跑满4张4090（2张卡一台机器，2台，万兆连接） ...

现在用的是chatglm-6b，用官方的ChatGLM-6B/ptuning/ 在训练；

也同步在探索llama。

目前验证结果是具备可玩性，但离最基本的可用还差亿点点距离，初步判断是训练数据不足导致，正在继续增加数据集JSON，为了确保数据集准确目前只能人工处理。

非常感谢大神的你的帮助，等我们的数据集处理完就向4090多卡前进了

再次感谢大神

godspeed66 · 发表于 2023-4-19 13:22

ycsos 发表于 2023-4-19 11:39
能，mini_batch_size设置成12,4卡4090 DDP

非常感谢提供参数

ycsos · 发表于 2023-4-19 14:03

godspeed66 发表于 2023-4-19 13:22
非常感谢提供参数

根据经验，你要是多卡训练的话，单卡能跑起来bs==1的情况下，没有nvlink的情况下，DDP的性能是最好的，因为DDP的反向梯度all reduce是overlap在反向回传里面的。但是如果模型bs==1放不下的话，只能用TP或者PP的话没有nvlink性能会下降很多，因为每次同步都要走pcie，所以还是要看你的模型大小。并且如果模型太大可以看看zero-2

terryhux · 发表于 2023-4-19 15:07

我们在用A100全NVLINK，多机IB800G互联，跑得飞起

pmax · 发表于 2023-4-19 15:17

对楼上的机器流下了羡慕的口水。

q3again0605 · 发表于 2023-4-19 15:17

问大神们一个问题，如果是做chatglm的ptuning，使用的数据是我们自己的5000条左右的对话，不太考虑时效，一晚上的时间10-12个小时能完成目前都能接受的情况，bs如果调到2或者1，用3080 10g够吗？谢谢

kovaakdebil · 发表于 2023-4-19 15:18

本帖最后由 kovaakdebil 于 2023-4-19 15:25 编辑

再问问其他服务器商家吧，我问的一个是1.55万未税

Jasion · 发表于 2023-4-19 15:42

terryhux 发表于 2023-4-19 15:07
我们在用A100全NVLINK，多机IB800G互联，跑得飞起

你司这个是整机采购的么，哪里采的呢，方便PM不。SXM版的机器不太好买的牙子

奥特曼没有童年 · 发表于 2023-4-19 16:09

我们刚买了4090涡轮一万七千多含税

issues · 发表于 2023-4-19 16:10

上水就是单槽。

godspeed66 · 发表于 2023-4-21 08:14

q3again0605 发表于 2023-4-19 15:17
问大神们一个问题，如果是做chatglm的ptuning，使用的数据是我们自己的5000条左右的对话，不太考虑时效，一 ...

chatglm-6B batch_size 2 ，FP16 非向量模式，需要15.4GB显存

预估用int 4 10GB显存能跑，但不建议，本来微调数据集量就小，再量化，不看好效果

godspeed66 · 发表于 2023-4-21 08:16

ycsos 发表于 2023-4-19 14:03
根据经验，你要是多卡训练的话，单卡能跑起来bs==1的情况下，没有nvlink的情况下，DDP的性能是最好的，因 ...

学习中，还没接触到你说的参数

liu3yang3715 · 发表于 2023-4-21 08:24

8楼的这是什么神仙配置，好生羡慕~

账号		自动登录	找回密码
密码			加入我们

[显卡] [吐槽]4090涡轮太贵了 另求问用Ptuning训练2张或4张4090能比1张RTX6000ADA快吗？

[显卡] [吐槽]4090涡轮太贵了另求问用Ptuning训练2张或4张4090能比1张RTX6000ADA快吗？