找回密码
 加入我们
搜索
      
查看: 58858|回复: 60

[显卡] 4090比A6000能差多少?

[复制链接]
发表于 2023-5-10 16:59 | 显示全部楼层 |阅读模式
个人的私有LLM,加偶尔stable diffusion。
是否有必要上A6000?因为vicuna这类资源消耗还挺大的。
还是说4090就够用了?
发表于 2023-5-10 17:02 | 显示全部楼层
感觉4090就够了
发表于 2023-5-10 17:08 来自手机 | 显示全部楼层
除了显存大,带ecc,其他跟游戏卡没区别
用得上大显存就买呗
发表于 2023-5-10 17:08 | 显示全部楼层
私以为lz要看自己的丹会不会经常cuda is out of memory喜报。如果是,6000ADA走起,如果24g能搞定一切,4090超频炼丹解决,无非就是散热再强化一下。另外,L40也可以考虑一下啊,还带视频接口的
发表于 2023-5-10 17:11 | 显示全部楼层
你说的是6000 ada吧
发表于 2023-5-10 17:15 | 显示全部楼层
本帖最后由 welsmann 于 2023-5-10 17:16 编辑

我也认为lz可能指代的是6000 ADA/L40这个AD102满血卡。另外炼丹可能涉及nvlink显存池。如果钱不是问题我觉得走6000ADA是可行的。但是A6000呢,除了显存没法和4090比性能。但是吧,同代之内比较就好像2080ti和rtx8000,3090ti和A6000,1080ti和P40/P6000的关系那样。
发表于 2023-5-10 17:27 | 显示全部楼层
你如果要正经训练大模型,那么一张显卡是完全不够的,还要很久很久,还会失败。这种必须是nvlink的一堆显卡。

如果是使用,出图片,那么其实重要的是投机取巧。一次性出一张高清图片并且成功,是不可能的。正确用法是训练一堆小模型,拿来一块块打补丁。脸的模型画脸,手的模型画手,物件的模型画物件。
发表于 2023-5-10 17:46 来自手机 | 显示全部楼层
solder 发表于 2023-5-10 17:08
除了显存大,带ecc,其他跟游戏卡没区别
用得上大显存就买呗

4090的显存也能开ECC
发表于 2023-5-10 19:44 | 显示全部楼层
不如租服务器了,贼便宜,除非你有保密需求
发表于 2023-5-11 00:56 | 显示全部楼层
LLM,后期nv link的干活?
 楼主| 发表于 2023-5-11 08:51 | 显示全部楼层
黑白音符 发表于 2023-5-10 19:44
不如租服务器了,贼便宜,除非你有保密需求

没有保密要求就直接用**4了
发表于 2023-5-11 12:18 | 显示全部楼层
正儿八经训练还是要上专业卡,4090这种显存不够
发表于 2023-5-11 13:46 | 显示全部楼层
我最近做片子会感觉显存不太够用,24G还是有点少,稍微浪一点就爆显存,下次升级显卡我必然瞄着A6000这种了
发表于 2023-5-12 14:11 | 显示全部楼层
welsmann 发表于 2023-5-10 17:08
私以为lz要看自己的丹会不会经常cuda is out of memory喜报。如果是,6000ADA走起,如果24g能搞定一切,409 ...

L40这东西也没散热风扇,是放在机架上用的吗
对个人好不友好啊。。。
发表于 2023-5-12 14:16 | 显示全部楼层
你说的是6000 ada吧?

A6000除了大显存其他完完全全不如4090了
发表于 2023-5-12 15:08 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2023-5-13 11:23 | 显示全部楼层
黑白音符 发表于 2023-5-10 19:44
不如租服务器了,贼便宜,除非你有保密需求

能多说两句么?
发表于 2023-5-13 11:33 来自手机 | 显示全部楼层
需要计算A6000一步到位,游戏卡压根不用考虑
发表于 2023-5-13 11:33 | 显示全部楼层
微信图片_20230513113226.jpg
发表于 2023-5-13 12:47 | 显示全部楼层
RTX 4090 24GB 与 RTX 6000 ADA 48GB都在用

SD炼丹速度一致,未见明显差异

ChatGLM-6B ptuning 微调 ,--max_source_length 256 --max_target_length 256参数,未见明显差异,但RTX 4090 24GB可以用到400W功耗(水神的TDP是530W),速度略快,非常静音;RTX 6000 ADA 48GB 的TDP只有300W。


从4月23至5月13的状态:

1.语言大模型调试

     MOSS全参数调试,RTX 4090 24GB 失败;RTX 6000 ADA 48GB WSL爆64GB内存,暂没爆显存,等待更换LINUX系统再测试(求推荐128GB内存以上,能安装RTX 6000 ADA 的迷你工作站);

     ChatGLM-6B ptuning ,RTX 4090 24GB最大设置--max_source_length 256 --max_target_length 256 ,RTX 6000 ADA 48GB -max_source_length 768 --max_target_length 768 ,两张卡的输入输出都太短,方案写作训练失去意义,但RTX 6000 ADA 48GB可以用于回答简练的客服系统和知识库索引的训练

2.模型推理使用

      MOSS ,RTX 4090 24GB fp16单卡失败,INT4能用,几轮对话后爆显存;RTX 6000 ADA 48GB  fp16单卡运行正常;

      ChatGLM-6B ,RTX 4090 24GB 与 RTX 6000 ADA 48GB 都能正常在单卡下运行


语言大模型, 玩的话4090非常够了。

发表于 2023-5-14 05:30 | 显示全部楼层
godspeed66 发表于 2023-5-13 12:47
RTX 4090 24GB 与 RTX 6000 ADA 48GB都在用

SD炼丹速度一致,未见明显差异;

前辈,请问您提及的这几项4090单卡失败的项目,如果使用双卡或三卡4090能够改变结果吗?就是已知4090确实不能nvlink的情况下,如果使用多卡,对于这类需求会有转机吗?
发表于 2023-5-14 05:53 | 显示全部楼层
盐湖 发表于 2023-5-14 05:30
前辈,请问您提及的这几项4090单卡失败的项目,如果使用双卡或三卡4090能够改变结果吗?就是已知4090确实 ...


考虑多卡的话6000ada一样没有nvlink, 都是走pcie互联, 只是4090砍了p2p互联要过host, 对rc压力比较大
发表于 2023-5-14 09:43 | 显示全部楼层
我觉得4090足够了。
发表于 2023-5-14 10:16 来自手机 | 显示全部楼层
mark关注一下,也打算入手显卡自学炼丹。
发表于 2023-5-14 13:04 | 显示全部楼层
zhuifeng88 发表于 2023-5-14 05:53
考虑多卡的话6000ada一样没有nvlink, 都是走pcie互联, 只是4090砍了p2p互联要过host, 对rc压力比较大 ...

好的,感谢!
发表于 2023-5-14 17:48 | 显示全部楼层
本帖最后由 godspeed66 于 2023-5-16 22:40 编辑
盐湖 发表于 2023-5-14 05:30
前辈,请问您提及的这几项4090单卡失败的项目,如果使用双卡或三卡4090能够改变结果吗?就是已知4090确实 ...


推理卡多卡收益是一定的,至少显存够大啦,模型放的下了

多卡性能可以提高多少不一定,即使多张A100也不能线性提高性能,而且既然是讨论4090和RTX A6000ADA那么团队资金也不能与企业级的计算卡(H100、A100)比较,这也就无所谓了


在实际案例中配置4卡甚至8卡4090涡轮版的人有很多,取决于干什么用(智慧停车都是大土豪啊 ),看代码怎么跑


就目前nVidia 的策略来看, 超出RTX4090 *2 将很难获得收益

525.105.17及以后的驱动能运行双卡RTX4090,Torch DDP 能工作

我们寄希望于哪位大神能泄露出支持P2P的驱动,因为RTX6000 ADA支持P2P

或者寄希望于RTX4090 有48GB显存


因为NVLINK和P2P最终性能瓶颈是整个系统(决策、代码水平、算法、物理环境等等),所以对于小微团队和个人而言,预研&学习用途,3-4万元的RTX4090*2应该是个很好的选择,5万一张的RTX6000 ADA单卡能省很多时间,或者5.5万2张RTX A6000 48GB我也很看好,再往上硬件系统成本就会以指数级上升至大约80~250万元。

以上供参考,我正好也准备升级系统 ,也在纠结中,不知道后续是4090多卡、RTX A6000  48GB 多卡双卡, 还是RTX6000ADA*2
发表于 2023-5-15 05:12 | 显示全部楼层
godspeed66 发表于 2023-5-14 17:48
推理卡多卡收益是一定的,至少显存够大啦,模型放的下了

多卡性能可以提高多少不一定,即使多张A ...

谢谢您的细致解答!我就按您说的瞄准这三种方案做准备了同时期待一下您的后续
发表于 2023-5-15 05:26 | 显示全部楼层
welsmann 发表于 2023-5-10 17:08
私以为lz要看自己的丹会不会经常cuda is out of memory喜报。如果是,6000ADA走起,如果24g能搞定一切,409 ...

好奇l40算是个机房版本的a6000 ada吗
发表于 2023-5-15 05:28 | 显示全部楼层
godspeed66 发表于 2023-5-14 17:48
推理卡多卡收益是一定的,至少显存够大啦,模型放的下了

多卡性能可以提高多少不一定,即使多张A ...

显存要求高两张RTX6000有个好处是能nvlink,Ada就不行了
发表于 2023-5-15 09:40 | 显示全部楼层
本帖最后由 godspeed66 于 2023-5-15 09:47 编辑
coconutgallo 发表于 2023-5-15 05:28
显存要求高两张RTX6000有个好处是能nvlink,Ada就不行了


正在学习,

但还没在网上找到有利证据,目前RTX6000双卡 100GB/s的NVLink,比PCI-E4.0*16的 31.5GB/s,在推理中没发现有明显优势


同时RTX4090 的推理性能明显高于3090(以及RTX6000),综合成本来看  2张4090 性能远大于RTX6000

最关键的是RTX4090 方便回血,RTX6000和RTX6000 ADA基本不能回血

您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-24 11:39 , Processed in 0.015438 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表