找回密码
 加入我们
搜索
      
楼主: quetzacoatl

[显卡] 4090比A6000能差多少?

[复制链接]
发表于 2023-5-15 09:59 来自手机 | 显示全部楼层
百分百好牛 发表于 2023-5-13 11:23
能多说两句么?

百度 智星云
发表于 2023-5-16 21:29 | 显示全部楼层
zhuifeng88 发表于 2023-5-14 05:53
考虑多卡的话6000ada一样没有nvlink, 都是走pcie互联, 只是4090砍了p2p互联要过host, 对rc压力比较大 ...

4090的pcie p2p dma是硬件上的没戏了嘛
发表于 2023-5-16 22:14 | 显示全部楼层
堕落的翼 发表于 2023-5-16 21:29
4090的pcie p2p dma是硬件上的没戏了嘛

硬件上毫无疑问可以的
发表于 2023-5-16 22:21 | 显示全部楼层
zhuifeng88 发表于 2023-5-16 22:14
硬件上毫无疑问可以的


谢谢回复,刚刚看了pugetsystem的测试,看样子ada a6000的p2p dma是没有问题的,只有4090有,还是老黄的驱动限制
发表于 2023-5-16 22:50 | 显示全部楼层
盐湖 发表于 2023-5-15 05:12
谢谢您的细致解答!我就按您说的瞄准这三种方案做准备了同时期待一下您的后续 ...

根据微调反馈


由于int4 int8的微调有问题(疑似微软的DeepSpeed导致的异常“<class 'models.quantization.QuantLinear'>' was not properly set up for sharding by zero.Init()”),

普通模式下单卡48GB不够


目前在考虑RTX A6000 48GB 双卡, 或  RTX 6000 ADA*2
发表于 2023-5-17 00:15 | 显示全部楼层
黑白音符 发表于 2023-5-10 19:44
不如租服务器了,贼便宜,除非你有保密需求

autodl么?
发表于 2023-5-17 00:35 | 显示全部楼层
我手上3块A10,1块A100,炼丹用A100,推理用A10,主要影像识别领域
发表于 2023-5-17 09:17 | 显示全部楼层

这。。这也就意味着个人学习使用如果想确保稳定实现,显卡成本至少在5万元以上了吧。。如果不用您说的成本分别为5/10万元的这两种方案,那应该只能选择A100 80G了?
发表于 2023-5-17 10:44 | 显示全部楼层
盐湖 发表于 2023-5-17 09:17
这。。这也就意味着个人学习使用如果想确保稳定实现,显卡成本至少在5万元以上了吧。。如果不用您说的成 ...

看模型的参数

60亿(6B)参数的24GB显存就基本没问题了,优化好的130亿参数的也能行

MOSS是160亿(16B)参数,貌似优化的不好,才遇到这个问题。

我郁闷的不是48GB显存不够,而是不知道多少显存能跑起来,MOSS微调跑起来的貌似都有320GB显存

早知道第一张卡买RTX A6000 48GB了,现在很犹豫  是买2张RTX A6000 48GB,还是再买一张RTX 6000 ADA 48GB

发表于 2023-5-17 11:12 | 显示全部楼层
8卡魔改2080ti应该是性价比最高的方案,前提是能承受**、起飞的声音、热度。
发表于 2023-5-17 14:55 | 显示全部楼层
godspeed66 发表于 2023-5-17 10:44
看模型的参数

60亿(6B)参数的24GB显存就基本没问题了,优化好的130亿参数的也能行

原来如此,看来个人想稳定运行离线部署的大模型还是得老老实实A100 80G起步了。。唉,想尽快实现梦想中银翼杀手里那种离线全息助手还得继续努力搬砖堆算力啊不过至少是越来越近了!
发表于 2023-7-10 10:38 | 显示全部楼层
本帖最后由 godspeed66 于 2023-7-10 10:57 编辑
盐湖 发表于 2023-5-17 14:55
原来如此,看来个人想稳定运行离线部署的大模型还是得老老实实A100 80G起步了。。唉,想尽快实现梦想中银 ...


先上结论,10万元以下 ,2张RTX A6000 48GB,性价比最高;15万元, 系统整体性价比最高4张RTX A6000 48GB;30万元 ,2张A100 80GB



根据最近我的使用结果,基于已有LLM全参数微调

用DeepSpeed offload到CPU上,可以极大节省显存,甚至极端情况下24GB就够了

    "zero_optimization": {
        "stage": 3,
        "offload_optimizer": {
            "device": "cpu",
            "nvme_path": null
        },
        "offload_param": {
            "device": "cpu",
            "nvme_path": null
        },
        "stage3_gather_16bit_weights_on_model_save": true


RTX6000 ADA GPU使用率在50%左右,PCI-E 4.0带宽使用率约21%,这个时候瓶颈基本在CPU单核性能上。
37%.jpg

需要注意的是前期数据准备阶段PCI-E 4.0带宽使用率约80~85%,GPU使用率约99%,大约持续11小时。

2.5万条数据,每步大约需要25~30秒(bs=1),估算每跑一遍数据大约需要大约8.7天;如果将bs=7,每步大约需要45~51秒60秒,估算每跑一遍数据大约需要大约2.1天2.5天
e00a1928b1e419597ccf49fd4b604a0.png

因为DeepSpeed offload到CPU后,瓶颈是CPU(目前暂不支持多线程),因此现阶段影响LLM全参数微调时间的因素就是显存,很明显这时高显存能带来极大的性能收益。

目前电脑支持4张显卡的计算是装机的一个瓶颈,瓶颈包含10A插座、制冷、机箱大小、稳定和物理安全等

DeepSpeed offload到CPU后:

假设每个样本需要5GB


系统成本约5万~10万:

4张RTX3090 或4张RTX4090,计算性能上整体一致(RTX4090有一定优势,但与成本明显偏高),4卡大约96GB显存,实际可用(假设6B模型),大约(24GB-6GB-6GB)*4=12GB*4  bs约等于8  

2张RTX A6000,2张卡大约96GB显存,实际可用(假设6B模型),大约(48GB-6GB-6GB)*2=32GB*2 bs约等于12

目前RTX A6000 在2.75万;RTX 3090在0.85万元(怕着火只能用新的);RTX 4090 在1.5万元;

系统基本成本约2.5万,RTX A6000*2 =5.5万;RTX 3090*4=3.4万元(4卡散热、电源、组装、维护成本上升);RTX 4090*4=6万元(4卡散热、电源、组装、维护成本上升)

在这里推荐2张RTX A6000


系统成本约15万:

4张RTX A6000 或  2张RTX 6000 ADA,价格上整体一致,
4张RTX A6000 大约192GB显存,实际可用(假设6B模型),大约(48GB-6GB-6GB)*4=36GB*4  bs约等于24
2张RTX 6000 ADA大约96GB显存,实际可用(假设6B模型),大约(48GB-6GB-6GB)*2=72GB   bs约等于12
1张A100 80GB,实际可用(假设6B模型),大约(80GB-6GB-6GB)*1=68GB bs约等于13


目前RTX A6000 在2.75万;RTX 6000 ADA在5.1万元;

在这里推荐4张RTX A6000


系统成本约30万:

这个该考虑A100 80GB啦,优势太大了;

1张A100 80GB,实际可用(假设6B模型),大约(80GB-6GB-6GB)*1=68GB bs约等于13
2张A100 80GB,实际可用(假设6B模型),大约(80GB-6GB-6GB)*2=68GB*2 bs约等于26

实际上2张A100 80GB 已经超神了,性能可能更强,因为支持nvlink


在这里推荐2张A100 80GB




欢迎指出我的计算错误欢迎指出我的错误,帮我进步

评分

参与人数 1邪恶指数 +10 收起 理由
bil + 10 非常赞同

查看全部评分

发表于 2023-7-10 23:50 | 显示全部楼层
godspeed66 发表于 2023-7-10 10:38
先上结论,10万元以下 ,2张RTX A6000 48GB,性价比最高;15万元, 系统整体性价比最高4张RTX A6000 48GB ...

太详尽太专业了!谢谢您开拓前路!
发表于 2023-7-16 22:23 | 显示全部楼层
本帖最后由 facebbook 于 2023-7-21 02:46 编辑

A100 40G 是性价比最高的,同样支持NVlink,当然需要解决被动散热问题。
(A100 40G 价格 和  6000 Ada 价格接近, 都在5万左右。
  但A100 80G 价格爆炒至12万。
要知道OpenAI 大量使用A100 40G而不是A100 80G 。)

=====================================

帮你分清RTX A6000 和 RTX 6000 Ada,
简单说就是两代GPU卡




发表于 2023-7-17 17:42 | 显示全部楼层
facebbook 发表于 2023-7-16 22:23
A100 40G 是性价比最高的,,当然需要解决被动散热问题。
(A100 40G 价格 和  6000 Ada 价格接近, 都在 ...

哎  今天 A800采购价格都13万了

目前买到的A100 都是没保修的了,由于保修和渠道问题,不能保证正常供货

咸鱼上有2.5万的定制版A100 40GB  性价比好高,就是拼人品

但是40GB显存完全不够用

周边见到的唯一的一个AI实验室,用了好多A800 和A30




清华智谱AI(chatGLM团队)、复旦moss团队、东北大学tech**团队都没有使用民用显卡训练大模型
发表于 2023-7-17 18:41 来自手机 | 显示全部楼层
8卡2080ti魔改22g/44g呢?
发表于 2023-7-17 23:22 | 显示全部楼层
本帖最后由 facebbook 于 2023-7-21 02:43 编辑
godspeed66 发表于 2023-7-17 17:42
哎  今天 A800采购价格都13万了

目前买到的A100 都是没保修的了,由于保修和渠道问题,不能保证正常供货 ...


可以肯定,这几家的大模型 (训练)算力都是租用的。
清华智谱AI(chatGLM团队)、复旦moss团队、东北大学tech**团队都没有使用民用显卡训练大模型
发表于 2023-7-18 07:23 | 显示全部楼层
感觉4090就够用了。
发表于 2023-7-19 15:17 | 显示全部楼层
重庆森林 发表于 2023-7-17 18:41
8卡2080ti魔改22g/44g呢?

2080TI 44GB 有吗?

只看到2080TI 22GB
发表于 2023-7-19 15:54 来自手机 | 显示全部楼层
godspeed66 发表于 2023-7-19 15:17
2080TI 44GB 有吗?

只看到2080TI 22GB

有,谷歌可以搜到,就是不知道哪个高手能接单
发表于 2023-7-19 16:15 | 显示全部楼层
重庆森林 发表于 2023-7-19 15:54
有,谷歌可以搜到,就是不知道哪个高手能接单

咸鱼、淘宝没有,一般情况下就约等于买不到啊

你这谷歌搜索不算

发表于 2023-7-19 17:01 | 显示全部楼层
godspeed66 发表于 2023-7-19 16:15
咸鱼、淘宝没有,一般情况下就约等于买不到啊

你这谷歌搜索不算

你去找能改22g的那种商家问问啊,这应该不存在技术壁垒,就是换个更大的芯片而已,之前我问过,3070改16G也就是600块左右
发表于 2023-7-19 17:34 | 显示全部楼层
重庆森林 发表于 2023-7-19 17:01
你去找能改22g的那种商家问问啊,这应该不存在技术壁垒,就是换个更大的芯片而已,之前我问过,3070改16G也就 ...

国内关于2080TI 的44GB 显存我一直在关注,并与国内的大神用咸鱼保持微弱的沟通

44GB显存的2080TI 能开机30秒,然后就会烧毁核心,进度卡在这啦


网上很多图都是转载的

大神给我的真实图片如下:



2080TI 44GB.jpg
发表于 2023-7-19 17:45 | 显示全部楼层
godspeed66 发表于 2023-7-19 17:34
国内关于2080TI 的44GB 显存我一直在关注,并与国内的大神用咸鱼保持微弱的沟通

44GB显存的2080TI 能开 ...

大神的闲鱼号: 获芬Flower

2080TI 44GB-1.jpg
2080TI 44GB-2.jpg
2080TI 44GB-3.jpg
发表于 2023-7-19 18:12 | 显示全部楼层
godspeed66 发表于 2023-7-19 17:34
国内关于2080TI 的44GB 显存我一直在关注,并与国内的大神用咸鱼保持微弱的沟通

44GB显存的2080TI 能开 ...

那是我草率了,我就听人说有44G这货,开始还不信,搜了下确实有,也没细研了

要不再麻烦你问下大神,现在能魔改出最大显存的卡是什么卡,多少显存?
发表于 2023-7-20 10:09 | 显示全部楼层
godspeed66 发表于 2023-5-13 12:47
RTX 4090 24GB 与 RTX 6000 ADA 48GB都在用

SD炼丹速度一致,未见明显差异;

老哥有更多模型的测试结果么,最近也在看rtx6000ada这个卡
发表于 2023-7-21 16:32 | 显示全部楼层
g7muik 发表于 2023-7-20 10:09
老哥有更多模型的测试结果么,最近也在看rtx6000ada这个卡

你做哪个模型学习的啊?

不同模型、不同参数、不同规模,差距很大的,没啥参考意义,

直接看bf16理论速度和显存就行

下一代数据格式fp8只有27万一张的H100 和 5万一张的RTX 6000 ADA支持,RTX4090目前受限于驱动不支持
发表于 2023-7-22 09:43 | 显示全部楼层
黑白音符 发表于 2023-5-10 19:44
不如租服务器了,贼便宜,除非你有保密需求

便宜么?分享一下。有没有相关文档或者介绍?

谢谢
发表于 2023-7-22 13:07 来自手机 | 显示全部楼层
godspeed66 发表于 2023-7-21 16:32
你做哪个模型学习的啊?

不同模型、不同参数、不同规模,差距很大的,没啥参考意义,

定了6000ada
发表于 2023-7-22 13:21 | 显示全部楼层
welsmann 发表于 2023-5-10 17:15
我也认为lz可能指代的是6000 ADA/L40这个AD102满血卡。另外炼丹可能涉及nvlink显存池。如果钱不是问题我觉 ...

6000ADA和L40目前都不是满血AD102,都只开放了18176个cu。不知道何时能用上满血的AD102
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-24 15:34 , Processed in 0.015754 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表