找回密码
 加入我们
搜索
      
楼主: slymitec

[显卡] 到底AI所用的数学模型和数值计算方法,对游戏卡有无大规模“竞争”?

[复制链接]
 楼主| 发表于 2023-7-10 16:04 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2023-7-10 16:14 | 显示全部楼层
4090都没有NVLINK,而且计算玩家都不差钱。
 楼主| 发表于 2023-7-10 16:17 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2023-7-10 16:21 | 显示全部楼层
本帖最后由 zhuifeng88 于 2023-7-10 16:22 编辑
slymitec 发表于 2023-7-10 16:04
所以搞计算,用RTX 6000 Ada/RTX A6000 而 不用 RTX4090/3090 的原因是因为显存大?
(6000Ada带宽反而还 ...


ecc 4090也有, 一方面是显存大, 另一方面主要是合规, 当然还有虚拟化之类的功能差异, 但这个ai场景不是很关心
发表于 2023-7-10 16:23 | 显示全部楼层
slymitec 发表于 2023-7-10 16:04
所以搞计算,用RTX 6000 Ada/RTX A6000 而 不用 RTX4090/3090 的原因是因为显存大?
(6000Ada带宽反而还 ...

我理解就是显存的问题,

看起来RTX 6000 ADA 是 RTX4090价格的3.4倍,但RTX 6000 ADA 是 RTX4090 实际训练性能的6倍,考虑到真实环境没有睿频,RTX 6000 ADA 是 RTX4090 实际训练性能的2倍以上。

再开率到配套环境,如机箱、10A电源插排、制冷,不会用4090的
发表于 2023-7-10 16:30 | 显示全部楼层
本帖最后由 zhuifeng88 于 2023-7-10 16:33 编辑
godspeed66 发表于 2023-7-10 16:23
我理解就是显存的问题,

看起来RTX 6000 ADA 是 RTX4090价格的3.4倍,但RTX 6000 ADA 是 RTX4090 实际训 ...


ER`[PZ2V}H84LS28}R7KE9Q.png
虽然是比较早的测试, 但不涉及显存问题的情况下4090和rtx6000ada微调llm根本不存在那种差异
发表于 2023-7-10 16:38 | 显示全部楼层
有没有可能,可以根据廉价设备的算力特征,进行针对性设计AI
发表于 2023-7-10 16:46 | 显示全部楼层
godspeed66 发表于 2023-7-10 15:57
我理解  AI 大语言模型类

正常机构都会用 A100 H100这种专用芯片

llm不是AI的全部。即便是跑llm,显存c2c其实也有软件解决方案。当然大家都不可能接近nvlink c2c,已经直接serde到显存。如果你不是训练一个模型,而是多组参数同时训练多组模型,在同一个4090或rtx 6000集群上,可以做到一定程度的高效。
发表于 2023-7-10 16:47 | 显示全部楼层
zhuifeng88 发表于 2023-7-10 16:30
虽然是比较早的测试, 但不涉及显存问题的情况下4090和rtx6000ada微调llm根本不存在那种差异 ...

额  微调不涉及显存?  这就是伪命题啊


我把过程写的很详细了

https://www.chiphell.com/forum.p ... 67&pid=52973058



引用一句我认为很重要的话“影响LLM全参数微调时间的因素就是显存,很明显这时高显存能带来极大的性能收益。”
发表于 2023-7-10 16:53 | 显示全部楼层
我輩樹である 发表于 2023-7-10 16:46
llm不是AI的全部。即便是跑llm,显存c2c其实也有软件解决方案。当然大家都不可能接近nvlink c2c,已经直 ...


1.   我都说了 我只针对 LLM

2.“多组参数同时训练多组模型”  

我没明白,微调的目标不就是一个模型吗? 怎么会多组模型? 多组模型什么意思?

同样数量的4090 与 同样数量的RTX 6000,bs 设置至少差1倍,性能是怎么做到一致的?

发表于 2023-7-10 16:54 | 显示全部楼层
其实还有一个问题,比方说字节向NV直接下单了10亿美元的单子,这个量显然也只能直接要NV下单,你说你想省钱全换成4090?人家不卖给你你能怎么样呢,你到市场上搜刮价值几十亿的4090也不现实,更何况所有的性能差异都是基于单卡不是基于大规模的计算集群,说白了还是那句话,那么多大公司不是傻子,NV这样定价也足以证明4090根本可能做到H100的事情。
发表于 2023-7-10 16:57 | 显示全部楼层
godspeed66 发表于 2023-7-10 16:53
1.   我都说了 我只针对 LLM

2.“多组参数同时训练多组模型”  

研发阶段,多种超参数配置,多种优化手段配置,网络结构也进行一些变形,试错的过程会有同时训练多个模型的过程。

如果你只有一个模型,都确定了,那就是想做算法落地。这个时候没有消费卡什么事。

rtx 6000我没这个卡,没法回答你的问题。
发表于 2023-7-10 16:58 | 显示全部楼层
本帖最后由 zhuifeng88 于 2023-7-10 16:59 编辑
godspeed66 发表于 2023-7-10 16:47
额  微调不涉及显存?  这就是伪命题啊


微调相对低参数量的llm确实不会涉及显存问题, 更何况通常不需要全参微调, 重要的反而是低成本试错
发表于 2023-7-10 17:07 | 显示全部楼层
zhuifeng88 发表于 2023-7-10 16:58
微调相对低参数量的llm确实不会涉及显存问题, 更何况通常不需要全参微调, 重要的反而是低成本试错 ...

LLM

不论是全参数微调,还是lora,耗时,与显存大小息息相关

在GPU同等性能情况下,一个一次只能处理1条数据,一个一次能处理6条数据,很明显后者微调耗时仅为前者的大约1/6,实际上会是前者的1/3用时!

更不要提机房环境的需求差异!

发表于 2023-7-10 17:13 | 显示全部楼层
我輩樹である 发表于 2023-7-10 16:57
研发阶段,多种超参数配置,多种优化手段配置,网络结构也进行一些变形,试错的过程会有同时训练多个模型 ...


RTX 6000   48GB显存   TDP  300W   涡轮版 实际能使用到300W

RTX 4090   24GB显存   TDP  450W   涡轮版 实际能使用到300W,水冷能到350W

我理解你的意思是,看算法是否收敛,所以没必要大显存的专业显卡,是这个意思吗?

不论哪个LLM数据不都是几十亿、甚至百亿、千亿级别的?   就是微调数据也要几十甚至百万级别的数据

样本小,bs设置差1倍,样本大,bs甚至差几倍以上

性能是怎么趋于一致的呢?
发表于 2023-7-10 17:38 | 显示全部楼层
本帖最后由 我輩樹である 于 2023-7-10 17:39 编辑
godspeed66 发表于 2023-7-10 17:13
RTX 6000   48GB显存   TDP  300W   涡轮版 实际能使用到300W

RTX 4090   24GB显存   TDP  450W   涡轮 ...


性能趋于一致是什么意思?我没有rtx 6000显卡,什么性能我不知道。

你是想我帮你在纸面上算性能么?实际上我们实验室是用十几块4090,然后魔改的spark框架做的llm微调。使用了offloading的技术。
发表于 2023-7-10 17:41 | 显示全部楼层
本帖最后由 zhuifeng88 于 2023-7-10 17:44 编辑
godspeed66 发表于 2023-7-10 17:07
LLM

不论是全参数微调,还是lora,耗时,与显存大小息息相关


但你假设的rtx6000ada能提供6倍4090的bs实际不成立
再然后气泡不严重的情况下bs和throughput的关系并不强
7b/13b微调就能符合这种情况
发表于 2023-7-10 17:55 | 显示全部楼层
反正AI不看FP64,这个是科学计算用的,超算前几名AMD多就是因为A卡FP64性能优势大
发表于 2023-7-10 18:09 | 显示全部楼层
本帖最后由 godspeed66 于 2023-7-10 18:21 编辑
我輩樹である 发表于 2023-7-10 17:38
性能趋于一致是什么意思?我没有rtx 6000显卡,什么性能我不知道。

你是想我帮你在纸面上算性能么?实际 ...


1.你说的“在同一个4090或rtx 6000集群上,可以做到一定程度的高效。”,bs 设置是否会导致性能差异?  我认为会有明显性能差异


2. offloading 到cpu上吗?时指DeepSpeed offload cpu吗?  求指点  , 我是业余自学的。不知道llm还有其他offload技术。

我就在用DeepSpeed offload cpu ,但 这个估计不是你说的offloading技术,求发个offloading的论文链接吗? 我想学习下
发表于 2023-7-10 18:20 | 显示全部楼层
zhuifeng88 发表于 2023-7-10 17:41
但你假设的rtx6000ada能提供6倍4090的bs实际不成立
再然后气泡不严重的情况下bs和throughput的关系并不强 ...

吞吐量与bs 设置有什么关系? 这个求指点  ,我自学的,差了好多知识

我理解 不论哪个llm 微调都需要数据,

假设微调2万条数据,bs=1 需要2万步,bs= 6 仅需要0.34万步,而且当bs=1 改到bs=6 后,每步计算时间仅增加30秒,总体获益大约3倍的效率。

根据上面的数据,

bs=1时,每epoch需要6.94天,epoch=50   需要大约1年

bs=6时,每epoch需要1.16天,epoch=100 需要大约0.33年

这个时间效率提升不是很明显吗?


发表于 2023-7-10 18:22 | 显示全部楼层
godspeed66 发表于 2023-7-10 18:09
1.你说的“在同一个4090或rtx 6000集群上,可以做到一定程度的高效。”,我就问你微调时 bs 设置是否会导 ...

offload的原始论文是flexgen,它用在推理上的,这个应该随便搜一下就能找到。我这里可以一定程度用在微调上。

bs设置当然会导致性能差异,差异多少我不知道。我说的“一定程度高效”和“趋于一致”是一个意思么?这个高效是基于整个的评估,而不是单独微调一个模型。

我们的场景差太远了,你都用通用框架了,我们都是自己开发的。
发表于 2023-7-10 18:25 | 显示全部楼层
我輩樹である 发表于 2023-7-10 18:22
offload的原始论文是flexgen,它用在推理上的,这个应该随便搜一下就能找到。我这里可以一定程度用在微调 ...

非常感谢
发表于 2023-7-10 18:38 | 显示全部楼层
godspeed66 发表于 2023-7-10 18:20
吞吐量与bs 设置有什么关系? 这个求指点  ,我自学的,差了好多知识

我理解 不论哪个llm 微调都需要数 ...


这建立在你的bs大小造成了很大的气泡的前提下, 实际使用中比如7b, lora r=8, 4bit forward, bf16 backward微调, bs在4090上至少可以设128(micro batch=2), 这样是几乎没有气泡的, 这时候你用6000ada比如可以把batchsize,microbatch分别设到256,4, 但每epoch耗时变化会很小(可以说通常<20%)
发表于 2023-7-10 19:01 | 显示全部楼层
zhuifeng88 发表于 2023-7-10 18:38
这建立在你的bs大小造成了很大的气泡的前提下, 实际使用中比如7b, lora r=8, 4bit forward, bf16 backwar ...


万分感谢

求指点下https://www.chiphell.com/forum.p ... 83&pid=52977355

我已经蒙了
发表于 2023-7-11 10:25 | 显示全部楼层
darkness66201 发表于 2023-7-10 16:54
其实还有一个问题,比方说字节向NV直接下单了10亿美元的单子,这个量显然也只能直接要NV下单,你说你想省钱 ...

字节花10亿美金去向NV下单,目标就是通过这个10亿的硬件+自己的推荐/AI技术从市场赚回100亿甚至更多;

一听这样的消息,没钱想的就是要花10亿美金,能否少花点,3亿5亿美金搞定; 但你是字节的高层更多考虑的是,10亿花了,能否实现100亿或者其他的收益,会不会只能赚到50亿或者120亿;

格局和位置不同,考虑的东西都是不一样的。
发表于 2023-7-11 11:23 | 显示全部楼层
fairness 发表于 2023-7-11 10:25
字节花10亿美金去向NV下单,目标就是通过这个10亿的硬件+自己的推荐/AI技术从市场赚回100亿甚至更多;

...

还有,只有花钱才能名正言顺从投资人、股民手里掏钱,在有看似正确名目的前提下,当然是花的越多越好。反正钱也不是他们自己的,不花白不花,花了总有些能落到手里,再不济起到拉升股价的作用方便之后出自己的股票也是挺好的。
发表于 2023-7-11 12:17 | 显示全部楼层
darkness66201 发表于 2023-7-10 16:54
其实还有一个问题,比方说字节向NV直接下单了10亿美元的单子,这个量显然也只能直接要NV下单,你说你想省钱 ...

就算搜刮到全世界的4090不能组hpc集群,老黄源头控制了,没人敢跟你出方案。

或许伊朗朝鲜可以。
发表于 2023-7-11 17:17 | 显示全部楼层
我輩樹である 发表于 2023-7-11 12:17
就算搜刮到全世界的4090不能组hpc集群,老黄源头控制了,没人敢跟你出方案。

或许伊朗朝鲜可以。 ...

大规模的AI训练系统,不仅仅看单卡,还要看多卡互联;4090没有NVLINK,  互联的方案只能走PCIE的话,这样的效率太低了; 可能需要更多的4090,结果是更多的功耗; 这些都是大型的云服务厂商和大厂要考虑的。
发表于 2023-7-11 17:26 | 显示全部楼层
本帖最后由 星辰柯博文 于 2023-7-11 17:29 编辑
darkness66201 发表于 2023-7-10 15:57
反正现在A100/H100供不应求,30万一张都一样依然在疯抢,却没有公司花30万买20张4090跑AI,那么多大公司人 ...


大公司不傻,买专业卡。但小工作室和有点钱的玩家鸡贼,所以买4090。
小工作室担心AI/显卡计算泡沫,所以买4090,一次性投入成本相对低,以后泡沫破了也好出给香打游戏的,止损变现快。专业卡就只能出给同行,越是行业亏损的时候越南变现。
有点钱的玩家考虑以后可能再出现矿潮或者第二轮AI热潮,所以买4090,希望玩两年之后还能平价甚至加价出给搞显卡健身的或者搞AI/计算/渲染的小老板。

显卡就应该游戏卡纯打游戏,计算卡纯计算。皮衣刀客给高端游戏卡赋予低端计算性能,就是让小老板和游戏/硬件富哥去抢卡,给自家显卡抬价。
发表于 2023-7-11 17:42 | 显示全部楼层
fairness 发表于 2023-7-11 17:17
大规模的AI训练系统,不仅仅看单卡,还要看多卡互联;4090没有NVLINK,  互联的方案只能走PCIE的话,这样 ...

这个当然是技术上的原因。我要说的是4090组AI集群/HPC在源头就是被禁止的。

至于llm的对吞吐量的需求,如果你不是赶着做这个去赚钱的,我觉得还是让子弹再飞一会。

据我所知现在有很多团队在尝试降低训练llm的需求,每过段时间都有新进展的发生。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-5 03:51 , Processed in 0.012785 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表