找回密码
 加入我们
搜索
      
查看: 11510|回复: 65

[显卡] 到底AI所用的数学模型和数值计算方法,对游戏卡有无大规模“竞争”?

[复制链接]
发表于 2023-7-10 09:31 | 显示全部楼层 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2023-7-10 09:41 | 显示全部楼层
现在大多fp16。

而且通常是bandwidth bound。
发表于 2023-7-10 09:42 | 显示全部楼层
主流是训练用单精度、半精度;推理用半精度、甚至int8/int4。
双精度部分模型有需求,但主要还是用于科学计算比较多。
 楼主| 发表于 2023-7-10 09:46 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2023-7-10 09:46 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2023-7-10 09:47 | 显示全部楼层
逼近是什么?纠错。

精度是带来了误差,但人工智能模型本身就是大号的纠错器。所以降低精度总是能带来正面的收益。

为什么HPC芯片还是有双精度,因为它们是多任务的,除了拟合任务,还有其他的需要计算解析解的任务。
 楼主| 发表于 2023-7-10 09:48 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2023-7-10 09:57 | 显示全部楼层
slymitec 发表于 2023-7-10 09:48
果真如此的话,那么说老黄的市值是被AI带起来的,但实际的产品……这不还是和玩家竞争的游戏卡(最多算上 ...

本来就是有竞争。反正H100这种是给AI落地用的,可以从源头控制。

实验室/科研单位抢4090也不是什么新闻了。
 楼主| 发表于 2023-7-10 09:58 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2023-7-10 10:04 | 显示全部楼层
slymitec 发表于 2023-7-10 09:58
主要是,通过这些数据,加之分析性价比

我反而产生了AI其实反而更适合用游戏卡/专业卡的“错觉”。 ...

AI落地肯定不适合。AI研究的话用的比较多。之前在一个帖子里面我总结了去年的影响力论文里面的设备,大部分还是消费级显卡,和上一代的专业卡。
 楼主| 发表于 2023-7-10 10:08 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2023-7-10 10:13 | 显示全部楼层
slymitec 发表于 2023-7-10 10:08
所以这似乎可不就成了游戏卡不降价的重要原因了,因为大量计算用途……实际还是在抢游戏卡。 ...

这个就不清楚了。没有统计数据。科研场景抢再多,它们对于玩家来说仍然是少数。
发表于 2023-7-10 11:02 | 显示全部楼层
首先AI肯定偏低精度,从IEEE Float16到Bfloat16到最近LLM大火的FP8,这还是没算上各种小技巧里面的3-bit、4-bit、5-bit的。双精度性能的应用方向现在一般统称HPC,如果你去看世界的超算排名他们一般默认就是以双精度性能排名(以前我记得是测Linkpack跑分,最近没去关注了)

其次你看到的单精度算力在实际应用中是完全达不到的,计算速度已经完全被内存带宽给限制住了(Bandwidth bound)。当下想要提升速度最快捷的方法就是提升内存带宽,这也就是为什么苏妈在发布MI300的时候要特别强调一嘴HBM3的5.2TB/s的带宽。一张卡放不下的模型就需要多卡互联(所以NVLINK最近大火)。
发表于 2023-7-10 11:05 | 显示全部楼层
小工作室/实验室经常4、8卡的买4090,以前是买3090ti。
发表于 2023-7-10 11:05 | 显示全部楼层
我輩樹である 发表于 2023-7-10 09:47
逼近是什么?纠错。

精度是带来了误差,但人工智能模型本身就是大号的纠错器。所以降低精度总是能带来正面 ...

正解,不是单纯的参数向思维。
发表于 2023-7-10 11:08 | 显示全部楼层
这么多4090能有一半在玩游戏吗?
高端游戏卡本来就是低端ai的代餐卡。

差的也就是不能多卡互联,还有就是TF32/fp16/bf16/fp8/int8这类面向ai专用的格式

fp64那只是上一轮HPC领域需要的
 楼主| 发表于 2023-7-10 11:20 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2023-7-10 11:23 | 显示全部楼层
游戏卡的FP64记得好像是Titan X开始阉割掉的,之前都是正常的
发表于 2023-7-10 12:17 来自手机 | 显示全部楼层
gladiator 发表于 2023-7-10 11:23
游戏卡的FP64记得好像是Titan X开始阉割掉的,之前都是正常的

之前也就gt200和gf100/110有全速fp64。gf104/114也是割的。再往前g80没有。gk110有,但是gk104割了。到gm200全系割。gp开始也就是100保留。
发表于 2023-7-10 13:17 | 显示全部楼层
gladiator 发表于 2023-7-10 11:23
游戏卡的FP64记得好像是Titan X开始阉割掉的,之前都是正常的

主流游戏卡从支持双精度起就从来没给过1:2的fp64, 史前gpgpu不算, 正儿八经支持的第一代GF100(480)就是给的1/8, GK104(680)开始砍到1/24, GM200(980ti)开始砍到1/32, AD102(3090)开始砍到1/64(其实这代不算砍, 只是强行翻倍了fp32没动fp64)
 楼主| 发表于 2023-7-10 13:24 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2023-7-10 13:28 | 显示全部楼层
AI连单精度都不用,16位或者8位为主了,但是大模型需要专业卡,多卡互联,大集群什么的。

HPC部分用单精度,比如说分子动力学,其他用双精度,64位。

所以很多AI搞科研的用户就去买游戏卡了,但是产业落地还是买专业卡,h100什么的,黄老板主要挣这个钱。
发表于 2023-7-10 13:28 | 显示全部楼层
本帖最后由 zhuifeng88 于 2023-7-10 13:35 编辑
slymitec 发表于 2023-7-10 13:24
本帖疑惑的就是 发现现在越来越多的数学模型 反而不再看重计算卡的优势fp64

这岂不是又变成了搞计算的和 ...


低精度游戏卡"砍"了点, 但不多, 毕竟这个最终落地都要用的(游戏等用得上)
其实说砍不太合适, 毕竟不存在"没砍"的设计, 相比*100设计上差异就太大了根本不是刀法的问题

用得很多


另外"H100单精度只有游戏卡的三分之二"这个理解是不准确的, 主要面向的计算密集场景就算用FP32, 实际主要用的也是tensorcore上的TF32, 这个上H100是4090的6倍
发表于 2023-7-10 13:30 | 显示全部楼层
gladiator 发表于 2023-7-10 11:23
游戏卡的FP64记得好像是Titan X开始阉割掉的,之前都是正常的

n卡的fp64从来没正常过,

titan系列只有volt一代,也就是titan V是没阉割的。
 楼主| 发表于 2023-7-10 14:00 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2023-7-10 14:07 | 显示全部楼层
我这个非码农都知道图形主要看单精度半精度
 楼主| 发表于 2023-7-10 14:38 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2023-7-10 15:52 | 显示全部楼层
本帖最后由 godspeed66 于 2023-7-10 16:08 编辑
我輩樹である 发表于 2023-7-10 10:04
AI落地肯定不适合。AI研究的话用的比较多。之前在一个帖子里面我总结了去年的影响力论文里面的设备,大部 ...


我不知道我理解的对不对

用fp16 或bf 16跑微调训练

性能.png
发表于 2023-7-10 15:57 | 显示全部楼层
反正现在A100/H100供不应求,30万一张都一样依然在疯抢,却没有公司花30万买20张4090跑AI,那么多大公司人家也不傻啊=。=
发表于 2023-7-10 15:57 | 显示全部楼层
我理解  AI 大语言模型类

正常机构都会用 A100 H100这种专用芯片


小微企业和个人会用RTX 6000 ADA 或RTX A6000这种

正常情况下不会用3090和4090的
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-5 03:58 , Processed in 0.012974 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表