找回密码
 加入我们
搜索
      
查看: 5342|回复: 19

[PC硬件] 英伟达新核弹B200发布,一台服务器顶一个超算,AI推理30倍加速

[复制链接]
发表于 2024-3-19 15:18 | 显示全部楼层 |阅读模式
AI春晚GTC开幕,皮衣老黄再次燃爆全场。
时隔两年,英伟达官宣新一代Blackwell架构,定位直指“新工业革命的引擎” ,“把AI扩展到万亿参数”。
微信截图_20240319150139.png
作为架构更新大年,本次大会亮点颇多:
宣布GPU新核弹B200,超级芯片GB200
Blackwell架构新服务器,一个机柜顶一个超算
推出AI推理微服务NIM,要做世界AI的入口
新**技术cuLitho进驻台积电,改进产能。
……
微信截图_20240319150243.png
8年时间,AI算力已增长1000倍。
老黄断言“加速计算到达了临界点,通用计算已经过时了”。
我们需要另一种方式来进行计算,这样我们才能够继续扩展,这样我们才能够继续降低计算成本,这样我们才能够继续进行越来越多的计算。
微信截图_20240319150424.png
老黄这次主题演讲题目为《见证AI的变革时刻》,但不得不说,英伟达才是最大的变革本革。
GPU的形态已彻底改变
我们需要更大的GPU,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU。
Blackwell新架构硬件产品线都围绕这一句话展开。
通过芯片,与芯片间的连接技术,一步步构建出大型AI超算集群。
4nm制程达到瓶颈,就把两个芯片合在一起,以10TB每秒的满血带宽互联,组成B200 GPU,总计包含2080亿晶体管。
没错,B100型号被跳过了,直接发布的首个GPU就是B200。
微信截图_20240319150516.png
两个B200 GPU与Grace CPU结合就成为GB200超级芯片,通过900GB/s的超低功耗NVLink芯片间互连技术连接在一起。
两个超级芯片装到主板上,成为一个Blackwell计算节点。
微信截图_20240319150749.png
18个这样的计算节点共有36CPU+72GPU,组成更大的“虚拟GPU”。
它们之间由今天宣布的NVIDIA Quantum-X800 InfiniBand和Spectrum™-X800以太网平台连接,可提供速度高达800Gb/s的网络。
2ff6639c6376dbf6b96519ef1b857cc9.gif
在NVLink Switch支持下,最终成为“新一代计算单元”GB200 NVL72。
一个像这样的“计算单元”机柜,FP8精度的训练算力就高达720PFlops,直逼H100时代一个DGX SuperPod超级计算机集群(1000 PFlops)。
94e59b8f3afd08ee2a3aba1cac6e7017.gif
与相同数量的72个H100相比,GB200 NVL72对于大模型推理性能提升高达30倍,成本和能耗降低高达25倍。
把GB200 NVL72当做单个GPU使用,具有1.4EFlops的AI推理算力和30TB高速内存。
60b55b5cd52fb3c2574468e8bb18db7c.gif
再用Quantum InfiniBand交换机连接,配合散热系统组成新一代DGX SuperPod集群。
DGX GB200 SuperPod采用新型高效液冷机架规模架构,标准配置可在FP4精度下提供11.5 Exaflops算力和240TB高速内存。
此外还支持增加额外的机架扩展性能。
微信截图_20240319151049.png
最终成为包含32000 GPU的分布式超算集群。
老黄直言,“英伟达DGX AI超级计算机,就是AI工业革命的工厂”。
将提供无与伦比的规模、可靠性,具有智能管理和全栈弹性,以确保不断的使用。
微信截图_20240319151130.png
在演讲中,老黄还特别提到2016年赠送OpenAI的DGX-1,那也是史上第一次8块GPU连在一起组成一个超级计算机。
微信截图_20240319151204.png
过去,在90天内训练一个1.8万亿参数的MoE架构**模型,需要8000个Hopper架构GPU,15兆瓦功率。
如今,同样给90天时间,在Blackwell架构下只需要2000个GPU,以及1/4的能源消耗。
在标准的1750亿参数**-3基准测试中,GB200的性能是H100的7倍,提供的训练算力是H100的4倍。
Blackwell架构除了芯片本身外,还包含多项重大革新:
第二代Transformer引擎
动态为神经网络中的每个神经元启用FP6和FP4精度支持。
第五代NVLink高速互联
为每个GPU 提供了1.8TB/s双向吞吐量,确保多达576个GPU之间的无缝高速通信。
Ras Engine(可靠性、可用性和可维护性引擎)
基于AI的预防性维护来运行诊断和预测可靠性问题。
Secure AI
先进的加密计算功能,在不影响性能的情况下保护AI模型和客户数据,对于医疗保健和金融服务等隐私敏感行业至关重要。
专用解压缩引擎
支持最新格式,加速数据库查询,以提供数据分析和数据科学的最高性能。
在这些技术支持下,一个GB200 NVL72就最高支持27万亿参数的模型。
而**-4根据泄露数据,也不过只有1.7万亿参数。
英伟达要做世界AI的入口
老黄官宣ai.nvidia.com页面,要做世界AI的入口。
任何人都可以通过易于使用的用户界面体验各种AI模型和应用。
同时,企业使用这些服务在自己的平台上创建和部署自定义应用,同时保留对其知识产权的完全所有权和控制权。
此外,英伟达自己的开发套件、软件库和工具包都可以作为NVIDIA CUDA-X™微服务访问,用于检索增强生成 (RAG)、护栏、数据处理、HPC 等。
比如通过这些微服务,可以轻松构建基于大模型和向量数据库的ChatPDF产品,甚至智能体Agent应用。
NIM微服务定价非常直观,“一个GPU一小时一美元”,或年付打五折,一个GPU一年4500美元。
从此,英伟达NIM和CUDA做为中间枢纽,连接了百万开发者与上亿GPU芯片。
什么概念?
老黄晒出AI界“最强朋友圈”,包括亚马逊、迪士尼、三星等大型企业,都已成为英伟达合作伙伴。
微信截图_20240319151555.png
最后总结一下,与往年相比英伟达2024年战略更聚焦AI,而且产品更有针对性。
比如第五代NVLink还特意为MoE架构大模型优化通讯瓶颈。
新的芯片和软件服务,都在不断的强调推理算力,要进一步打开AI应用部署市场。
当然作为算力之王,AI并不是英伟达的全部。

https://baijiahao.baidu.com/s?id ... r=spider&for=pc

发表于 2024-3-19 15:56 | 显示全部楼层
精度越来越低了,FP4都出来了。然后FP64被砍到膝盖
发表于 2024-3-19 16:26 | 显示全部楼层
然后会国内访问不了ai.nvidia.com
发表于 2024-3-19 16:27 | 显示全部楼层
起码还有20%的性能留手
发表于 2024-3-19 16:51 | 显示全部楼层
赫敏 发表于 2024-3-19 15:56
精度越来越低了,FP4都出来了。然后FP64被砍到膝盖

感觉就像摄影器材党,我要6100万像素!!我要1亿像素!!客户:请提交1280*960分辨率白底免冠照片一张.

评分

参与人数 1邪恶指数 +5 收起 理由
skanlife + 5

查看全部评分

发表于 2024-3-19 16:59 | 显示全部楼层
灰羽利亞 发表于 2024-3-19 16:51
感觉就像摄影器材党,我要6100万像素!!我要1亿像素!!客户:请提交1280*960分辨率白底免冠照片一张. ...

哈哈哈这个形容到位
1亿像素扫个码
发表于 2024-3-19 17:12 | 显示全部楼层
callmered 发表于 2024-3-19 16:26
然后会国内访问不了ai.nvidia.com

堵,我们挺好的,要不国家没有决心要做芯片。前面好几十年芯片都停滞不前。现在几年间效果显著。
发表于 2024-3-19 18:20 | 显示全部楼层
本帖最后由 盐湖 于 2024-3-19 18:41 编辑

未来已来
发表于 2024-3-19 18:23 来自手机 | 显示全部楼层
本帖最后由 psps3 于 2024-3-19 18:25 编辑

ppt上,1000倍,从fp16到fp8,再到fp4
发表于 2024-3-19 18:29 | 显示全部楼层
对国内禁售么
发表于 2024-3-19 19:40 | 显示全部楼层
callmered 发表于 2024-3-19 16:26
然后会国内访问不了ai.nvidia.com

我可以打开啊。
发表于 2024-3-19 21:17 | 显示全部楼层
赫敏 发表于 2024-3-19 15:56
精度越来越低了,FP4都出来了。然后FP64被砍到膝盖

因为比起精度来,神经网络更需要规模。。。之前有论文发现规模上去之后,只需要1.58位(也就是3进制)就够了。。。
发表于 2024-3-19 22:17 | 显示全部楼层
冷月有痕 发表于 2024-3-19 16:27
起码还有20%的性能留手

起码未来两代已经研究的差不多了 何止20%
发表于 2024-3-19 22:17 | 显示全部楼层

自信点 把么去掉
发表于 2024-3-20 08:15 | 显示全部楼层
我还是老实的做个傻子吧
发表于 2024-3-20 09:45 | 显示全部楼层
这下国内咋办,差距越来越大了。
发表于 2024-3-20 11:08 | 显示全部楼层
Maybacx 发表于 2024-3-19 22:17
起码未来两代已经研究的差不多了 何止20%

我感觉也是,研发上应该实现了下代甚至下下代,现在是考虑放长线和降低生产成本的问题
发表于 2024-3-21 20:12 | 显示全部楼层
阿崔 发表于 2024-3-19 21:17
因为比起精度来,神经网络更需要规模。。。之前有论文发现规模上去之后,只需要1.58位(也就是3进制)就 ...

asic里塞了个gpu
发表于 2024-3-21 22:19 | 显示全部楼层
挺好的,虽然我们是买不到了。至少别人把可商用的实物做出来了,我们可以有很明确的目标啊。
发表于 2024-3-23 08:11 | 显示全部楼层
邪恶的光B 发表于 2024-3-21 22:19
挺好的,虽然我们是买不到了。至少别人把可商用的实物做出来了,我们可以有很明确的目标啊。 ...


只是正常渠道买不到而已,得加钱
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-6-3 14:12 , Processed in 0.013817 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表