找回密码
 加入我们
搜索
      
楼主: enolc

[显卡] 探讨和求证deepseek背后的算力真相

[复制链接]
发表于 2025-1-28 17:47 | 显示全部楼层
一日 发表于 2025-1-28 13:23
他们很早就有了万卡h100。h100被禁后又有h800集群。其实他们的研究如果比较谨慎的话,这个规模肯定足够了。 ...

好像是万卡A100,不是H100.
H100出来不到几个月老美就出了禁令,根本来不及抢卡的。
限制之前,国内买卡最多的是汽车三傻,幻方也是大买家。
在openai大火之前,卡也没这么热。
发表于 2025-1-28 18:46 | 显示全部楼层
5w张h100亏他说得出来,美帝资本已经到了宁愿信美丽国制裁监管是一坨屎的地步了?
 楼主| 发表于 2025-1-28 23:34 | 显示全部楼层
xks07 发表于 2025-1-28 17:47
好像是万卡A100,不是H100.
H100出来不到几个月老美就出了禁令,根本来不及抢卡的。
限制之前,国内买卡 ...

还有百度,阿里和腾讯那些大厂
发表于 2025-1-28 23:37 | 显示全部楼层
enolc 发表于 2025-1-28 23:34
还有百度,阿里和腾讯那些大厂

你别扯淡了好吧。
大模型,腾讯一直都是跟随策略。
国内买卡最多的大厂是字节和阿里。
百度和阿里还搞自研ASIC。
美团连AMD的计算卡都买。
 楼主| 发表于 2025-1-28 23:48 | 显示全部楼层
本帖最后由 enolc 于 2025-1-29 00:20 编辑
xks07 发表于 2025-1-28 23:37
你别扯淡了好吧。
大模型,腾讯一直都是跟随策略。
国内买卡最多的大厂是字节和阿里。


一下都是2023年的旧闻:

来源:华尔街见闻
微软和位居榜首,双双从购买了15万块H100 GPU;腾讯购买了5万块H800 GPU,百度和阿里分别购买了3万和2.5万块GPU。

搜狐新闻:
多名知情人士表示,百度(Baidu)、字节跳动(ByteDance)、腾讯(Tencent)和阿里巴巴(Alibaba)已下了价值10亿美元的订单,将从这家美国芯片制造商购买约10万个A800处理器,这些处理器将于今年交付。两位接近英伟达的人士表示,这些中国集团还购买了价值40亿美元的图形处理单元,其将于2024年交付。

扯什么蛋
 楼主| 发表于 2025-1-28 23:52 | 显示全部楼层
事实就是老黄一直在向国内卖卡(符合美国算力监管规定的GPU)
发表于 2025-1-29 00:14 来自手机 | 显示全部楼层
本帖最后由 8xwob3ko 于 2025-1-29 01:47 编辑

蒸馏训练成本大幅降低,推理成本大幅降低也是必然的,成本降了很多,但是不需要卡还不至于
发表于 2025-1-29 00:22 来自手机 | 显示全部楼层
enolc 发表于 2025-1-28 23:48
一下都是2023年的旧闻:

来源:华尔街见闻

那是之前了,现在只能间接用(比如租海外的算力),或者买符合规范被阉割很多的卡,或者直接买国产卡
 楼主| 发表于 2025-1-29 02:33 | 显示全部楼层
8xwob3ko 发表于 2025-1-29 00:22
那是之前了,现在只能间接用(比如租海外的算力),或者买符合规范被阉割很多的卡,或者直接买国产卡 ...

大漂亮这么搞就是损人不利己,尽管短期有利于大漂亮的AI战略竞争,但从长远来看损害的还是大漂亮,对全球科技文明的进程也是一种极大的拖累
发表于 2025-1-29 02:46 | 显示全部楼层
grqj52 发表于 2025-1-28 05:46
5w张h100亏他说得出来,美帝资本已经到了宁愿信美丽国制裁监管是一坨屎的地步了? ...

确实是一坨屎啊,美国人都相信。基本上都是芝麻大小的事情抓着不放,旁边钻漏洞的动静多大了也不管

并非特指显卡,所有民生的项目比如福利、医疗、税务、移民等等
 楼主| 发表于 2025-1-29 03:20 | 显示全部楼层
本帖最后由 enolc 于 2025-1-29 03:21 编辑
赫敏 发表于 2025-1-29 02:46
确实是一坨屎啊,美国人都相信。基本上都是芝麻大小的事情抓着不放,旁边钻漏洞的动静多大了也不管

并非 ...


没错!懂王上台,这几天抓了多少垃圾非移,最可怕的是这些被抓的只是冰山一角。美国国内问题一大堆,非揪着兔子没事找事。还有sb参议员 Tom Cotton说吃中餐会有损美国人的健康,为了了政治利益满嘴胡说八道 (对就是那个在tiktok周受资国会听证会上听不懂人话的sb) 其实很多美国老百姓的脑子还是很清楚的,那些DC的神棍们,十个里面有九个都是满嘴谎话,毫无羞耻感的各种垃圾。

前几年,受到中/美关系大环境的影响,各大企业和科研机构排斥或者减少华人的招聘,用DEI分类里面的黑墨木三来替代,结果大家都看到了,飞机一直在摔,牙膏厂濒临倒闭,NASA数年的项目毫无进展,现在开始搞拨乱反正大运动,开始清除DEI项目和三哥三姐,too late now!

所以在AI项目的技术层面,我国追赶和超越美国是完全合乎逻辑的结果,只不过这一天的到来远比很多人预想提前了很多..................
发表于 2025-1-29 03:27 | 显示全部楼层
本帖最后由 赫敏 于 2025-1-28 14:29 编辑
enolc 发表于 2025-1-28 14:20
没错!懂王上台,这几天抓了多少垃圾非移,最可怕的是这些被抓的只是冰山一角。美国国内问题一大堆,非揪 ...


R1这个应该算是正常技术迭代的结果,毕竟业界都认为AI还处于初级阶段

只不过美国AI行业虹吸效应太明显,几个巨头吃相太难看太快就开吸了,人才和资本一下子被吸干

当然美国其他行业也是这样,哪家稍微有点起色就可以在资本的催化下瞬间吸干
 楼主| 发表于 2025-1-29 03:35 | 显示全部楼层
赫敏 发表于 2025-1-29 03:27
R1这个应该算是正常技术迭代的结果,毕竟业界都认为AI还处于初级阶段

只不过美国AI行业虹吸效应太明显, ...

资本的特点是要赚快钱,而且为了钱,他们可以不惜任何代价透支未来,以后的事和他们无关..................
 楼主| 发表于 2025-1-29 03:41 | 显示全部楼层
另外由于硬件受限,我们的科技人员只能在技术层面深耕和寻求突破,放眼整个高科技行业(芯片,机器人,无人机,AI等等),颇有当年先辈们搞两弹一星的架势,短期看美国的封锁是坏事,但是长远来看却是一种(被迫)最好的激励机制和成就我们未来伟业的巨大伏笔..............
发表于 2025-1-29 08:29 | 显示全部楼层
本帖最后由 Kyle-Zhu 于 2025-1-29 08:36 编辑

知道同样地研究为什么始终成为不了主流,当美帝的国家战略是白痴吗,软突破最容易实现可复用且有上限。时间不用长,不信的3个月后再来看这个铁。
 楼主| 发表于 2025-1-29 09:07 | 显示全部楼层
本帖最后由 enolc 于 2025-1-29 09:11 编辑
Kyle-Zhu 发表于 2025-1-29 08:29
知道同样地研究为什么始终成为不了主流,当美帝的国家战略是白痴吗,软突破最容易实现可复用且有上限。时间 ...


就AI行业而言,美帝的资金和硬件优势没人否定哈,我们现在成为不了主流不代表将来不是主流,把时间线拉长到10,20甚至50年,回头再看这个帖子。还是那句话,只要内部团结一致,未来的世界大概率属于我们。

美帝当前的混乱的社会结构,复杂的人口组成和主流阶层政治经济生态的割裂已经对未来发展显现了巨大的阻碍作用,50-80年末期那种全社会欣欣向荣的景象早已消失,取而代之的是无穷无尽的社会内耗和民意撕裂(所有这一切都是那些白宫政客多年以来难以解决的本质问题)。不知道美国在二战以后的baby boom时代打下老本还能支撑多久..............

美帝的国家战略其实很简单:维持美元霸权,以此捍卫一切国家利益
发表于 2025-1-29 09:24 | 显示全部楼层
enolc 发表于 2025-1-28 12:34
2000个英伟达H800芯片集群训练V3,我觉得真的很牛啊!同时也很怀疑deepseek能拥有50000块H100的说法 ...

黄世仁:我不是我没有
发表于 2025-1-29 09:35 来自手机 | 显示全部楼层
我感觉deepseek宣传还是有很大水份,从我个人使用上来,文本生成和4o还有不小差距,deepseek生成的东西第一眼看上去很好,但内在逻辑一片混乱,上下文都似乎没什么关系。另外,我感觉这次deepseek的目的应该是想利用股市波动赚钱…实际效果和所用的算力可能需要打个折扣
 楼主| 发表于 2025-1-29 09:38 | 显示全部楼层
mdeu 发表于 2025-1-29 09:24
黄世仁:我不是我没有

人脑神经节点的处理信息总量大约在100T token,AI的硬件规模很快就能达到和实现超越,软件和算法的更新迭代将成为关键中的关键,我们在这方面的潜力很大,或者可以这么说,不比美国差,而且更高效
 楼主| 发表于 2025-1-29 10:58 | 显示全部楼层
本帖最后由 enolc 于 2025-1-29 11:00 编辑

美国加州大学洛杉矶分校工程与法律教授约翰·维拉塞诺在接受美国有线电视新闻网(CNN)采访时也说:“这些AI出口管制非但不会阻碍中国,反而可能会通过推动中国创新,并加速中国AI能力的发展。可以说,这些出口管制适得其反。”

CNN评价道,这将对特朗普第一任期和拜登政府时期实施的,以及特朗普2.0政府设想的对华严厉打击措施造成打击。美国对华限制适得其反的观点,引发了人们对AI繁荣的基础、中/美之间“技术军备竞赛”以及特朗普政府应该如何应对的严峻质疑。

BBC称,中国虽然在稀土金属和工程人才方面占据主导地位,但美国似乎认为其丰富的数据中心和对最高端芯片的控制使其在AI领域占据领先地位。尽管一些高层管理人员高调警告称,美国的优势不能被视作理所当然,但不少人仍认为,美国将主导AI竞赛已成定局。
发表于 2025-1-29 13:17 | 显示全部楼层
这个alex wang是openAI的数据供应商,给openAI做数据清洗的(剔除无效信息提高训练质量),是个19岁从大学辍学出来创业(捞钱)的“天才”。表面上是搞ai的,本质上是个商人

他说什么不重要,重要的他有没有乘机吃进nV的股票。要不谁去X上问问?

发表于 2025-1-29 13:25 | 显示全部楼层
500万可以达到这样的效果,那国外的上千万多几十倍算力,会更强的吧。
发表于 2025-1-29 14:16 | 显示全部楼层
jihuan 发表于 2025-1-29 09:35
我感觉deepseek宣传还是有很大水份,从我个人使用上来,文本生成和4o还有不小差距,deepseek生成的东西第一 ...

每次长假之前都会搞几个大新闻。
deepseek是不错,不过跟Chat**比,还只能说是个玩具。
发表于 2025-1-29 15:22 | 显示全部楼层
不用挽尊,股票跌成这样,华尔街的投资者不傻~
发表于 2025-1-29 16:27 | 显示全部楼层
v3的论文说的很详细了,使用了配备2048块h800的阵列,单个Node 8xh800,总共消耗278万8千个h800 gpu时.也就是耗时两个月左右吧。

美国人用h100组个类似的阵列,也不用跑完,跑一个星期差不多就能完成验证了——应该是有公司已经完成了初步的验证。

另外我发现v3是12月26日——毛**诞辰当天在github发布的,当天还下水了076——四川级航母,首飞了j36。我不认为这是巧合,看起来是某种协调好的信息战。

2000块h800就能跑的话,我要是美国人我就用10000块h100组4个2560Xh100阵列,跑他3个月看看有没有什么新的成果再说——对有10万h100的公司来说这只是调整了1/10的算力分配。h800用了50多天,用h100也就1个月,就能得到4个接近4o的模型。

这意味这所有从事agi研发竞争的企业都需要重新评估自己的算力部署策略。对算力卡的采购可能会延迟一个季度,数量也会大幅削减。


 楼主| 发表于 2025-1-30 00:33 | 显示全部楼层
本帖最后由 enolc 于 2025-1-30 02:52 编辑
los_parrot 发表于 2025-1-29 16:27
v3的论文说的很详细了,使用了配备2048块h800的阵列,单个Node 8xh800,总共消耗278万8千个h800 gpu时.也就 ...


对于同样是开源构架的Meta Llama 借鉴和验证DS会容易很多,Open AI模型就没那么容易根据DS做优化和更新了,现在外网大肆操作DS的蒸馏技术.............实话实说,DS证明了在AI领域内,开源比闭源模型具有大得多的技术迭代优势和高效利用硬件参数的发展前景

DS的特色在于成功运用Chain-of-thought (CoT) prompting,而CoT的本质就是把人如何思考程序化了,早就有文章证明运用CoT可以大大提高AI模型的学习能力和回答逻辑性强问题的能力。由于DS的成功,各个大模型会马上跟进。
 楼主| 发表于 2025-1-30 00:41 | 显示全部楼层
1月29日,白宫人工智能事务负责人david sacks说open Ai模型被deep seek蒸馏了,他说接下来几个月美国地leading AI公司会开始阻止这种蒸馏操作。
发表于 2025-1-30 02:47 | 显示全部楼层
ds一刀捅下去,神仙会流血了,那么这个神仙是个伪神。
破除迷信和盲目仰视,路漫漫其修远兮,碎尸万段还需一步步来。

总有人愿意一直跪舔,各种找角度,当然也是是信仰,别人碰不得,只能自己来破除认知,或者带进坟墓里。
发表于 2025-1-30 05:35 | 显示全部楼层
自信也要符合基本法啊
发表于 2025-1-30 09:01 | 显示全部楼层
只是效率提高了而已,最后还是得靠堆算力
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-22 22:25 , Processed in 0.013620 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表