找回密码
 加入我们
搜索
      
查看: 4678|回复: 33

[显卡] 想向AI领域的专业人士请教一下deepseek的问题

[复制链接]
发表于 2025-1-28 22:48 | 显示全部楼层 |阅读模式
本帖最后由 RZ.zheng 于 2025-1-28 23:13 编辑

事情大家应该都知道了,我是外行人想向AI领域的专业人士请教一下,目前ds开源的东西是不是会对未来开发更新更强乃至真正的通用AI造成很大的影响(注意是未来的,更强的,不是现在的,比如openAI5、openAI6),不管是训练也好还是推理也好,只看推出成品的结果不管过程
我这两天看论坛有2种声音

第一种是说DS公开的东西大幅提高了现在包括未来训练的效率,能够对所有AI训练提速,或者换个说法就是不管是训练还是推理,同样的算力能大幅减少推出openAI5或openAI6的时间,或者同样的时间但需求的算力可以大幅减少,能够大大提速所有公司开发更强AI的进度

第二种说法是DS公开对现有AI模型的训练可以大幅提高效率,如果一家小公司用DS公开的方式训练,从零开始要做出openAI4等级的模型就容易很多,但是如果要做更强的模型,比如openAI5或者openAI6那种级别的东西,那DS公开的方式就没有什么太大的帮助
想问一下有没有专业人士能解答一下我的问题具体是属于哪一种情况呢

openAI是因为被屏蔽了我换个写法哈,以上是纯技术的讨论
发表于 2025-1-28 22:56 | 显示全部楼层
AI4 AI5 AI6 是什么东西啊……
 楼主| 发表于 2025-1-28 22:58 | 显示全部楼层
如果从商业投资的角度来看,不管是哪一种情况老黄的卡都是供不应求不愁卖的,算力永远不嫌多
但是如果是第一种情况对于软件公司来说是大利好,但是对于老黄来说是个利空,虽然卡还是不愁卖但是大科技公司的话语权会强很多,不必再看老黄的脸色接受比**还高的溢价来买计算卡
如果是第二种情况那只是对中小公司有利,对大公司来说他们追求的永远是未来,只要能更快的发开出更强的AI,他们不管花多少钱都在所不惜,被迫要接受老黄的高溢价
两种不同的情况对NV的盈利能力可能会有很大的影响
 楼主| 发表于 2025-1-28 23:01 | 显示全部楼层
理智的边缘 发表于 2025-1-28 22:56
AI4 AI5 AI6 是什么东西啊……

OPENAI 4、openai5我换了个写法,直接写GXX4被屏蔽了
发表于 2025-1-28 23:15 | 显示全部楼层
RZ.zheng 发表于 2025-1-28 22:58
如果从商业投资的角度来看,不管是哪一种情况老黄的卡都是供不应求不愁卖的,算力永远不嫌多
但是如果是第 ...

老黄卖卡,主要是他垄断。 效率提高,对他没什么影响,因为训练什么模型都得用计算卡,当然AMD的卡也可以训练只不过现在生态还不好。

国内当然是华为昇腾了,因为国内有美国限制,高算力的卡只有昇腾。

现在威胁最大的就是 闭源模型,比如openai  百度这种。

Meta是开源的,只要研究下一代模型用新的算法就可以了。
发表于 2025-1-28 23:20 | 显示全部楼层
本帖最后由 理智的边缘 于 2025-1-28 23:23 编辑

当然你从投资的角度想,看老黄肯定是大跌了,因为投资投的是预期。

你现在这个算法,导致凭空算力提升了10倍,以后卖计算卡的预期就没了,所以股价会跌。

但是你换个思路,由于算力提升了10倍,成本下降了。会导致更多的人参与进来,进而卖出更多的计算卡 也不一定。


这就是投资的博弈了。

你想原来你要做Meta 那种大模型 需要1.6W张卡,现在只需要2000张了,而且还是开源的。所以会有更多人参与进来搞大模型

所以DEEPSEEK意义是在这里,就是普惠AI。让所有人都可以参与进来。
发表于 2025-1-28 23:32 | 显示全部楼层
每个模型基本上都是用当前的方法达到了瓶颈再放出来的。
 楼主| 发表于 2025-1-28 23:34 | 显示全部楼层
理智的边缘 发表于 2025-1-28 23:20
当然你从投资的角度想,看老黄肯定是大跌了,因为投资投的是预期。

你现在这个算法,导致凭空算力提升了10 ...

你说的这些我也有考虑到,算力提升了10倍大科技公司依然会照单全收NV的计算卡,但是我觉得价格会降很多,比如22年AI刚出现的时候大公司愿意加价2倍甚至3倍抢卡,到现在依然还是要付出高溢价来买显卡,但是如果DS的出现能够让现有卡算力提升10倍,那我未来采购新卡的时候就不需要采购那么多了,比如我今年投资在AI上的预算是500亿,之前这500亿我全部要投在买显卡上,但DS开源后证明优化算法也是一种提升效率的方式,那我可能花450亿买显卡,花50亿请工程师优化算法,得到的结果比我直接花这50亿买显卡给我带来的效果更好,那老黄的溢价能力就会受到很大的影响,只是打个比喻,如果DS开源的东西只对现有模型训练有帮助,对未来训练没有帮助,那大科技公司依然要高价抢购老黄的卡
发表于 2025-1-28 23:40 来自手机 | 显示全部楼层
我找做大模型的同事问的情况看,感觉两个都有点偏激了
发表于 2025-1-28 23:47 | 显示全部楼层
本帖最后由 理智的边缘 于 2025-1-28 23:49 编辑
RZ.zheng 发表于 2025-1-28 23:34
你说的这些我也有考虑到,算力提升了10倍大科技公司依然会照单全收NV的计算卡,但是我觉得价格会降很多, ...


我都说了,抢老黄的卡 是因为他的生态好罢了。AMD现在卖的卡也很好,你去看看AMD的财报。
举个例子,开发游戏只有WIN版本没有LINUX版本 不是因为不能开发LINUX而是LINUX版本开发难度大,各种开发软件少。这就叫生态。

DEEPSEEK就是提高训练效率,对未来当然有帮助。直接就是换赛道了,你不用这个模式成本比人家高,你直接就被淘汰了

Meta的模型 450B的参数,如果它新模型需要600B参数,那它当然要比原来1.6W张计算卡买更多的卡。而现在如果用DEEPSEEK的模型600B的参数没准买的卡只需要8000张了,比原来少很多了。但总是要买卡的。因为训练需要卡,你推理也需要卡(推理就是提供服务的API需要卡)
发表于 2025-1-29 00:54 | 显示全部楼层
我的看法是跟大家介绍了一种可能性,就是不用继续堆算力,也能训练出效果不错的模型。毕竟从**2到**3到**4,一直说的是参数量变大,训练成本变高,scaling law,一般公司玩不起,吧啦吧啦。
另外一层很多人都忽视的是,英伟达的逻辑自身也在转变。刚开始吹的训练,训练吹不下去了现在吹推理。这里比较实际的问题是英伟达利润率太高,如果推理的逻辑真的成立的话,任何企业都无法容忍这么高的利润率(所以你看到Google,Meta,Amazon,Microsoft,Tesla都在自研推理芯片)。结果就是英伟达芯片要么便宜卖,要么卖不出去,这两种情况对股价都是毁灭性的打击。
发表于 2025-1-29 01:17 来自手机 | 显示全部楼层
训练一次就要一个小目标,还不算人工,这不算小公司了吧。这个领域是数据中心寡头对垒芯片寡头。
发表于 2025-1-29 01:17 | 显示全部楼层
DeepSeek用RL完全代替了SFT,训练成本下降了很多。但RL需要teacher model啊,也就是说市面上得先有一个比DeepSeek更强大的模型,他才能通过RL迅速学会老师的“思维方式”。
发表于 2025-1-29 01:18 | 显示全部楼层
专业的人的回答你听不懂,听懂的就是莫名其妙的。

西人堆资源的逻辑是有限元的难以为继,很多领域都是如此,文明根子如此

转下其他帖子里关于ds的回复,再深点还是别说的好,希望能稍微明白当前的整体态势,演化。
就个体投资来说,这种体量的游戏,不是个体能参与的,人家能塑造投资环境,个体、群体被耍得团团转。
这种游戏是霸权主权体、准霸权主体玩的,资本系也仅是随波逐流、推波助澜的参与方,绝不是主动主导方。

最近影响AI算力的因素最权重的应该是DeepSeek
https://www.chiphell.com/thread-2668462-1-1.html
(出处: Chiphell - 分享与交流用户体验)
这事从头说起得从70年代的美帝金融改革开始,各种金融工具爆炸式扩增,各领域,尤其是对题的“科技”金融化的操作,左脚踩右脚式的螺旋飞升下来,几轮科技革命(收割)下来维持着美帝的霸权地位。也透支着帝国的残力。
然而主权投资、风投买办、全球的舆论认知层往往都会有独特的正面解读,此前在简中世界里各取所需,没人扯什么皇帝的新衣是骗局。因为那些是当时的正统认知。几十年前某些领域的某些人就有清醒的认知。有幸在进入社会前就接受了科技圈、金融圈清醒的熏陶。

然而时代变了,皇帝们光着屁股转着圈的丢人。

征途漫漫,继往开来,才对得起祖父辈们曾经的牺牲。塑造新世界需要几代人,十几代人、几十代人的持续发力。
对于普通人来说少做点亲者痛仇者快的事就对得起种族了。无知不是免责免罪的借口。
看不明白,围观吃瓜开眼界不好么,哈哈。


NV说了:卡管够~
https://www.chiphell.com/thread-2668774-1-1.html
(出处: Chiphell - 分享与交流用户体验)
冷静点,仅靠ds还不足以撼动nv依存于AI\AGI的生态,当然了硬件生态也不是不能撼动的,这年月唯一不变的是持续变化,而且是巨变。
构建新质生产力的号角已吹响,国家战略,可不是以往部委的专项级别。
自觉自信,国人智力资源并不差,起码现在**有前沿应用变现的能力的组织、企业一大把。

在前沿领域的组织度、智力密度、资源配给成熟,需要的是时间。
建国后比这玩意难度更大的玩意都能玩成功,信心是不言而喻的。
没信心,可能是立场问题或者是跪太久了。

AGI\AI这种应用、商用化描述的名称能出来,从历史逻辑说明其更极端性的前沿专业领域早已应用。
早已布局,收割的不亦乐乎。霸权体布下的商用局就是收割局,冲进去作甚?信仰?
发表于 2025-1-29 01:21 来自手机 | 显示全部楼层
af_x_if 发表于 2025-1-28 23:32
每个模型基本上都是用当前的方法达到了瓶颈再放出来的。

至少llama系列目测不是,还在训练时候就预告要发布了。这个领域变化快,多数还是抢占坑位之后更新。
发表于 2025-1-29 02:37 来自手机 | 显示全部楼层
zerozerone 发表于 2025-1-28 17:18
专业的人的回答你听不懂,听懂的就是莫名其妙的。

西人堆资源的逻辑是有限元的难以为继,很多领域都是如此 ...

又来玩朝阳门出租司机回复
发表于 2025-1-29 07:32 | 显示全部楼层
这东西看你从哪个角度来看
DS通过RL和优化训练过程来减少训练所需要的计算卡. 这个过程是可以被复制的, 幻方所使用的技术是现有技术, 基本没有技术创新, 优化用的是系统工程学. 优化过程也用论文发布出来了, 同样的方法可以很容易被复制.

现在的问题是大模型已经很够用了吗, 真的不需要继续训练新的大模型吗?

在我看来如果说现在的大模型已经到了相当成熟的极端, 幻方另辟蹊径的模型训练优化办法确实对于英伟达是个沉重的打击. 但是现在大模型只是进化到了推理模型, 离成熟商用还有很长一段路要走. 幻方的模型训练方法和堆算力完全就不是同一个赛道的. 两者可以很好的结合起来. 我们乐观点估计幻方的模型训练优化方案能把所需算力缩小20倍, 也就是说模型训练的效率提高20倍, 现在OpenAI用同样的优化方案应用在他的20万张H100上, 会训练出一个什么样的怪物模型. 所以对于英伟达的计算卡根本就没有什么影响, 因为算力和优化根本就是两个方向, 而且可以很容易结合起来.   
发表于 2025-1-29 12:17 | 显示全部楼层
对总算力的要求可以查一下杰文斯悖论,长期来看肯定还是要更多的计算卡。但是投资人多数不是要长期(比如说三十年后)的回报,而是三年或者三个月的回报,所以老黄前天大跌,那是三个月的投资人退了,然后计划持有三年以上的投资人昨天趁低买了一些。
发表于 2025-1-29 12:45 | 显示全部楼层
DeepSeek的论文可以解答你的问题。
坛子里的讨论基本都是火箭烧煤。
发表于 2025-1-29 14:16 | 显示全部楼层
YsHaNg 发表于 2025-1-29 02:37
又来玩朝阳门出租司机回复

你确认朝阳门司机有这水平,朝阳门的司机可没几个本地的。这是虚空回怼?
 楼主| 发表于 2025-1-29 15:50 | 显示全部楼层
今晚大老虎 发表于 2025-1-29 07:32
这东西看你从哪个角度来看
DS通过RL和优化训练过程来减少训练所需要的计算卡. 这个过程是可以被复制的, 幻 ...

你说的这种情况属于我列出来的第一种,就是可以把训练的方案优化后应用到开发未来的新模型上,因为我之前看到另一种论调就是说DS开源的东西只对训练到现阶段出现的模型有帮助,对训练未来的新模型没有帮助,所以我才发贴想问一下有没有懂的人能解答
 楼主| 发表于 2025-1-29 15:56 | 显示全部楼层
ScreaM 发表于 2025-1-29 01:17
DeepSeek用RL完全代替了SFT,训练成本下降了很多。但RL需要teacher model啊,也就是说市面上得先有一个比De ...

如果你是真的了解AI的人,你给出的答案是正确的,你解释的很清楚,我一下就听懂了
 楼主| 发表于 2025-1-29 16:04 | 显示全部楼层
理智的边缘 发表于 2025-1-28 23:47
我都说了,抢老黄的卡 是因为他的生态好罢了。AMD现在卖的卡也很好,你去看看AMD的财报。
举个例子,开发 ...

你对于算力上的解释我一直都明白,但是我站在另一个角度去看的,举一个具体的例子来说比如22年AI刚出现的时候大公司愿意用2-3倍的价格买显卡,但现在已经不愿意出那么高的价格了,不管是22年还是现在老黄的卡都是供不应求的,但是溢价却降了很多,我觉得主要原因就是产量上来了算力需求得到了缓解,那如果DS公开的东西对效率有很大的提升,那算力的需求还会再度缓解,没有原来那么紧迫了,不是说算力不重要或者未来会饱和,只是厂商不会那么恐慌性的抢购显卡了,那NV的溢价就要下降了
发表于 2025-1-29 16:19 来自手机 | 显示全部楼层
zerozerone 发表于 2025-1-29 06:16
你确认朝阳门司机有这水平,朝阳门的司机可没几个本地的。这是虚空回怼? ...

噗 认为有水平可还行 还顺便地域歧视 要说这到底是左还是右呢
发表于 2025-1-29 17:24 | 显示全部楼层
第一种说法稍微准确一点,目前 o1 公布的细节很多,都有很长的 system card 可以看,o3 的很多细节还不清楚,不清楚 openai 是怎么做的,而且 deepseek-r1 的性能也没有超出 o1,deepseek-r1 的成功强调了 rl 的重要性,以及显示工程上的效率提升,能让算力需求下降很多,至少是 o1 性能以下的模型,都可以用这个思路来。

类似曼哈顿计划成功了,那大家都知道做一个普通的原子弹不是难事了,大家都有信心投入了,但是 1000 万当量的氢弹,是不是还是用目前的方式来做,先发者可能自己都不清楚,深度学习的热点变化很快的,可能 o3 的下一代产品就已经是另一个训练方式了
发表于 2025-1-29 17:45 | 显示全部楼层
学术上偏激一些无伤大雅,被攻击就是有人心理不健康了。
发表于 2025-1-29 17:51 | 显示全部楼层
RZ.zheng 发表于 2025-1-28 23:34
你说的这些我也有考虑到,算力提升了10倍大科技公司依然会照单全收NV的计算卡,但是我觉得价格会降很多, ...

按DS的说法,降了数量级的算力消耗,意味着现在的所有头部乃至肩部企业的算力已经溢出了,毕竟现在的头部公司肯定是有足够算力跑meta的开源模型的。很可能瓶颈不再是算力而是数据,没有那么多可以用来训练的数据
至少这波很多公司的预算得调整一下了,到底还要不要买卡,买多少卡,甚至是不是换到更便宜,一样能用的A卡或者I卡。
这波反正老黄肯定是要受到暴击的。
发表于 2025-1-29 17:51 | 显示全部楼层
能告诉你这个消息的人不会告诉你
 楼主| 发表于 2025-1-29 17:55 | 显示全部楼层
chesha1 发表于 2025-1-29 17:24
第一种说法稍微准确一点,目前 o1 公布的细节很多,都有很长的 system card 可以看,o3 的很多细节还不清楚 ...

感谢,但我看你的意思好像更符合我的第二种说法,就是DS开源的东西对现阶段比较有帮助,要开发更强的AI帮助就不大了
发表于 2025-1-29 20:15 | 显示全部楼层
RZ.zheng 发表于 2025-1-29 17:55
感谢,但我看你的意思好像更符合我的第二种说法,就是DS开源的东西对现阶段比较有帮助,要开发更强的AI帮 ...

DS的开源几乎是免费的,任何人都可以使用,为啥,因为后面的迭代已经规划好了.不停的"快速"迭代,而这个迭代以后大概率都是用非老黄的卡,至于是否胜出,未知,但把卖铲子的由一家选择成为几家,西方国家的标准都是基于老黄铲子来定的,现在不需要了,你说那个急...
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-23 03:34 , Processed in 0.013860 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表