找回密码
 加入我们
搜索
      
楼主: cyberms

[显卡] DeepSeek杀手锏是价格,对老黄是明显负面

[复制链接]
发表于 2025-1-27 11:55 | 显示全部楼层
RZ.zheng 发表于 2025-1-27 11:43
我是圈外人,我想请问一下deepseek的训练方法开源了那是不是其他大公司也能用这样的方法来训练呢?如果是 ...

并不会少买,很简单一个道理:难道种子高产了,农场就会少种地么?至少近几年全人类对算力更大的需求趋势是不会变的
当然NV想像24年一样躺着吃确实也不可能了,deepseek开源意味着其他潜在的供应商(农企、昇腾乃至之前的ASIC矿机厂又有重回赛道的快车道了)
发表于 2025-1-27 11:56 来自手机 | 显示全部楼层
毛茸茸 发表于 2025-1-27 11:06
这公司产品如此牛逼,在chat**出来之前肯定一直在默默耕耘,著作等身,厚积薄发吧。事实上呢:杭州深度求索 ...

一看就是平时不关心政治的
发表于 2025-1-27 11:59 | 显示全部楼层
msrp已经是做慈善了
还在做什么大梦
发表于 2025-1-27 12:05 | 显示全部楼层
拭目以待吧,一点不看好,我只知道国内请一个文科硕士要比买块H100简单的多。什么蒸馏法,呵呵。
发表于 2025-1-27 12:12 来自手机 | 显示全部楼层
RZ.zheng 发表于 2025-1-27 11:43
我是圈外人,我想请问一下deepseek的训练方法开源了那是不是其他大公司也能用这样的方法来训练呢?如果是 ...

对算力行业短期内肯定有冲击,今天美股就能反应出来,但是ds这个创新大幅降低了训练成本,意义是能加快llm的普及,后面肯定会有更多的公司参与进来,但是在AGI没有到来之前,算力依然很重要
发表于 2025-1-27 12:14 | 显示全部楼层
bxsoft 发表于 2025-1-27 12:12
对算力行业短期内肯定有冲击,今天美股就能反应出来,但是ds这个创新大幅降低了训练成本,意义是能加快ll ...

再问一下,是不是AMD的卡也能用于DS这种方式的训练呢,如果可以那岂不是很多企业会转向A卡
发表于 2025-1-27 12:18 | 显示全部楼层
jihuan 发表于 2025-1-27 11:29
看了deepseek写的骈体文言,初一看很惊艳,仔细一看就是gousi,典故用的惨不忍睹,金玉其外,败絮其中。 ...

你这话说的,哪家大模型写的不是狗食
发表于 2025-1-27 12:21 | 显示全部楼层
当年588缘开光588的场景?快进到年底小鱼309吧。。。老衲愿意双倍捐赠请进功德缸 以表广结善缘广纳福缘之初芯。。。
发表于 2025-1-27 12:25 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-1-27 12:28 编辑

deepseek使用的MoE架构是一个在推理的时候只需要激活少量“专家”参数的模型,所以它的成本会很低,目测会冲击到老黄,但是应该影响不大。因为这等于是大家在拼算力达到scaling law的受益边界时,突然有人重开了一条赛道,这条赛道只需要之前那条赛道的几十分之一的算力。

但是新赛道大家重新起跑后,还是会进入算力的比拼(猜测),目前还要看MoE架构对scaling law的耐受性了。

MoE并不是什么新架构(但是deepseek的训练方法是很新颖的),但要么是指在实验室里没有落地,要么效果很一般,目前比较成功的就是deepseek和chat** o1,但后者是闭源,你研究出来了但是只能自己玩,对业界贡献不大。前者是开参(论文部分开源)的,他至少证明了MoE架构的成功,类似帮人探索了前路。

以后很多业界大厂会一窝蜂转MoE吧,特别是谷歌他们本来就对MoE非常感兴趣,MoE虽然是94年的论文,之前还有个联盟学习也比较类似的概念,但进入深度学习是谷歌的17年论文。

评分

参与人数 1邪恶指数 +5 收起 理由
醉酒棕熊 + 5

查看全部评分

发表于 2025-1-27 12:32 | 显示全部楼层
一个工厂交社保的工人500个,背地里招了9500个黑工,然后报税的时候只能按照500人核算成本,9500人的工资开销是准备在资本市场割回来了。
发表于 2025-1-27 12:37 | 显示全部楼层
毛茸茸 发表于 2025-1-27 11:06
这公司产品如此牛逼,在chat**出来之前肯定一直在默默耕耘,著作等身,厚积薄发吧。事实上呢:杭州深度求索 ...

你怕不是不知道幻方在业内的能量,国内最早破千亿规模的私募,光管理费你算下就有多少了。这几年虽然业绩一般,但是因为降规模和换策略了。早几年赚麻了。禁令前老板一口气屯了一万多张卡,有万卡的公司你再看看有几家。
发表于 2025-1-27 12:41 来自手机 | 显示全部楼层
RZ.zheng 发表于 2025-1-27 12:14
再问一下,是不是AMD的卡也能用于DS这种方式的训练呢,如果可以那岂不是很多企业会转向A卡 ...

别说,AMD反应还是挺快的第一时间已将DeepSeek V3 模型集成到MI300X GPU上,针对AI推理进行了优化,大家看老黄赚钱都眼红啊,但是我觉得老黄这个生态壁垒短时间内应该没人能打破
发表于 2025-1-27 12:52 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-1-27 12:25
deepseek使用的MoE架构是一个在推理的时候只需要激活少量“专家”参数的模型,所以它的成本会很低,目测会 ...

deepseek 的强化训练方法,这两天很多学术机构的 AI 实验室都复现了。
还是很振奋人心的
毕竟巨头就那么几家,其他团队,尤其是学校实验室里的,都是屌丝啊。现在感谢 deepseek ,屌丝们可以继续快乐地做研究发论文,能不狂欢吗?
发表于 2025-1-27 12:56 | 显示全部楼层
8owd8wan 发表于 2025-1-27 12:52
deepseek 的强化训练方法,这两天很多学术机构的 AI 实验室都复现了。
还是很振奋人心的
毕竟巨头就那么 ...

实验室屌丝能收获一个比llama强的模型就好了。

预训练那都是神仙打架,咱就看看。
发表于 2025-1-27 13:05 | 显示全部楼层
电价下降了,不代表总电费就会下降
原本很多因为电费成本制约的技术就会更加普及,比如用电力净化海水

反而可能导致总电费上涨
发表于 2025-1-27 13:05 | 显示全部楼层
本帖最后由 dikuf001 于 2025-1-27 13:12 编辑
cyberms 发表于 2025-1-27 11:10
人家搞量化交易好多年了。

搞金融是最复杂的比通用ai复杂多了,因为完全没有规则。 ...


有,总规则就是在波动中低买高卖,低吸高抛。但人类有恐惧和贪婪,量化没有。。所以,人类被割的嗷嗷叫,除非你人类强行不顾道德,法律,耍流氓,看看那个长期资本是如何破产引发美国金融危机的。。。
发表于 2025-1-27 14:19 | 显示全部楼层
小心老美锁掉所有 DEEPSEEK 50000 张 H100 算力卡。
发表于 2025-1-27 14:22 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-1-27 12:25
deepseek使用的MoE架构是一个在推理的时候只需要激活少量“专家”参数的模型,所以它的成本会很低,目测会 ...

应该早有不少转了,我看字节上周发的豆包1.5也是MoE
发表于 2025-1-27 14:25 | 显示全部楼层
骑兵连,进攻!
发表于 2025-1-27 14:29 | 显示全部楼层
acki 发表于 2025-1-27 12:32
一个工厂交社保的工人500个,背地里招了9500个黑工,然后报税的时候只能按照500人核算成本,9500人的工资开 ...

你这就是华尔街的说法呗,虽然我没有证据,但它一定偷偷用了5万张H100,但不敢公布。

评分

参与人数 1邪恶指数 +1 收起 理由
醉酒棕熊 + 1

查看全部评分

发表于 2025-1-27 14:29 | 显示全部楼层
我輩樹である 发表于 2025-1-27 12:56
实验室屌丝能收获一个比llama强的模型就好了。

预训练那都是神仙打架,咱就看看。 ...

DeepSeek公开强化训练方法可以复刻,已经足够让屌丝团队开心啦。
知足常乐
发表于 2025-1-27 14:32 | 显示全部楼层
8xwob3ko 发表于 2025-1-27 14:22
应该早有不少转了,我看字节上周发的豆包1.5也是MoE


各家技术储备都是有的。kimi今天不是也发新的了么?估计马上会有一大波更新。这就是开源的好处。
发表于 2025-1-27 14:36 | 显示全部楼层
你以为的是:投资方“以前100算力的项目现在只需要10算力,我可以少投90%好爽”然后老黄亏麻了
实际上的:投资方“以前100算力的项目,现在只需要10算力,意思是我现在投一样的钱可以获得十倍算力的产出,加仓加仓”老黄苏妈大家一起猛猛赚
AI这块算力永远没人嫌少,技术发展只会让算力应用更有效而不是用的更少
发表于 2025-1-27 14:40 | 显示全部楼层
fgfdhgg 发表于 2025-1-27 14:36
你以为的是:投资方“以前100算力的项目现在只需要10算力,我可以少投90%好爽”然后老黄亏麻了
实际上的: ...

是这样的
发表于 2025-1-27 14:41 来自手机 | 显示全部楼层
fgfdhgg 发表于 2025-1-27 14:36
你以为的是:投资方“以前100算力的项目现在只需要10算力,我可以少投90%好爽”然后老黄亏麻了
实际上的: ...

算力扩大,得到的对应收益,不是线性的。
存在边际效应减少的问题
发表于 2025-1-27 14:44 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-1-27 14:32
各家技术储备都是有的。kimi今天不是也发新的了么?估计马上会有一大波更新。这就是开源的好处。 ...

现在发说明早就开始做了,等开源再训来不及,但估计是看到deepseek发了其他的也先发再说。
另外成本这个问题,蒸馏肯定比自己从头训成本低,但也不太可能都只做蒸馏,就现在这些模型蒸馏上限也有限,后续多半是结合着做。
发表于 2025-1-27 14:46 | 显示全部楼层
毛茸茸 发表于 2025-1-27 11:23
只怕是自己起家的量化他都没做明白,现在全球排名多少?然后跨界一年多就在其它领域碾压世界龙头?根本经 ...

18年的时候,幻方的员工“一只平凡的小猪”就个人捐助了1.38亿
发表于 2025-1-27 14:50 | 显示全部楼层
8xwob3ko 发表于 2025-1-27 14:44
现在发说明早就开始做了,等开源再训来不及,但估计是看到deepseek发了其他的也先发再说。
另外成本这个 ...

咱们处于生态圈下游,能蒸馏,能RL,有可能看到一些私有化垂直落地的希望,就知足了。知足常乐。
发表于 2025-1-27 14:52 来自手机 | 显示全部楼层
您天天的能不能少点宏大叙事和星辰大海
发表于 2025-1-27 15:05 | 显示全部楼层
cyberms 发表于 2025-1-27 10:54
苏妈:DeepSeek-V3模型已集成至AMD InstinctGPU

然后突然发现大陆多了了几十家GPU厂商
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-1-31 01:53 , Processed in 0.013908 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表