DeepSeek杀手锏是价格，对老黄是明显负面

xyk456as · 发表于 2025-1-27 11:55

RZ.zheng 发表于 2025-1-27 11:43
我是圈外人，我想请问一下deepseek的训练方法开源了那是不是其他大公司也能用这样的方法来训练呢？如果是 ...

并不会少买，很简单一个道理：难道种子高产了，农场就会少种地么？至少近几年全人类对算力更大的需求趋势是不会变的

当然NV想像24年一样躺着吃确实也不可能了，deepseek开源意味着其他潜在的供应商（农企、昇腾乃至之前的ASIC矿机厂又有重回赛道的快车道了）

dcx_310 · 发表于 2025-1-27 11:56

毛茸茸发表于 2025-1-27 11:06
这公司产品如此牛逼，在chat**出来之前肯定一直在默默耕耘，著作等身，厚积薄发吧。事实上呢：杭州深度求索 ...

一看就是平时不关心政治的

PolyMorph · 发表于 2025-1-27 11:59

msrp已经

是做慈善了
还在做什么大梦

acki · 发表于 2025-1-27 12:05

拭目以待吧，一点不看好，我只知道国内请一个文科硕士要比买块H100简单的多。什么蒸馏法，呵呵。

bxsoft · 发表于 2025-1-27 12:12

RZ.zheng 发表于 2025-1-27 11:43
我是圈外人，我想请问一下deepseek的训练方法开源了那是不是其他大公司也能用这样的方法来训练呢？如果是 ...

对算力行业短期内肯定有冲击，今天美股就能反应出来，但是ds这个创新大幅降低了训练成本，意义是能加快llm的普及，后面肯定会有更多的公司参与进来，但是在AGI没有到来之前，算力依然很重要

RZ.zheng · 发表于 2025-1-27 12:14

bxsoft 发表于 2025-1-27 12:12
对算力行业短期内肯定有冲击，今天美股就能反应出来，但是ds这个创新大幅降低了训练成本，意义是能加快ll ...

再问一下，是不是AMD的卡也能用于DS这种方式的训练呢，如果可以那岂不是很多企业会转向A卡

tanleiqu · 发表于 2025-1-27 12:18

jihuan 发表于 2025-1-27 11:29
看了deepseek写的骈体文言，初一看很惊艳，仔细一看就是gousi，典故用的惨不忍睹，金玉其外，败絮其中。 ...

你这话说的，哪家大模型写的不是狗食

ONEChoy · 发表于 2025-1-27 12:21

当年588缘开光588的场景？快进到年底小鱼309吧。。。老衲愿意双倍捐赠请进功德缸以表广结善缘广纳福缘之初芯。。。

我輩樹である · 发表于 2025-1-27 12:25

本帖最后由我輩樹である于 2025-1-27 12:28 编辑

deepseek使用的MoE架构是一个在推理的时候只需要激活少量“专家”参数的模型，所以它的成本会很低，目测会冲击到老黄，但是应该影响不大。因为这等于是大家在拼算力达到scaling law的受益边界时，突然有人重开了一条赛道，这条赛道只需要之前那条赛道的几十分之一的算力。

但是新赛道大家重新起跑后，还是会进入算力的比拼（猜测），目前还要看MoE架构对scaling law的耐受性了。

MoE并不是什么新架构（但是deepseek的训练方法是很新颖的），但要么是指在实验室里没有落地，要么效果很一般，目前比较成功的就是deepseek和chat** o1，但后者是闭源，你研究出来了但是只能自己玩，对业界贡献不大。前者是开参（论文部分开源）的，他至少证明了MoE架构的成功，类似帮人探索了前路。

以后很多业界大厂会一窝蜂转MoE吧，特别是谷歌他们本来就对MoE非常感兴趣，MoE虽然是94年的论文，之前还有个联盟学习也比较类似的概念，但进入深度学习是谷歌的17年论文。

acki · 发表于 2025-1-27 12:32

一个工厂交社保的工人500个，背地里招了9500个黑工，然后报税的时候只能按照500人核算成本，9500人的工资开销是准备在资本市场割回来了。

captain23 · 发表于 2025-1-27 12:37

毛茸茸发表于 2025-1-27 11:06
这公司产品如此牛逼，在chat**出来之前肯定一直在默默耕耘，著作等身，厚积薄发吧。事实上呢：杭州深度求索 ...

你怕不是不知道幻方在业内的能量，国内最早破千亿规模的私募，光管理费你算下就有多少了。这几年虽然业绩一般，但是因为降规模和换策略了。早几年赚麻了。禁令前老板一口气屯了一万多张卡，有万卡的公司你再看看有几家。

bxsoft · 发表于 2025-1-27 12:41

RZ.zheng 发表于 2025-1-27 12:14
再问一下，是不是AMD的卡也能用于DS这种方式的训练呢，如果可以那岂不是很多企业会转向A卡 ...

别说，AMD反应还是挺快的

第一时间已将DeepSeek V3 模型集成到MI300X GPU上，针对AI推理进行了优化，大家看老黄赚钱都眼红啊，但是我觉得老黄这个生态壁垒短时间内应该没人能打破

8owd8wan · 发表于 2025-1-27 12:52

我輩樹である发表于 2025-1-27 12:25
deepseek使用的MoE架构是一个在推理的时候只需要激活少量“专家”参数的模型，所以它的成本会很低，目测会 ...

deepseek 的强化训练方法，这两天很多学术机构的 AI 实验室都复现了。
还是很振奋人心的
毕竟巨头就那么几家，其他团队，尤其是学校实验室里的，都是屌丝啊。现在感谢 deepseek ,屌丝们可以继续快乐地做研究发论文，能不狂欢吗？

我輩樹である · 发表于 2025-1-27 12:56

8owd8wan 发表于 2025-1-27 12:52
deepseek 的强化训练方法，这两天很多学术机构的 AI 实验室都复现了。
还是很振奋人心的
毕竟巨头就那么 ...

实验室屌丝能收获一个比llama强的模型就好了。

预训练那都是神仙打架，咱就看看。

tianyuansnow · 发表于 2025-1-27 13:05

电价下降了，不代表总电费就会下降
原本很多因为电费成本制约的技术就会更加普及，比如用电力净化海水

反而可能导致总电费上涨

dikuf001 · 发表于 2025-1-27 13:05

本帖最后由 dikuf001 于 2025-1-27 13:12 编辑

cyberms 发表于 2025-1-27 11:10
人家搞量化交易好多年了。

搞金融是最复杂的比通用ai复杂多了，因为完全没有规则。 ...

有，总规则就是在波动中低买高卖，低吸高抛。但人类有恐惧和贪婪，量化没有。。所以，人类被割的嗷嗷叫，除非你人类强行不顾道德，法律，耍流氓，看看那个长期资本是如何破产引发美国金融危机的。。。

wuxi001 · 发表于 2025-1-27 14:19

小心老美锁掉所有 DEEPSEEK 50000 张 H100 算力卡。

8xwob3ko · 发表于 2025-1-27 14:22

我輩樹である发表于 2025-1-27 12:25
deepseek使用的MoE架构是一个在推理的时候只需要激活少量“专家”参数的模型，所以它的成本会很低，目测会 ...

应该早有不少转了，我看字节上周发的豆包1.5也是MoE

panzerlied · 发表于 2025-1-27 14:25

骑兵连，进攻！

云和月 · 发表于 2025-1-27 14:29

acki 发表于 2025-1-27 12:32
一个工厂交社保的工人500个，背地里招了9500个黑工，然后报税的时候只能按照500人核算成本，9500人的工资开 ...

你这就是华尔街的说法呗，虽然我没有证据，但它一定偷偷用了5万张H100，但不敢公布。

8owd8wan · 发表于 2025-1-27 14:29

我輩樹である发表于 2025-1-27 12:56
实验室屌丝能收获一个比llama强的模型就好了。

预训练那都是神仙打架，咱就看看。 ...

DeepSeek公开强化训练方法可以复刻，已经足够让屌丝团队开心啦。
知足常乐

我輩樹である · 发表于 2025-1-27 14:32

8xwob3ko 发表于 2025-1-27 14:22
应该早有不少转了，我看字节上周发的豆包1.5也是MoE

各家技术储备都是有的。kimi今天不是也发新的了么？估计马上会有一大波更新。这就是开源的好处。

fgfdhgg · 发表于 2025-1-27 14:36

你以为的是：投资方“以前100算力的项目现在只需要10算力，我可以少投90%好爽”然后老黄亏麻了
实际上的：投资方“以前100算力的项目，现在只需要10算力，意思是我现在投一样的钱可以获得十倍算力的产出，加仓加仓”老黄苏妈大家一起猛猛赚
AI这块算力永远没人嫌少，技术发展只会让算力应用更有效而不是用的更少

atiufo · 发表于 2025-1-27 14:40

fgfdhgg 发表于 2025-1-27 14:36
你以为的是：投资方“以前100算力的项目现在只需要10算力，我可以少投90%好爽”然后老黄亏麻了
实际上的： ...

是这样的

8owd8wan · 发表于 2025-1-27 14:41

fgfdhgg 发表于 2025-1-27 14:36
你以为的是：投资方“以前100算力的项目现在只需要10算力，我可以少投90%好爽”然后老黄亏麻了
实际上的： ...

算力扩大，得到的对应收益，不是线性的。
存在边际效应减少的问题

8xwob3ko · 发表于 2025-1-27 14:44

我輩樹である发表于 2025-1-27 14:32
各家技术储备都是有的。kimi今天不是也发新的了么？估计马上会有一大波更新。这就是开源的好处。 ...

现在发说明早就开始做了，等开源再训来不及，但估计是看到deepseek发了其他的也先发再说。
另外成本这个问题，蒸馏肯定比自己从头训成本低，但也不太可能都只做蒸馏，就现在这些模型蒸馏上限也有限，后续多半是结合着做。

ATDpF · 发表于 2025-1-27 14:46

毛茸茸发表于 2025-1-27 11:23
只怕是自己起家的量化他都没做明白，现在全球排名多少？然后跨界一年多就在其它领域碾压世界龙头？根本经 ...

18年的时候，幻方的员工“一只平凡的小猪”就个人捐助了1.38亿

8owd8wan · 发表于 2025-1-27 14:50

8xwob3ko 发表于 2025-1-27 14:44
现在发说明早就开始做了，等开源再训来不及，但估计是看到deepseek发了其他的也先发再说。
另外成本这个 ...

咱们处于生态圈下游，能蒸馏，能RL，有可能看到一些私有化垂直落地的希望，就知足了。知足常乐。

pingji · 发表于 2025-1-27 14:52

您天天的能不能少点宏大叙事和星辰大海

kinglfa · 发表于 2025-1-27 15:05

cyberms 发表于 2025-1-27 10:54
苏妈：DeepSeek-V3模型已集成至AMD InstinctGPU

然后突然发现大陆多了了几十家GPU厂商

账号		自动登录	找回密码
密码			加入我们

[显卡] DeepSeek杀手锏是价格，对老黄是明显负面

评分

评分

浏览过的版块