找回密码
 加入我们
搜索
      
楼主: hantty

[网络] DeepSeek和chat**什么关系??

[复制链接]
发表于 2025-2-5 21:51 | 显示全部楼层
ypsdz 发表于 2025-2-5 16:25
一个老师一个学生,但学生的上限取决于老师。

蒸馏是可以实现学生超过老师的。
发表于 2025-2-5 21:54 | 显示全部楼层

这里像你这种SB殖子这么多是为什么呢?

评分

参与人数 1邪恶指数 +5 收起 理由
Barcelona + 5

查看全部评分

发表于 2025-2-5 23:23 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-2-5 23:25 | 显示全部楼层
你能说美国是英国么?
发表于 2025-2-5 23:43 来自手机 | 显示全部楼层
说抄袭好像也不对,业界的说法是蒸馏,大聪明的办法,而且不违法
发表于 2025-2-5 23:53 | 显示全部楼层
jihuan 发表于 2025-2-5 18:27
不是抄袭代码,而是用chat**训练

逆天言论,完全不理解ai
发表于 2025-2-6 00:20 | 显示全部楼层
ypsdz 发表于 2025-2-5 23:23
你的信息量能高于老师?更何况本身就是个公公天生缺零件

可以了解下蒸馏相关文献,挺多种方法,2015年由ai之父提出蒸馏概念,发展到现在也差不多10年了。

粗略提几个问题的方式可能更好理解这个结论,现实生活中,老师是一直比学生强吗?学生只能向一位老师学习吗?学生可以自学吗?学生间可以互相学习吗?可以用GAN架构再训练个助教吗?
发表于 2025-2-6 00:43 来自手机 | 显示全部楼层
fengpc 发表于 2025-2-5 20:53
汇编应该指的是他们用汇编和底层编程的方式优化他们自己的萤火虫算力平台,现在ds公开的模型是用ollma运 ...

对 deepseek没用CUDA,开发上复杂度高了非常多,说白了还是卡少,只能从运行效率上下功夫。从包括开发、训练和调试总体成本上来说不一定低。
所以说训练成本低只是一方面。
发表于 2025-2-6 00:53 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-22 20:36 , Processed in 0.009860 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表