一个老师一个学生,但学生的上限取决于老师。
蒸馏是可以实现学生超过老师的。 dreamyeah 发表于 2025-2-5 13:28
就是抄袭chat**.
这里像你这种SB殖子这么多是为什么呢?[偷笑] 你能说美国是英国么? 说抄袭好像也不对,业界的说法是蒸馏,大聪明的办法,而且不违法 jihuan 发表于 2025-2-5 18:27
不是抄袭代码,而是用chat**训练
逆天言论,完全不理解ai ypsdz 发表于 2025-2-5 23:23
你的信息量能高于老师?更何况本身就是个公公天生缺零件
可以了解下蒸馏相关文献,挺多种方法,2015年由ai之父提出蒸馏概念,发展到现在也差不多10年了。
粗略提几个问题的方式可能更好理解这个结论,现实生活中,老师是一直比学生强吗?学生只能向一位老师学习吗?学生可以自学吗?学生间可以互相学习吗?可以用GAN架构再训练个助教吗? fengpc 发表于 2025-2-5 20:53
汇编应该指的是他们用汇编和底层编程的方式优化他们自己的萤火虫算力平台,现在ds公开的模型是用ollma运 ...
对 deepseek没用CUDA,开发上复杂度高了非常多,说白了还是卡少,只能从运行效率上下功夫。从包括开发、训练和调试总体成本上来说不一定低。
所以说训练成本低只是一方面。
页:
1
[2]