阿里搞了个蒸馏模型,4090价格估计又要涨了
阿里AI又有新动作!最新推理模型QwQ-32B证明了小参数也能实现大模型级别的性能。3月6日,阿里通义千问Qwen团队推出推理模型——QwQ-32B大语言模型。据官方介绍,这款仅有320亿参数的模型在性能上不仅能够媲美拥有6710亿参数的DeepSeek-R1(其中370亿被激活),更在某些测试中超越了对方。
阿里Qwen团队表示,这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性,希望以此证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。
除了基础推理能力外,QwQ-32B还集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
参数精简,性能不减,成本仅1/10
根据官方披露的测试结果,QwQ-32B在多项关键评测中表现卓越:
在测试数学能力的AIME24评测集上,QwQ-32B与DeepSeek-R1表现相当,远超o1-mini及同尺寸的R1蒸馏模型
在评估代码能力的LiveCodeBench中,表现同样与DeepSeek-R1相当
在Meta首席科学家杨立昆领衔的"最难LLMs评测榜"LiveBench上,QwQ-32B得分超越DeepSeek-R1
在谷歌等提出的指令遵循能力IFEval评测集中,成绩优于DeepSeek-R1
在加州大学伯克利分校等提出的评估准确调用函数或工具的BFCL测试中,同样超越DeepSeek-R1
https://baijiahao.baidu.com/s?id=1825806626305035464&wfr=spider&for=pc
阿里股价涨了6个点,32b大模型 4090改了48G应该是随便部署了,如果真如他所言能打671B的R1,那二手价格估计又要变天了[偷笑] 阿里之后还要开源Qwen-Max和QwQ-Max呢,这俩肯定是100B以上参数的模型了,在qwen chat网页上体验下来比R1要好。
对模型水平的追求永无止境,我感觉影响不大。 我是不信320亿数据 能做高级点的数学题都 本帖最后由 我輩樹である 于 2025-3-6 10:40 编辑
https://ollama.com/library/qwq/tags
好起来了。
q8: ollama pull qwq:32b-q8_0
q4: ollama pull qwq:latest 测试没输过,体验没赢过,信各种跑分不如信网友评价体验。 Qwen chat 2.5max试了下,感觉语言能力不如r1 xiaohuahu3hu3 发表于 2025-3-6 10:41
测试没输过,体验没赢过,信各种跑分不如信网友评价体验。
刚上,需要时间检验,如果能做到消费端部署的最强模型也不错了 互相蒸馏,最后大家吊死在一棵树上 [偷笑] 我輩樹である 发表于 2025-3-6 10:36
https://ollama.com/library/qwq/tags
好起来了。
谢谢,收下了!! 我輩樹である 发表于 2025-3-6 10:36
https://ollama.com/library/qwq/tags
好起来了。
看起来不需要48G,24GG的4090就能部署了? 颇有一种5070看齐4090的美 分布式计算
图神经网络
动态图建模
变分自编码器
贝叶斯优化
Transformer 模型
[恶魔] 本帖最后由 我輩樹である 于 2025-3-6 11:46 编辑
芝士雪豹 发表于 2025-3-6 11:22
看起来不需要48G,24GG的4090就能部署了?
不知道。我用mac跑的。
看评测说32b这个只能写代码,问别的东西很容易错 阿里的大模型还可以的。
国内的大模型,敢参与跑分而且能进前十的就deepseek和阿里。
别的要么不参与跑分,要么排名靠后。
这可是鬼佬的评测,什么**4.04.5都参与的。谷歌,特斯拉的大模型也参与跑分了。
叹息之墙 发表于 2025-3-6 11:28
颇有一种5070看齐4090的美
也不能完全这么说吧,deepseekr1的fnn用的moe结构,推理的时候只会激活8/256的参数,和同参数量的非moe结构的消融实验并没有差距。 我去,来了来了 对比了一下qwq:32b和deepseek-r1:32b,主要是写代码和做小学奥数,感觉还是r1:32b更好一点,不过两者差距不大。 erased 发表于 2025-3-6 21:07
对比了一下qwq:32b和deepseek-r1:32b,主要是写代码和做小学奥数,感觉还是r1:32b更好一点,不过两者差距不 ...
有图形的数学题怎么问deepseek,他只能识别图里面的文字,其它识别不了?比如几何题。 本帖最后由 farwish 于 2025-3-6 22:52 编辑
小作坊,小公司用用4090还差不多
阿里这种层面的公司也过来跟你挤4090?一堆4090还不够浪费时间
前不久新加坡的几个专业倒爷被查,那几个人都弄了1亿美金的转口交易
类似这样,大公司还是有门路
随着更多卡流入,4090渐渐只能沦为作坊和个人用
甚至里面几分炒货的因素都不好说 gmlee1999 发表于 2025-3-6 22:36
有图形的数学题怎么问deepseek,他只能识别图里面的文字,其它识别不了?比如几何题。 ...
简单的图形你可以用文字描述,它可以理解,复杂的估计不行。 4090 48G的qwq测试结果如下
q8 大概38G显存,20tps
q4 大概22G显存,30tps 这年头稍微懂行的人都能发行大模型,反正就是互相抄袭蒸馏呗,然后改个名字就是新的了
这就是开源时代所谓的李逵厉鬼游戏
搞到最后都是近亲繁殖,全废 一看到新闻稿,32b打671b?立马找了一圈发现开源那时还没上,第一时间去网页上体验,NND,神马玩意,这样就碰瓷R1。继续在网页试了Max,都是问了几个网上流传下来的问题,一样的不行。浪费时间!
随便就说自己比r1强,让人联想起的是什么500W以内、1000W以内的那些词,营销啊,什么时侯能真实一点。 erased 发表于 2025-3-6 21:07
对比了一下qwq:32b和deepseek-r1:32b,主要是写代码和做小学奥数,感觉还是r1:32b更好一点,不过两者差距不 ...
宣传的可是打671b,真被恶心到了 涨个鸡毛。别碰瓷4090了。
32B能运行的卡多了去了。有20多G显存就能单卡跑起来,20多G显存的显卡又不是只有4090。
erased 发表于 2025-3-7 20:47
简单的图形你可以用文字描述,它可以理解,复杂的估计不行。
解析几何,没法文字描述。 xjr12000 发表于 2025-3-7 21:35
这年头稍微懂行的人都能发行大模型,反正就是互相抄袭蒸馏呗,然后改个名字就是新的了
这就是开源时代所谓 ...
道理是这个道理,互相蒸馏对上限的帮助有限,成本确实可能降下来,但是目前的上限远撑不起ai的规模和投入
页:
[1]