KT的0.30方案满血R1,VRAM真只占用14GB的话,是不是5070ti/5080 16GB就够了?
性能相比4090D 24GB,会相差多少?还有另外的那个可能性替代方案,
假如下半年发布的M5系确如传言将CPU与GPU分开的话,是否等同于不再使用统一内存?
那么上半年的M4 Ultra将是末代最大统一内存方案?
关键是非服务器都插不下那么多内存吧。ddr5又贵,regecc ddr4倒是便宜,64g 250 M5不用统一内存了,消息准确吗?在ai的浪潮下,为啥不继续统一内存呢? 一夜之间人均靠AI吃饭是个帖子都在AI 老饭 发表于 2025-2-21 15:23
关键是非服务器都插不下那么多内存吧。ddr5又贵,regecc ddr4倒是便宜,64g 250
ddr4带宽不够用
kt方案要么是epyc 12通道d5力大砖飞 要么是用那个什么志强8通道内存再加上它的amx指令集啥的 你有没有发现,上下文输入后显存一会涨一点,14G太极限了,上下文一长就爆了,既然是R1了,还是最好是20-24GB bingshitian 发表于 2025-2-21 15:26
M5不用统一内存了,消息准确吗?在ai的浪潮下,为啥不继续统一内存呢?
说是将二者分开可以提高良率。没有官方说法,不过都这么说。 mdeu 发表于 2025-2-21 15:28
你有没有发现,上下文输入后显存一会涨一点,14G太极限了,上下文一长就爆了,既然是R1了,还是最好是20-24 ...
超过16GB就是一大分水岭。选择少很多。 AI395+也是统一内存,最大128所以看有没有ROCm生态了 本帖最后由 mdeu 于 2025-2-21 17:55 编辑
最美时光 发表于 2025-2-21 17:49
超过16GB就是一大分水岭。选择少很多。
[偷笑]故意的啊,最近几代不买90压根没有大显存n卡能买,这代在90都给到32的情况下,80都咬死16g,反倒是笔记本的5090给了24g,基本就是明示5080s可以给24g但是得看有没有必要 老饭 发表于 2025-2-21 15:23
关键是非服务器都插不下那么多内存吧。ddr5又贵,regecc ddr4倒是便宜,64g 250
消费级很快可以组64GB*4,2bit量化的版本、再加个16GB显卡要是可以用kt方案,就广泛实用了。 MikuLuka 发表于 2025-2-21 17:52
AI395+也是统一内存,最大128所以看有没有ROCm生态了
感觉ai395+比苹果还贵,是错觉吗 最美时光 发表于 2025-2-21 17:57
感觉ai395+比苹果还贵,是错觉吗
现在只有华硕独占呀,参考之前的移动端7945HX 7940HX7945X3D 放量之后国产NUC厂商和MODT产品,MINI4可以租AI运算阵列 你能装乌班图到时候AI395+的盒子应该也能那么玩 外带395+的那个GPU性能好像看测评还不错 Mashiro_plan_C 发表于 2025-2-21 15:27
一夜之间人均靠AI吃饭是个帖子都在AI
和人均5090一样,幸存者偏差。。。 最美时光 发表于 2025-2-21 17:53
消费级很快可以组64GB*4,2bit量化的版本、再加个16GB显卡要是可以用kt方案,就广泛实用了。 ...
最大256还是不够啊 最美时光 发表于 2025-2-21 17:53
消费级很快可以组64GB*4,2bit量化的版本、再加个16GB显卡要是可以用kt方案,就广泛实用了。 ...
内存容量和内存通道不是一个概念啊,就这消费级的双通道伪4通道速度还是差很多吧。 老饭 发表于 2025-2-21 18:52
最大256还是不够啊
kt团队说是在做unsloth相关的优化了,那是不是可能2bit左右的量化也能用上kt的方法来提高性能了呢?那192GB以上就可以受益了。 max_new_tokens 4000 以内,8K有B站水友反馈就会爆显存;
不可以搞长上下文推理。 Koin 发表于 2025-2-21 18:55
内存容量和内存通道不是一个概念啊,就这消费级的双通道伪4通道速度还是差很多吧。 ...
差很多,不过,Pc主要面向单用户使用,要求不会太高,10tokens左右就进入勉强可用状态了。 Mashiro_plan_C 发表于 2025-2-21 15:27
一夜之间人均靠AI吃饭是个帖子都在AI
B站现在热搜区可以去看看。哈哈
丰俭由人,玩法丰富,还有顶级团队在GITHUB上交流 KimmyGLM 发表于 2025-2-21 21:03
max_new_tokens 4000 以内,8K有B站水友反馈就会爆显存;
不可以搞长上下文推理。 ...
16GB不够就有点麻烦了,9070xtx 32GB也得等ROCm生态,目前kt那些版本都是基于cuda的,规避不了nvidia。 最美时光 发表于 2025-2-21 21:04
差很多,不过,Pc主要面向单用户使用,要求不会太高,10tokens左右就进入勉强可用状态了。 ...
讲道理现在的模型还是太过于智障,废话太多,人说话和精读一秒也就几个字,甚至可能一个字都不到,如果AI模型能做到这种简要的程度一两个token 就已经完全够用了。 最美时光 发表于 2025-2-21 21:09
16GB不够就有点麻烦了,9070xtx 32GB也得等ROCm生态,目前kt那些版本都是基于cuda的,规避不了nvidia。 ...
买完服务器平台我实在没多少预算了[流泪]
KT 要求marlin算子,flash attention2 只能是安倍架构以后的新卡,30系矿太多,不太敢。
只能去鱼里面淘了一张4060ti 16G 先凑合用,
等后面50系慢慢铺货价格降下来再换新的。
Mashiro_plan_C 发表于 2025-2-21 15:27
一夜之间人均靠AI吃饭是个帖子都在AI
没办法,热点要是在论坛不热,那这热点还是热点吗,这论坛还是论坛吗?何况chh还是不时被出口的存在~ darkness66201 发表于 2025-2-21 21:12
讲道理现在的模型还是太过于智障,废话太多,人说话和精读一秒也就几个字,甚至可能一个字都不到,如果AI ...
对话只是闲暇玩玩的
LLAMA 只是工具,后续如果接入私有知识库(尤其是高效的),会非常强大。
等于一个私有定制定向的搜索引擎 KimmyGLM 发表于 2025-2-21 21:23
对话只是闲暇玩玩的
LLAMA 只是工具,后续如果接入私有知识库(尤其是高效的),会非常强大。
等于一个私 ...
私有知识库相当有意义,哪些是高效又可以自己部署的?
我目前用的硅基baai/bge-m3,下一步准备看看maxkb,有什么好的推荐? KimmyGLM 发表于 2025-2-21 21:13
买完服务器平台我实在没多少预算了
KT 要求marlin算子,flash attention2 只能是安倍架构以后的新卡,30 ...
你已经动手了啊?强过好多人了。你用的i家amx,还是a家的avx512?内存也是一笔不小的投入。 KimmyGLM 发表于 2025-2-21 21:23
对话只是闲暇玩玩的
LLAMA 只是工具,后续如果接入私有知识库(尤其是高效的),会非常强大。
等于一个私 ...
现在也有支持私有知识库的云端部署产品,就是基本只面相商用 Mashiro_plan_C 发表于 2025-2-21 15:27
一夜之间人均靠AI吃饭是个帖子都在AI
[生病] 真的挺烦。。。这帮a本地i啥时候到头啊。。。16g你也凑热闹图啥呀。。。 mdeu 发表于 2025-2-21 17:53
故意的啊,最近几代不买90压根没有大显存n卡能买,这代在90都给到32的情况下,80都咬死16g,反倒是笔记本 ...
你这么一说,突然感觉明年的5080S可以等等啦
页:
[1]
2