也许双路6代志强+AMX+mcridmm8000内存,可能流畅。。。
据说单路双路影响不大,AMX和内存带宽影响大,我从b站看的哈。 KimmyGLM 发表于 2025-2-18 09:54
傲腾死的不冤枉,这玩意没前途啊,本身傲腾安装都要1根傲腾+1根普通dimm内存交替;
带宽就算是第三代D5, ...
Xeon Max我也看了 要是能正常使用现在绝对很合适 可惜 牢英啊牢英 话说KT现在只有0.21吧,0.3有没有大致的时间什么时候放出来?目前的0.21用avx512能达到怎样的性能? hawie 发表于 2025-2-18 10:13
话说KT现在只有0.21吧,0.3有没有大致的时间什么时候放出来?目前的0.21用avx512能达到怎样的性能? ...
https://www.chiphell.com/thread-2672942-1-1.html
昨天一起发的,单路9654+4090,跑Q4 671b,0.2的KT框架;
10- 14token!非常惊人 学习了,好歹能跑,48G单条买的哪家的? 秦南瓜 发表于 2025-2-18 11:29
学习了,好歹能跑,48G单条买的哪家的?
闲鱼搜48G 海力士 UDIMM即可 后排给要买内存的提个醒
当下不要买32G买48G,两者都没差几个钱,epyc12条 576G,足够KTF方案了,64G又太贵了 KimmyGLM 发表于 2025-2-18 13:10
闲鱼搜48G 海力士 UDIMM即可
感谢,OC到6000c28需要加马甲吗?
老哥你多少钱一条买的,参考下 KimmyGLM 发表于 2025-2-18 01:54
傲腾死的不冤枉,这玩意没前途啊,本身傲腾安装都要1根傲腾+1根普通dimm内存交替;
带宽就算是第三代D5, ...
ollama也是fa限定tensor core 连带着kvcache什么都不能上 正好节省资源的手段老卡都用不了 llama.cpp都port到非tensor连rocm都能用 这东西开发太慢了 以后gqa包括mla都有的等 KimmyGLM 发表于 2025-2-17 20:58
X870E carbon
X870E 战斧可否192g 6000C30? YsHaNg 发表于 2025-2-18 16:37
ollama也是fa限定tensor core 连带着kvcache什么都不能上 正好节省资源的手段老卡都用不了 llama.cpp都po ...
llama.cpp支持了AMX,但是没有看到应用成功的;
另外他们的offload 混合部署好像还不太行 秦南瓜 发表于 2025-2-18 13:51
感谢,OC到6000c28需要加马甲吗?
老哥你多少钱一条买的,参考下
价格都一样的,660....
不需要马甲,温度很低,跑DS 47度 本帖最后由 秦南瓜 于 2025-2-18 16:57 编辑
KimmyGLM 发表于 2025-2-18 16:48
价格都一样的,660....
不需要马甲,温度很低,跑DS 47度
太棒了,性价比可以啊!感谢! KimmyGLM 发表于 2025-2-18 08:41
llama.cpp支持了AMX,但是没有看到应用成功的;
另外他们的offload 混合部署好像还不太行 ...
按照大家说法都是ollama/llama.cpp只配当草履虫 开源方案还得看vllm/transformer 更别提那些没开源的推理框架 包括deepseek自己的 目前市面上应该还没有任何别的mla实现 请问内存作业抄的坛子哪个贴,谢谢 你买的闲鱼48G绿条体质这么好吗?我周末买的那一对体质拉垮到爆炸,插Z890上6400时序给36都不开机 后来我又到 linux下极限压榨内存试了下。跑1.58bit 3k上下文长度时候,能完全塞进128g内存(显存占满了,不过很容易爆,linux下没有原生能共享显存的)。1.73bit下,占用虚拟内存33G,也就是如果是纯内存的话,占用128+33+24=185G。你这套跑1.73bit还是可以的。
另外速度也提高了,debian12下,问你好这个简单问题,推理速度 4.3 t/s。随着问题变长,比如对联这种,会降到 3.2 t/s,最终在3k用完的附近,降到2.9左右 请问是哪款主板?什么型号的内存?
页:
1
[2]