bingshitian 发表于 2025-2-18 10:03

KimmyGLM 发表于 2025-2-18 09:04
也许双路6代志强+AMX+mcridmm8000内存,可能流畅。。。

据说单路双路影响不大,AMX和内存带宽影响大,我从b站看的哈。

qdzx123 发表于 2025-2-18 10:05

KimmyGLM 发表于 2025-2-18 09:54
傲腾死的不冤枉,这玩意没前途啊,本身傲腾安装都要1根傲腾+1根普通dimm内存交替;
带宽就算是第三代D5, ...

Xeon Max我也看了 要是能正常使用现在绝对很合适 可惜 牢英啊牢英

hawie 发表于 2025-2-18 10:13

话说KT现在只有0.21吧,0.3有没有大致的时间什么时候放出来?目前的0.21用avx512能达到怎样的性能?

KimmyGLM 发表于 2025-2-18 10:27

hawie 发表于 2025-2-18 10:13
话说KT现在只有0.21吧,0.3有没有大致的时间什么时候放出来?目前的0.21用avx512能达到怎样的性能? ...

https://www.chiphell.com/thread-2672942-1-1.html

昨天一起发的,单路9654+4090,跑Q4 671b,0.2的KT框架;
10- 14token!非常惊人

秦南瓜 发表于 2025-2-18 11:29

学习了,好歹能跑,48G单条买的哪家的?

KimmyGLM 发表于 2025-2-18 13:10

秦南瓜 发表于 2025-2-18 11:29
学习了,好歹能跑,48G单条买的哪家的?

闲鱼搜48G 海力士 UDIMM即可

mdeu 发表于 2025-2-18 13:32

后排给要买内存的提个醒

当下不要买32G买48G,两者都没差几个钱,epyc12条 576G,足够KTF方案了,64G又太贵了

秦南瓜 发表于 2025-2-18 13:51

KimmyGLM 发表于 2025-2-18 13:10
闲鱼搜48G 海力士 UDIMM即可

感谢,OC到6000c28需要加马甲吗?

老哥你多少钱一条买的,参考下

YsHaNg 发表于 2025-2-18 16:37

KimmyGLM 发表于 2025-2-18 01:54
傲腾死的不冤枉,这玩意没前途啊,本身傲腾安装都要1根傲腾+1根普通dimm内存交替;
带宽就算是第三代D5, ...

ollama也是fa限定tensor core 连带着kvcache什么都不能上 正好节省资源的手段老卡都用不了 llama.cpp都port到非tensor连rocm都能用 这东西开发太慢了 以后gqa包括mla都有的等

MageHan 发表于 2025-2-18 16:40

KimmyGLM 发表于 2025-2-17 20:58
X870E carbon

X870E 战斧可否192g 6000C30?

KimmyGLM 发表于 2025-2-18 16:41

YsHaNg 发表于 2025-2-18 16:37
ollama也是fa限定tensor core 连带着kvcache什么都不能上 正好节省资源的手段老卡都用不了 llama.cpp都po ...

llama.cpp支持了AMX,但是没有看到应用成功的;
另外他们的offload 混合部署好像还不太行

KimmyGLM 发表于 2025-2-18 16:48

秦南瓜 发表于 2025-2-18 13:51
感谢,OC到6000c28需要加马甲吗?

老哥你多少钱一条买的,参考下

价格都一样的,660....
不需要马甲,温度很低,跑DS 47度

秦南瓜 发表于 2025-2-18 16:50

本帖最后由 秦南瓜 于 2025-2-18 16:57 编辑

KimmyGLM 发表于 2025-2-18 16:48
价格都一样的,660....
不需要马甲,温度很低,跑DS 47度

太棒了,性价比可以啊!感谢!

YsHaNg 发表于 2025-2-18 17:21

KimmyGLM 发表于 2025-2-18 08:41
llama.cpp支持了AMX,但是没有看到应用成功的;
另外他们的offload 混合部署好像还不太行 ...

按照大家说法都是ollama/llama.cpp只配当草履虫 开源方案还得看vllm/transformer 更别提那些没开源的推理框架 包括deepseek自己的 目前市面上应该还没有任何别的mla实现

Miner 发表于 2025-2-24 13:34

请问内存作业抄的坛子哪个贴,谢谢

ux4d 发表于 2025-2-24 13:48

你买的闲鱼48G绿条体质这么好吗?我周末买的那一对体质拉垮到爆炸,插Z890上6400时序给36都不开机

一懒众衫小 发表于 2025-2-24 20:05

后来我又到 linux下极限压榨内存试了下。跑1.58bit 3k上下文长度时候,能完全塞进128g内存(显存占满了,不过很容易爆,linux下没有原生能共享显存的)。1.73bit下,占用虚拟内存33G,也就是如果是纯内存的话,占用128+33+24=185G。你这套跑1.73bit还是可以的。
另外速度也提高了,debian12下,问你好这个简单问题,推理速度 4.3 t/s。随着问题变长,比如对联这种,会降到 3.2 t/s,最终在3k用完的附近,降到2.9左右

xxxcjr 发表于 2025-2-27 21:50

请问是哪款主板?什么型号的内存?
页: 1 [2]
查看完整版本: 9700x+192G 跑1.58bit 671B 分享