|
本帖最后由 zhuifeng88 于 2024-12-12 21:51 编辑
不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6代大xeon真香的地方在单独跑prefill(比如处理超长context)或者海量并发的generation, 因为kvcache大小不值钱
说白了这个算力自己玩玩程度的部署很难有效利用起来, 大部分自己玩玩的人不会跑prefill为主的任务, 也不会有海量吞吐
而且部署方式和常规平台差异比较大, 没充足的相关经验不建议直接上车这么玩....
----
我没8581c, 附个8488c的裸算力测试和超长context的prefill速率测试(qwen2.5-72b-instruct, bf16 weight, bf16 kv cache, prompt长度131071)给你, 这个prefill速率差不多有4卡L20的一半, 但是同样预算下kv cache大小可以给出好几TB, 非常适合vector search不好处理, kv cache稀疏存储效果不行, 得靠巨大kv cache强行作为长期记忆的系统
|
|