老英首席AI架构工程师更新了ipex-llm （llama.cpp）混合部署速度>8token

KimmyGLM 发表于 2025-3-10 15:12

Github: https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/llamacpp_portable_zip_gpu_quickstart.md#flashmoe-for-deepseek-v3r1

简要说明：1. ipex-llm（intel pytorch extention ）类似于老黄的cuda，苏妈的Rocm;
2. 这个巨佬把主流的框架，主流模型全做了兼容！！几乎可以做到一键启动（Linux 和 Win 下都可以）；
3. 依赖llama.cpp 自带的Flash Moe 框架，支持了A770+志强平台的混合部署；

最近在安装Ktransformers, 遇到一大堆问题，到现在也没跑通。Cuda+Gcc+Nvcc+Pytorch （含ninja 等）+Flash_attention+Kt，缺一不可互为依赖，不然到最后会卡在编译；

当然，B站和群里也有好多跑通的，分享了很多经验；V0.3 pre版本门槛太高，目前没有看到复现；

相比之下，llama.cpp 就简单多了，非常容易上手；老英的这个项目直接做了一键集成，更加方便；

巨佬的领英放了实际跑的视频（地址如下），国内无法登录。但是从reddit讨论看是大于8token/s的，目测gif图生成速度也是极快；

推荐是双卡a770跑，单卡只能将上下文长度限制在1000内，不然容易爆；（For 1 ARC A770 platform, please reduce context length (e.g., 1024) to avoid OOM. Add this option -c 1024 at the end of below command.）

巨佬专门提到了Ultra 系列核显也能跑7B Q4 llama哟，哈哈哈哈

PS. 前两天美团放出了int8 权重的671B，没有啥损失； AMX 加速能支持加速INT8，这两天正在测试中。

https://www.linkedin.com/posts/jasondai_with-the-latest-ipex-llm-llamacpp-portable-activity-7303194182729244673-FcxL/

平安是福 发表于 2025-3-10 15:52

只兼容了llm吗？对于t2i，t2v模型有兼容吗

港城钢铁侠 发表于 2025-3-10 16:05

B580 24G版出来，双卡能跑的模型就更多了吧[偷笑]

KimmyGLM 发表于 2025-3-10 16:07

港城钢铁侠发表于 2025-3-10 16:05
B580 24G版出来，双卡能跑的模型就更多了吧

B580 24G 老英的PDF宣传手册里已经提到了，但是具体量产不知道啥时候

页: [1]

Chiphell - 分享与交流用户体验's Archiver

老英首席AI架构工程师更新了ipex-llm （llama.cpp）混合部署速度>8token