KimmyGLM 发表于 2025-3-10 15:12

老英首席AI架构工程师更新了ipex-llm (llama.cpp)混合部署速度>8token

Github: https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/llamacpp_portable_zip_gpu_quickstart.md#flashmoe-for-deepseek-v3r1

简要说明:1. ipex-llm(intel pytorch extention )类似于老黄的cuda,苏妈的Rocm;
               2. 这个巨佬把主流的框架,主流模型全做了兼容!!几乎可以做到一键启动(Linux 和 Win 下都可以);
               3. 依赖llama.cpp 自带的Flash Moe 框架,支持了A770+志强平台的混合部署;

最近在安装Ktransformers, 遇到一大堆问题,到现在也没跑通。Cuda+Gcc+Nvcc+Pytorch (含ninja 等)+Flash_attention+Kt,缺一不可互为依赖,不然到最后会卡在编译;

当然,B站和群里也有好多跑通的,分享了很多经验;V0.3 pre版本门槛太高,目前没有看到复现;

相比之下,llama.cpp 就简单多了,非常容易上手;老英的这个项目直接做了一键集成,更加方便;

巨佬的领英放了实际跑的视频(地址如下),国内无法登录。但是从reddit讨论看是大于8token/s的,目测gif图生成速度也是极快;

推荐是双卡a770跑,单卡只能将上下文长度限制在1000内,不然容易爆;(For 1 ARC A770 platform, please reduce context length (e.g., 1024) to avoid OOM. Add this option -c 1024 at the end of below command.)

巨佬专门提到了Ultra 系列核显也能跑7B Q4 llama哟,哈哈哈哈

PS. 前两天美团放出了int8 权重的671B,没有啥损失; AMX 加速能支持加速INT8,这两天正在测试中。


https://www.linkedin.com/posts/jasondai_with-the-latest-ipex-llm-llamacpp-portable-activity-7303194182729244673-FcxL/

平安是福 发表于 2025-3-10 15:52

只兼容了llm吗?对于t2i,t2v模型有兼容吗

港城钢铁侠 发表于 2025-3-10 16:05

B580 24G版出来,双卡能跑的模型就更多了吧[偷笑]

KimmyGLM 发表于 2025-3-10 16:07

港城钢铁侠 发表于 2025-3-10 16:05
B580 24G版出来,双卡能跑的模型就更多了吧

B580 24G 老英的PDF宣传手册里已经提到了,但是具体量产不知道啥时候
页: [1]
查看完整版本: 老英首席AI架构工程师更新了ipex-llm (llama.cpp)混合部署速度>8token