老英首席AI架构工程师更新了ipex-llm (llama.cpp)混合部署速度>8token
Github: https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/llamacpp_portable_zip_gpu_quickstart.md#flashmoe-for-deepseek-v3r1简要说明:1. ipex-llm(intel pytorch extention )类似于老黄的cuda,苏妈的Rocm;
2. 这个巨佬把主流的框架,主流模型全做了兼容!!几乎可以做到一键启动(Linux 和 Win 下都可以);
3. 依赖llama.cpp 自带的Flash Moe 框架,支持了A770+志强平台的混合部署;
最近在安装Ktransformers, 遇到一大堆问题,到现在也没跑通。Cuda+Gcc+Nvcc+Pytorch (含ninja 等)+Flash_attention+Kt,缺一不可互为依赖,不然到最后会卡在编译;
当然,B站和群里也有好多跑通的,分享了很多经验;V0.3 pre版本门槛太高,目前没有看到复现;
相比之下,llama.cpp 就简单多了,非常容易上手;老英的这个项目直接做了一键集成,更加方便;
巨佬的领英放了实际跑的视频(地址如下),国内无法登录。但是从reddit讨论看是大于8token/s的,目测gif图生成速度也是极快;
推荐是双卡a770跑,单卡只能将上下文长度限制在1000内,不然容易爆;(For 1 ARC A770 platform, please reduce context length (e.g., 1024) to avoid OOM. Add this option -c 1024 at the end of below command.)
巨佬专门提到了Ultra 系列核显也能跑7B Q4 llama哟,哈哈哈哈
PS. 前两天美团放出了int8 权重的671B,没有啥损失; AMX 加速能支持加速INT8,这两天正在测试中。
https://www.linkedin.com/posts/jasondai_with-the-latest-ipex-llm-llamacpp-portable-activity-7303194182729244673-FcxL/ 只兼容了llm吗?对于t2i,t2v模型有兼容吗 B580 24G版出来,双卡能跑的模型就更多了吧[偷笑] 港城钢铁侠 发表于 2025-3-10 16:05
B580 24G版出来,双卡能跑的模型就更多了吧
B580 24G 老英的PDF宣传手册里已经提到了,但是具体量产不知道啥时候
页:
[1]