找回密码
 加入我们
搜索
      
查看: 1102|回复: 3

[CPU] 老英首席AI架构工程师更新了ipex-llm (llama.cpp)混合部署速度>8token

[复制链接]
发表于 2025-3-10 15:12 | 显示全部楼层 |阅读模式
Github: https://github.com/intel/ipex-ll ... e-for-deepseek-v3r1

简要说明:1. ipex-llm(intel pytorch extention )类似于老黄的cuda,苏妈的Rocm;
                 2. 这个巨佬把主流的框架,主流模型全做了兼容!!几乎可以做到一键启动(Linux 和 Win 下都可以);
                 3. 依赖llama.cpp 自带的Flash Moe 框架,支持了A770+志强平台的混合部署;

最近在安装Ktransformers, 遇到一大堆问题,到现在也没跑通。Cuda+Gcc+Nvcc+Pytorch (含ninja 等)+Flash_attention+Kt,缺一不可互为依赖,不然到最后会卡在编译;

当然,B站和群里也有好多跑通的,分享了很多经验;V0.3 pre版本门槛太高,目前没有看到复现;

相比之下,llama.cpp 就简单多了,非常容易上手;老英的这个项目直接做了一键集成,更加方便;

巨佬的领英放了实际跑的视频(地址如下),国内无法登录。但是从reddit讨论看是大于8token/s的,目测gif图生成速度也是极快;

推荐是双卡a770跑,单卡只能将上下文长度限制在1000内,不然容易爆;(For 1 ARC A770 platform, please reduce context length (e.g., 1024) to avoid OOM. Add this option -c 1024 at the end of below command.)

巨佬专门提到了Ultra 系列核显也能跑7B Q4 llama哟,哈哈哈哈

PS. 前两天美团放出了int8 权重的671B,没有啥损失; AMX 加速能支持加速INT8,这两天正在测试中。


https://www.linkedin.com/posts/j ... 4182729244673-FcxL/
发表于 2025-3-10 15:52 | 显示全部楼层
只兼容了llm吗?对于t2i,t2v模型有兼容吗
发表于 2025-3-10 16:05 来自手机 | 显示全部楼层
B580 24G版出来,双卡能跑的模型就更多了吧
 楼主| 发表于 2025-3-10 16:07 | 显示全部楼层
港城钢铁侠 发表于 2025-3-10 16:05
B580 24G版出来,双卡能跑的模型就更多了吧

B580 24G 老英的PDF宣传手册里已经提到了,但是具体量产不知道啥时候
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-21 10:32 , Processed in 0.008344 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表