找回密码
 加入我们
搜索
      
查看: 10374|回复: 68

[显卡] 完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡

[复制链接]
发表于 2025-2-11 14:23 | 显示全部楼层 |阅读模式
本帖最后由 一懒众衫小 于 2025-2-11 14:40 编辑

Unsloth 发布了基于 671b 完整版的动态量化版本,目前有4个版本,是1.58bit 131GB,1.73bit 158GB,2.22bit 183GB 和 2.51bit 212GB。这些比 Ollama 里的4位量化版的 404G 大幅度减小,看了下自己电脑配置,勉强能跑上完整版了。

在此之前尝试过 32b 和 70b 蒸馏版本,其中 32b 能在 24G 显存里完整运行,速度大概在28-30tokens/s,不过智能比较差。想了一个测试它的问题,让它对“三光日月星”的下联,它居然能给我回答出“四化工农商学”、“三江水”、“四海渤黄东南海”这些啼笑皆非的答案,看来得上高版本。换成了 70b 后,由于部分运行在内存里,推理速度只有 2tokens/s 了,这还不如直接上完整版呢。

由于使用 Ollama 始终无法运行,报错内存不足,最后切换到用 llama.cpp 里已经编译好的版本来运行,调试了一些参数后,能跑起来了,推理速度大概在 2-2.6 tokens/s。

智能方面,起码能回答出“四诗风雅颂”这种标准答案了,推理速度2.6 tokens/s,但10次里也会有2-3次给出错误答案,但总比 32b 和 70b 里那种基本答不出来的结果强。

其它方面,尝试过 5090D 的那篇帖子里回贴中给出的标准滤波器来模拟声笼和声障现象,回答大概需要 3k 个tokens,速度下降到 2.13 tokens/s
prompt eval time =   14531.17 ms /    45 tokens (  322.91 ms per token,     3.10 tokens per second)
       eval time = 1342347.40 ms /  2856 tokens (  470.01 ms per token,     2.13 tokens per second)
      total time = 1356878.57 ms /  2901 tokens

这个速度只能说非常勉强能用。如果想要获得符合阅读速度的推理速度,目前看来内存带宽是瓶颈,普通电脑上要么上epyc这种8通道主板,直接上 MAC Studio 的 192G 内存版本,价格 4w5,那个内存集成在 CPU 里,带宽很高,看帖子大概有 5-7 tokens/s 的推理速度。再想提高只能用大显存显卡,价格上天了。

另外尝试过 1.75bit 版本,本地运行时存在大量的虚拟内存交换,速度急剧下降到 0.5-1 tokens/s,不实用。

最后放下那个标准滤波器来模拟声笼和声障现象问题的回答,看着像回事。

123456.jpg

评分

参与人数 1邪恶指数 +10 收起 理由
醉酒棕熊 + 10

查看全部评分

发表于 2025-2-11 15:56 | 显示全部楼层
用cpu+内存的思路跑吧,这个moe模型实际激活参数大概只有30b+左右,看b站别人用洋垃圾+傲腾持久内存跑的动大概2t/s(应该是fp8版本的)
 楼主| 发表于 2025-2-11 18:10 | 显示全部楼层
平安是福 发表于 2025-2-11 15:56
用cpu+内存的思路跑吧,这个moe模型实际激活参数大概只有30b+左右,看b站别人用洋垃圾+傲腾持久内存跑的动 ...

确实只需要提高内存的带宽就行了。这是是没想到131g的版本速度比70b还快。
发表于 2025-2-11 18:44 来自手机 | 显示全部楼层
你什麼平台,memory bandwidth多少?
我打算搞個 epyc 三代平台256gb 玩玩
 楼主| 发表于 2025-2-11 19:39 | 显示全部楼层
本帖最后由 一懒众衫小 于 2025-2-11 19:53 编辑
oolmfoo 发表于 2025-2-11 18:44
你什麼平台,memory bandwidth多少?
我打算搞個 epyc 三代平台256gb 玩玩


当初别人配置的3990x,现在CPU已经处于残疾状态,动不动就蓝屏,无法测试出哪个核心有问题,dump文件是定位到AuthenticAMD.sys,看别人的评论似乎是硬件故障,估计是CPU里的IO DIE 出问题了,GF的辣鸡工艺导致。已经过保,这下没辙了。

我看了一圈,似乎没找到哪篇纯内存(比如epyc平台)跑r1的推理速度超过5t/s的,莫非只能上MAC的统一内存?
发表于 2025-2-12 01:01 | 显示全部楼层
本帖最后由 pdvc 于 2025-2-12 01:08 编辑

虚拟内存跑的我之前测过了,就2t/s速度,然后输入token多一点或者多轮次,就卡死在那要很久。

我试过一个复杂点的声学问题,跑了5小时,输出满了128K token,还没跑完

你这是D4内存吧,D5跑70b能有6-10t/s速度,1.58bit的2-3t/s。
 楼主| 发表于 2025-2-12 08:17 | 显示全部楼层
本帖最后由 一懒众衫小 于 2025-2-12 08:24 编辑
pdvc 发表于 2025-2-12 01:01
虚拟内存跑的我之前测过了,就2t/s速度,然后输入token多一点或者多轮次,就卡死在那要很久。

我试过一个 ...


确实是D4,还是ECC的3200,不过我用ollama跑70b速度只有2t/s,当时都惊呆了,干脆一狠心直接上1.58bit算了
后面用llama.cpp跑70b怎么调试都不超过2.5,就放弃在70b上面优化。

不过我跑1.58bit时候内存占用比其它模型高得多,基本是在140G-160G左右,上下文在4k时候,显存占满,内存占用151G,这接近极限了。
上下文5k时候,内存占用154G,过了“甜点”,思考和回答时候频繁读取写入硬盘(151G除了刚开始读取硬盘外,思考回答过程中几乎没有写入读取硬盘操作),推理速度暴跌到1.5以下,回答问题刚开始准备阶段超过5分钟才开始思考。

所以上下文4k是这台电脑的极限。
发表于 2025-2-12 08:35 | 显示全部楼层
一懒众衫小 发表于 2025-2-12 08:17
确实是D4,还是ECC的3200,不过我用ollama跑70b速度只有2t/s,当时都惊呆了,干脆一狠心直接上1.58bit算 ...

极限是超过内存的容量? 为啥是154G
发表于 2025-2-12 08:38 | 显示全部楼层
一懒众衫小 发表于 2025-2-11 19:39
当初别人配置的3990x,现在CPU已经处于残疾状态,动不动就蓝屏,无法测试出哪个核心有问题,dump文件是定 ...

等我两天,测测epyc D4的速度,我推测应该可以达到4-5t/s
因为现在我c612 双路(2696V3) 4通道2133MHZ,内存速度大概是100G/s,跑671B 1.58bit量化是1.5-2t/s
按照推测,EPYC双路(7742) 8通道 内存应该是300G/s,内存速度提升3倍,cpu提升4倍性能以上,怎么滴也要提升2-3倍吧,应该4-5t/s还是有希望的
发表于 2025-2-12 08:55 | 显示全部楼层
“换成了 70b 后,由于部分运行在内存里,推理速度只有 2tokens/s 了”

这是 Q4 量化的 70b 吗?其实你再搞一片 3090 就能跑 Q4 70b 了,完全版要求硬件太高了。推理模型输出量大,我觉得至少要有 30 token/s 才能用
发表于 2025-2-12 09:08 | 显示全部楼层
 楼主| 发表于 2025-2-12 09:09 | 显示全部楼层
本帖最后由 一懒众衫小 于 2025-2-12 09:22 编辑
guitengyue 发表于 2025-2-12 08:35
极限是超过内存的容量? 为啥是154G


我一开始以为 1.58bit 版本加载时候需要的 显存+内存 总量也差不多135-140G,和其它32b 70b的模型类似,结果发现,上下文长度设置低至512的时候,显存占满,内存还占用了141G,也就是 实际消耗内存容量=23.7(显存占用)+141-6(win系统占用)=158.7G,远超预期。

这种情况下,虽然占用部分虚拟内存,但推理仍能较流畅进行,推理过程中硬盘读写几乎没有。上限大概在上下文长度4096时候,内存占用151G。

但到了内存占用154G的时候,也就是 实际消耗内存容量=23.7(显存占用)+154-6(win系统占用)=167.7G,此时推理过程频繁读写硬盘,推理速度暴跌。

所以我尝试了下 1.73bit 158G版本后放弃了,上下文最大不能超过1k,这时候推理速度大概在1.2-1.5t/s,超过1k后,推理速度跌破0.5t/s了
 楼主| 发表于 2025-2-12 09:13 | 显示全部楼层
guitengyue 发表于 2025-2-12 08:38
等我两天,测测epyc D4的速度,我推测应该可以达到4-5t/s
因为现在我c612 双路(2696V3) 4通道2133MHZ, ...

这是我的参数,希望能帮到你
.\llama-server -m DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --gpu-layers 9 --flash-attn --ctx-size 4096 --prio 2 --temp 0.6 --no-mmap --cache-type-k q5_0 --threads 24 --threads-batch 24 --verbose

其中--threads-batch 24这个参数对我很关键,没有这个参数时候推理速度从2.5t/s跌倒了1.5t/s,这就让我很诧异,光指定threads还不够么?此外--gpu-layers要刚好设置到占满显存,当我设置到30时候占满了共享内存,速度反而也跌到了1.5t/s

我看看还有没有优化的地方
发表于 2025-2-12 09:14 | 显示全部楼层
一懒众衫小 发表于 2025-2-12 09:09
我一开始以为 1.58bit 版本加载时候需要的 显存+内存 总量也差不多135-140G,和其它32b 70b的模型类似, ...

你的是什么平台,目前内存的读写速度是多少
发表于 2025-2-12 09:17 | 显示全部楼层
我测试下来的情况是,671B 1.58bit的,显卡有没有一点用都没,但凡动用了内存了(爆显存)速度就暴跌,所以直接放弃gpu了
发表于 2025-2-12 09:17 | 显示全部楼层
可以试一下KTransformers的方案。
 楼主| 发表于 2025-2-12 09:20 | 显示全部楼层
Miner 发表于 2025-2-12 08:55
“换成了 70b 后,由于部分运行在内存里,推理速度只有 2tokens/s 了”

这是 Q4 量化的 70b 吗?其实你再 ...

我运行的是 Q6_K 的量化版,反正显存溢出,内存绰绰有余

其实用48G魔改的4090也行

不过70b的所有版本我提问 三光日月星,对下联,没有能回答出 四诗风雅颂 的

最后我留下的是 abliterated 70b,但就算提问 1+2=几 这种简单问题,它个别时候也能陷入思考死循环中,还是不稳。
 楼主| 发表于 2025-2-12 09:24 | 显示全部楼层
guitengyue 发表于 2025-2-12 09:17
我测试下来的情况是,671B 1.58bit的,显卡有没有一点用都没,但凡动用了内存了(爆显存)速度就暴跌,所以 ...

是的,显卡占用不超过1%,随便一个显卡都行。现在主要是不想花钱给电脑添硬件了,毕竟3990x基本报废了,提问2-3次必定蓝屏,等有机会再重新攒一台电脑
 楼主| 发表于 2025-2-12 09:24 | 显示全部楼层
haphaphap 发表于 2025-2-12 09:17
可以试一下KTransformers的方案。

我去试试看
发表于 2025-2-12 11:12 来自手机 | 显示全部楼层
一懒众衫小 发表于 2025-2-12 09:20
我运行的是 Q6_K 的量化版,反正显存溢出,内存绰绰有余

其实用48G魔改的4090也行

重点是得上D5,D4爆显存后基本不能用。
发表于 2025-2-12 11:14 来自手机 | 显示全部楼层
一懒众衫小 发表于 2025-2-12 08:17
确实是D4,还是ECC的3200,不过我用ollama跑70b速度只有2t/s,当时都惊呆了,干脆一狠心直接上1.58bit算 ...

D4 3800测过一个复杂问题,跑了五个小时,输出满了128K token😅
发表于 2025-2-12 11:47 来自手机 | 显示全部楼层
pdvc 发表于 2025-2-12 11:14
D4 3800测过一个复杂问题,跑了五个小时,输出满了128K token😅

什麼平台,epyc嗎?
发表于 2025-2-12 11:50 来自手机 | 显示全部楼层
oolmfoo 发表于 2025-2-12 11:47
什麼平台,epyc嗎?

普通zen3
发表于 2025-2-12 11:52 | 显示全部楼层
5975WX+512GB DDR43200可以试一试吗?内存应该是8通道
发表于 2025-2-12 12:09 | 显示全部楼层
各位彦祖,1.58bit, 这个bit 全称是什么啊?
 楼主| 发表于 2025-2-12 12:25 | 显示全部楼层
Doomhammer 发表于 2025-2-12 11:52
5975WX+512GB DDR43200可以试一试吗?内存应该是8通道

你应该能跑 4位量化的那个版本,404G,不过速度看样子也不会很高,猜测大概3t/s吧

我试了下自己的平台,4通道,内存读写差不多是 70G/s,延迟有点高,105
仅供参考
 楼主| 发表于 2025-2-12 12:26 | 显示全部楼层
pdvc 发表于 2025-2-12 11:12
重点是得上D5,D4爆显存后基本不能用。

是的,今天发现蓝屏是内存问题,从3200降到2666后不再蓝屏,推理速度也降到了 1.8t/s 了。
发表于 2025-2-12 12:44 来自手机 | 显示全部楼层
我两块4090跑70b挺快的
发表于 2025-2-12 13:02 | 显示全部楼层
epyc 3 平台,671b Q4 如何才能跑到5-6token? 内存有DDR4 3200 640GB,双路 16通道了,木有显卡,才跑 1 token/s  
发表于 2025-2-12 13:07 | 显示全部楼层
我已经放弃自己折腾了,直接用第三方收费API了。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-19 07:29 , Processed in 0.015658 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表