完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡
本帖最后由 一懒众衫小 于 2025-2-11 14:40 编辑Unsloth 发布了基于 671b 完整版的动态量化版本,目前有4个版本,是1.58bit 131GB,1.73bit 158GB,2.22bit 183GB 和 2.51bit 212GB。这些比 Ollama 里的4位量化版的 404G 大幅度减小,看了下自己电脑配置,勉强能跑上完整版了。
在此之前尝试过 32b 和 70b 蒸馏版本,其中 32b 能在 24G 显存里完整运行,速度大概在28-30tokens/s,不过智能比较差。想了一个测试它的问题,让它对“三光日月星”的下联,它居然能给我回答出“四化工农商学”、“三江水”、“四海渤黄东南海”这些啼笑皆非的答案,看来得上高版本。换成了 70b 后,由于部分运行在内存里,推理速度只有 2tokens/s 了,这还不如直接上完整版呢。
由于使用 Ollama 始终无法运行,报错内存不足,最后切换到用 llama.cpp 里已经编译好的版本来运行,调试了一些参数后,能跑起来了,推理速度大概在 2-2.6 tokens/s。
智能方面,起码能回答出“四诗风雅颂”这种标准答案了,推理速度2.6 tokens/s,但10次里也会有2-3次给出错误答案,但总比 32b 和 70b 里那种基本答不出来的结果强。
其它方面,尝试过 5090D 的那篇帖子里回贴中给出的标准滤波器来模拟声笼和声障现象,回答大概需要 3k 个tokens,速度下降到 2.13 tokens/s
prompt eval time = 14531.17 ms / 45 tokens (322.91 ms per token, 3.10 tokens per second)
eval time = 1342347.40 ms /2856 tokens (470.01 ms per token, 2.13 tokens per second)
total time = 1356878.57 ms /2901 tokens
这个速度只能说非常勉强能用。如果想要获得符合阅读速度的推理速度,目前看来内存带宽是瓶颈,普通电脑上要么上epyc这种8通道主板,直接上 MAC Studio 的 192G 内存版本,价格 4w5,那个内存集成在 CPU 里,带宽很高,看帖子大概有 5-7 tokens/s 的推理速度。再想提高只能用大显存显卡,价格上天了。
另外尝试过 1.75bit 版本,本地运行时存在大量的虚拟内存交换,速度急剧下降到 0.5-1 tokens/s,不实用。
最后放下那个标准滤波器来模拟声笼和声障现象问题的回答,看着像回事。
用cpu+内存的思路跑吧,这个moe模型实际激活参数大概只有30b+左右,看b站别人用洋垃圾+傲腾持久内存跑的动大概2t/s(应该是fp8版本的) 平安是福 发表于 2025-2-11 15:56
用cpu+内存的思路跑吧,这个moe模型实际激活参数大概只有30b+左右,看b站别人用洋垃圾+傲腾持久内存跑的动 ...
确实只需要提高内存的带宽就行了。这是是没想到131g的版本速度比70b还快。 你什麼平台,memory bandwidth多少?
我打算搞個 epyc 三代平台256gb 玩玩 本帖最后由 一懒众衫小 于 2025-2-11 19:53 编辑
oolmfoo 发表于 2025-2-11 18:44
你什麼平台,memory bandwidth多少?
我打算搞個 epyc 三代平台256gb 玩玩
当初别人配置的3990x,现在CPU已经处于残疾状态,动不动就蓝屏,无法测试出哪个核心有问题,dump文件是定位到AuthenticAMD.sys,看别人的评论似乎是硬件故障,估计是CPU里的IO DIE 出问题了,GF的辣鸡工艺导致。已经过保,这下没辙了。
我看了一圈,似乎没找到哪篇纯内存(比如epyc平台)跑r1的推理速度超过5t/s的,莫非只能上MAC的统一内存? 本帖最后由 pdvc 于 2025-2-12 01:08 编辑
虚拟内存跑的我之前测过了,就2t/s速度,然后输入token多一点或者多轮次,就卡死在那要很久。
我试过一个复杂点的声学问题,跑了5小时,输出满了128K token,还没跑完[流汗]
你这是D4内存吧,D5跑70b能有6-10t/s速度,1.58bit的2-3t/s。 本帖最后由 一懒众衫小 于 2025-2-12 08:24 编辑
pdvc 发表于 2025-2-12 01:01
虚拟内存跑的我之前测过了,就2t/s速度,然后输入token多一点或者多轮次,就卡死在那要很久。
我试过一个 ...
确实是D4,还是ECC的3200,不过我用ollama跑70b速度只有2t/s,当时都惊呆了,干脆一狠心直接上1.58bit算了
后面用llama.cpp跑70b怎么调试都不超过2.5,就放弃在70b上面优化。
不过我跑1.58bit时候内存占用比其它模型高得多,基本是在140G-160G左右,上下文在4k时候,显存占满,内存占用151G,这接近极限了。
上下文5k时候,内存占用154G,过了“甜点”,思考和回答时候频繁读取写入硬盘(151G除了刚开始读取硬盘外,思考回答过程中几乎没有写入读取硬盘操作),推理速度暴跌到1.5以下,回答问题刚开始准备阶段超过5分钟才开始思考。
所以上下文4k是这台电脑的极限。 一懒众衫小 发表于 2025-2-12 08:17
确实是D4,还是ECC的3200,不过我用ollama跑70b速度只有2t/s,当时都惊呆了,干脆一狠心直接上1.58bit算 ...
极限是超过内存的容量? 为啥是154G 一懒众衫小 发表于 2025-2-11 19:39
当初别人配置的3990x,现在CPU已经处于残疾状态,动不动就蓝屏,无法测试出哪个核心有问题,dump文件是定 ...
等我两天,测测epyc D4的速度,我推测应该可以达到4-5t/s
因为现在我c612 双路(2696V3) 4通道2133MHZ,内存速度大概是100G/s,跑671B 1.58bit量化是1.5-2t/s
按照推测,EPYC双路(7742) 8通道 内存应该是300G/s,内存速度提升3倍,cpu提升4倍性能以上,怎么滴也要提升2-3倍吧,应该4-5t/s还是有希望的 “换成了 70b 后,由于部分运行在内存里,推理速度只有 2tokens/s 了”
这是 Q4 量化的 70b 吗?其实你再搞一片 3090 就能跑 Q4 70b 了,完全版要求硬件太高了。推理模型输出量大,我觉得至少要有 30 token/s 才能用 刷B站看到的视频,确实提到了内存带宽的瓶颈问题
完整版DeepSeek-R1 671b本地部署 速度瓶颈深度剖析
视频的评论区,这个up还置顶了一个视频
DeepSeek R1-671B全量运行!真正满血!仅需一张16G显存显卡! 人人都能拥有 671B Q4量化 Ktransformer架构 单卡4090运行
本帖最后由 一懒众衫小 于 2025-2-12 09:22 编辑
guitengyue 发表于 2025-2-12 08:35
极限是超过内存的容量? 为啥是154G
我一开始以为 1.58bit 版本加载时候需要的 显存+内存 总量也差不多135-140G,和其它32b 70b的模型类似,结果发现,上下文长度设置低至512的时候,显存占满,内存还占用了141G,也就是 实际消耗内存容量=23.7(显存占用)+141-6(win系统占用)=158.7G,远超预期。
这种情况下,虽然占用部分虚拟内存,但推理仍能较流畅进行,推理过程中硬盘读写几乎没有。上限大概在上下文长度4096时候,内存占用151G。
但到了内存占用154G的时候,也就是 实际消耗内存容量=23.7(显存占用)+154-6(win系统占用)=167.7G,此时推理过程频繁读写硬盘,推理速度暴跌。
所以我尝试了下 1.73bit 158G版本后放弃了,上下文最大不能超过1k,这时候推理速度大概在1.2-1.5t/s,超过1k后,推理速度跌破0.5t/s了 guitengyue 发表于 2025-2-12 08:38
等我两天,测测epyc D4的速度,我推测应该可以达到4-5t/s
因为现在我c612 双路(2696V3) 4通道2133MHZ, ...
这是我的参数,希望能帮到你
.\llama-server -m DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --gpu-layers 9 --flash-attn --ctx-size 4096 --prio 2 --temp 0.6 --no-mmap --cache-type-k q5_0 --threads 24 --threads-batch 24 --verbose
其中--threads-batch 24这个参数对我很关键,没有这个参数时候推理速度从2.5t/s跌倒了1.5t/s,这就让我很诧异,光指定threads还不够么?此外--gpu-layers要刚好设置到占满显存,当我设置到30时候占满了共享内存,速度反而也跌到了1.5t/s
我看看还有没有优化的地方 一懒众衫小 发表于 2025-2-12 09:09
我一开始以为 1.58bit 版本加载时候需要的 显存+内存 总量也差不多135-140G,和其它32b 70b的模型类似, ...
你的是什么平台,目前内存的读写速度是多少 我测试下来的情况是,671B 1.58bit的,显卡有没有一点用都没,但凡动用了内存了(爆显存)速度就暴跌,所以直接放弃gpu了 可以试一下KTransformers的方案。 Miner 发表于 2025-2-12 08:55
“换成了 70b 后,由于部分运行在内存里,推理速度只有 2tokens/s 了”
这是 Q4 量化的 70b 吗?其实你再 ...
我运行的是 Q6_K 的量化版,反正显存溢出,内存绰绰有余
其实用48G魔改的4090也行[狂笑]
不过70b的所有版本我提问 三光日月星,对下联,没有能回答出 四诗风雅颂 的
最后我留下的是 abliterated 70b,但就算提问 1+2=几 这种简单问题,它个别时候也能陷入思考死循环中,还是不稳。 guitengyue 发表于 2025-2-12 09:17
我测试下来的情况是,671B 1.58bit的,显卡有没有一点用都没,但凡动用了内存了(爆显存)速度就暴跌,所以 ...
是的,显卡占用不超过1%,随便一个显卡都行。现在主要是不想花钱给电脑添硬件了,毕竟3990x基本报废了,提问2-3次必定蓝屏,等有机会再重新攒一台电脑 haphaphap 发表于 2025-2-12 09:17
可以试一下KTransformers的方案。
我去试试看 一懒众衫小 发表于 2025-2-12 09:20
我运行的是 Q6_K 的量化版,反正显存溢出,内存绰绰有余
其实用48G魔改的4090也行
重点是得上D5,D4爆显存后基本不能用。 一懒众衫小 发表于 2025-2-12 08:17
确实是D4,还是ECC的3200,不过我用ollama跑70b速度只有2t/s,当时都惊呆了,干脆一狠心直接上1.58bit算 ...
D4 3800测过一个复杂问题,跑了五个小时,输出满了128K token😅 pdvc 发表于 2025-2-12 11:14
D4 3800测过一个复杂问题,跑了五个小时,输出满了128K token😅
什麼平台,epyc嗎? oolmfoo 发表于 2025-2-12 11:47
什麼平台,epyc嗎?
普通zen3 5975WX+512GB DDR43200可以试一试吗?内存应该是8通道 各位彦祖,1.58bit, 这个bit 全称是什么啊? Doomhammer 发表于 2025-2-12 11:52
5975WX+512GB DDR43200可以试一试吗?内存应该是8通道
你应该能跑 4位量化的那个版本,404G,不过速度看样子也不会很高,猜测大概3t/s吧
我试了下自己的平台,4通道,内存读写差不多是 70G/s,延迟有点高,105
仅供参考 pdvc 发表于 2025-2-12 11:12
重点是得上D5,D4爆显存后基本不能用。
是的,今天发现蓝屏是内存问题,从3200降到2666后不再蓝屏,推理速度也降到了 1.8t/s 了。 我两块4090跑70b挺快的 epyc 3 平台,671b Q4 如何才能跑到5-6token? 内存有DDR4 3200 640GB,双路 16通道了,木有显卡,才跑 1 token/s 我已经放弃自己折腾了,直接用第三方收费API了。