完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡

一懒众衫小 · 发表于 2025-2-11 14:23

本帖最后由一懒众衫小于 2025-2-11 14:40 编辑

Unsloth 发布了基于 671b 完整版的动态量化版本，目前有4个版本，是1.58bit 131GB，1.73bit 158GB，2.22bit 183GB 和 2.51bit 212GB。这些比 Ollama 里的4位量化版的 404G 大幅度减小，看了下自己电脑配置，勉强能跑上完整版了。

在此之前尝试过 32b 和 70b 蒸馏版本，其中 32b 能在 24G 显存里完整运行，速度大概在28-30tokens/s，不过智能比较差。想了一个测试它的问题，让它对“三光日月星”的下联，它居然能给我回答出“四化工农商学”、“三江水”、“四海渤黄东南海”这些啼笑皆非的答案，看来得上高版本。换成了 70b 后，由于部分运行在内存里，推理速度只有 2tokens/s 了，这还不如直接上完整版呢。

由于使用 Ollama 始终无法运行，报错内存不足，最后切换到用 llama.cpp 里已经编译好的版本来运行，调试了一些参数后，能跑起来了，推理速度大概在 2-2.6 tokens/s。

智能方面，起码能回答出“四诗风雅颂”这种标准答案了，推理速度2.6 tokens/s，但10次里也会有2-3次给出错误答案，但总比 32b 和 70b 里那种基本答不出来的结果强。

其它方面，尝试过 5090D 的那篇帖子里回贴中给出的标准滤波器来模拟声笼和声障现象，回答大概需要 3k 个tokens，速度下降到 2.13 tokens/s
prompt eval time = 14531.17 ms / 45 tokens (  322.91 ms per token,    3.10 tokens per second)
   eval time = 1342347.40 ms /  2856 tokens (  470.01 ms per token,    2.13 tokens per second)
   total time = 1356878.57 ms /  2901 tokens

这个速度只能说非常勉强能用。如果想要获得符合阅读速度的推理速度，目前看来内存带宽是瓶颈，普通电脑上要么上epyc这种8通道主板，直接上 MAC Studio 的 192G 内存版本，价格 4w5，那个内存集成在 CPU 里，带宽很高，看帖子大概有 5-7 tokens/s 的推理速度。再想提高只能用大显存显卡，价格上天了。

另外尝试过 1.75bit 版本，本地运行时存在大量的虚拟内存交换，速度急剧下降到 0.5-1 tokens/s，不实用。

最后放下那个标准滤波器来模拟声笼和声障现象问题的回答，看着像回事。

平安是福 · 发表于 2025-2-11 15:56

用cpu+内存的思路跑吧，这个moe模型实际激活参数大概只有30b+左右，看b站别人用洋垃圾+傲腾持久内存跑的动大概2t/s(应该是fp8版本的）

一懒众衫小 · 发表于 2025-2-11 18:10

平安是福发表于 2025-2-11 15:56
用cpu+内存的思路跑吧，这个moe模型实际激活参数大概只有30b+左右，看b站别人用洋垃圾+傲腾持久内存跑的动 ...

确实只需要提高内存的带宽就行了。这是是没想到131g的版本速度比70b还快。

oolmfoo · 发表于 2025-2-11 18:44

你什麼平台，memory bandwidth多少？
我打算搞個 epyc 三代平台256gb 玩玩

一懒众衫小 · 发表于 2025-2-11 19:39

本帖最后由一懒众衫小于 2025-2-11 19:53 编辑

oolmfoo 发表于 2025-2-11 18:44
你什麼平台，memory bandwidth多少？
我打算搞個 epyc 三代平台256gb 玩玩

当初别人配置的3990x，现在CPU已经处于残疾状态，动不动就蓝屏，无法测试出哪个核心有问题，dump文件是定位到AuthenticAMD.sys，看别人的评论似乎是硬件故障，估计是CPU里的IO DIE 出问题了，GF的辣鸡工艺导致。已经过保，这下没辙了。

我看了一圈，似乎没找到哪篇纯内存（比如epyc平台）跑r1的推理速度超过5t/s的，莫非只能上MAC的统一内存？

pdvc · 发表于 2025-2-12 01:01

本帖最后由 pdvc 于 2025-2-12 01:08 编辑

虚拟内存跑的我之前测过了，就2t/s速度，然后输入token多一点或者多轮次，就卡死在那要很久。

我试过一个复杂点的声学问题，跑了5小时，输出满了128K token，还没跑完

你这是D4内存吧，D5跑70b能有6-10t/s速度，1.58bit的2-3t/s。

一懒众衫小 · 发表于 2025-2-12 08:17

本帖最后由一懒众衫小于 2025-2-12 08:24 编辑

pdvc 发表于 2025-2-12 01:01
虚拟内存跑的我之前测过了，就2t/s速度，然后输入token多一点或者多轮次，就卡死在那要很久。

我试过一个 ...

确实是D4，还是ECC的3200，不过我用ollama跑70b速度只有2t/s，当时都惊呆了，干脆一狠心直接上1.58bit算了
后面用llama.cpp跑70b怎么调试都不超过2.5，就放弃在70b上面优化。

不过我跑1.58bit时候内存占用比其它模型高得多，基本是在140G-160G左右，上下文在4k时候，显存占满，内存占用151G，这接近极限了。
上下文5k时候，内存占用154G，过了“甜点”，思考和回答时候频繁读取写入硬盘（151G除了刚开始读取硬盘外，思考回答过程中几乎没有写入读取硬盘操作），推理速度暴跌到1.5以下，回答问题刚开始准备阶段超过5分钟才开始思考。

所以上下文4k是这台电脑的极限。

guitengyue · 发表于 2025-2-12 08:35

一懒众衫小发表于 2025-2-12 08:17
确实是D4，还是ECC的3200，不过我用ollama跑70b速度只有2t/s，当时都惊呆了，干脆一狠心直接上1.58bit算 ...

极限是超过内存的容量？为啥是154G

guitengyue · 发表于 2025-2-12 08:38

一懒众衫小发表于 2025-2-11 19:39
当初别人配置的3990x，现在CPU已经处于残疾状态，动不动就蓝屏，无法测试出哪个核心有问题，dump文件是定 ...

等我两天，测测epyc D4的速度，我推测应该可以达到4-5t/s
因为现在我c612 双路（2696V3） 4通道2133MHZ，内存速度大概是100G/s，跑671B 1.58bit量化是1.5-2t/s
按照推测，EPYC双路（7742） 8通道内存应该是300G/s，内存速度提升3倍，cpu提升4倍性能以上，怎么滴也要提升2-3倍吧，应该4-5t/s还是有希望的

Miner · 发表于 2025-2-12 08:55

“换成了 70b 后，由于部分运行在内存里，推理速度只有 2tokens/s 了”

这是 Q4 量化的 70b 吗？其实你再搞一片 3090 就能跑 Q4 70b 了，完全版要求硬件太高了。推理模型输出量大，我觉得至少要有 30 token/s 才能用

winarc · 发表于 2025-2-12 09:08

刷B站看到的视频，确实提到了内存带宽的瓶颈问题
完整版DeepSeek-R1 671b本地部署速度瓶颈深度剖析
视频的评论区，这个up还置顶了一个视频
DeepSeek R1-671B全量运行！真正满血！仅需一张16G显存显卡! 人人都能拥有 671B Q4量化 Ktransformer架构单卡4090运行

一懒众衫小 · 发表于 2025-2-12 09:09

本帖最后由一懒众衫小于 2025-2-12 09:22 编辑

guitengyue 发表于 2025-2-12 08:35
极限是超过内存的容量？为啥是154G

我一开始以为 1.58bit 版本加载时候需要的显存+内存总量也差不多135-140G，和其它32b 70b的模型类似，结果发现，上下文长度设置低至512的时候，显存占满，内存还占用了141G，也就是实际消耗内存容量=23.7（显存占用）+141-6（win系统占用）=158.7G，远超预期。

这种情况下，虽然占用部分虚拟内存，但推理仍能较流畅进行，推理过程中硬盘读写几乎没有。上限大概在上下文长度4096时候，内存占用151G。

但到了内存占用154G的时候，也就是实际消耗内存容量=23.7（显存占用）+154-6（win系统占用）=167.7G，此时推理过程频繁读写硬盘，推理速度暴跌。

所以我尝试了下 1.73bit 158G版本后放弃了，上下文最大不能超过1k，这时候推理速度大概在1.2-1.5t/s，超过1k后，推理速度跌破0.5t/s了

一懒众衫小 · 发表于 2025-2-12 09:13

guitengyue 发表于 2025-2-12 08:38
等我两天，测测epyc D4的速度，我推测应该可以达到4-5t/s
因为现在我c612 双路（2696V3） 4通道2133MHZ， ...

这是我的参数，希望能帮到你
.\llama-server -m DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --gpu-layers 9 --flash-attn --ctx-size 4096 --prio 2 --temp 0.6 --no-mmap --cache-type-k q5_0 --threads 24 --threads-batch 24 --verbose

其中--threads-batch 24这个参数对我很关键，没有这个参数时候推理速度从2.5t/s跌倒了1.5t/s，这就让我很诧异，光指定threads还不够么？此外--gpu-layers要刚好设置到占满显存，当我设置到30时候占满了共享内存，速度反而也跌到了1.5t/s

我看看还有没有优化的地方

guitengyue · 发表于 2025-2-12 09:14

一懒众衫小发表于 2025-2-12 09:09
我一开始以为 1.58bit 版本加载时候需要的显存+内存总量也差不多135-140G，和其它32b 70b的模型类似， ...

你的是什么平台，目前内存的读写速度是多少

guitengyue · 发表于 2025-2-12 09:17

我测试下来的情况是，671B 1.58bit的，显卡有没有一点用都没，但凡动用了内存了（爆显存）速度就暴跌，所以直接放弃gpu了

haphaphap · 发表于 2025-2-12 09:17

可以试一下KTransformers的方案。

一懒众衫小 · 发表于 2025-2-12 09:20

Miner 发表于 2025-2-12 08:55
“换成了 70b 后，由于部分运行在内存里，推理速度只有 2tokens/s 了”

这是 Q4 量化的 70b 吗？其实你再 ...

我运行的是 Q6_K 的量化版，反正显存溢出，内存绰绰有余

其实用48G魔改的4090也行

不过70b的所有版本我提问三光日月星，对下联，没有能回答出四诗风雅颂的

最后我留下的是 abliterated 70b，但就算提问 1+2=几这种简单问题，它个别时候也能陷入思考死循环中，还是不稳。

一懒众衫小 · 发表于 2025-2-12 09:24

guitengyue 发表于 2025-2-12 09:17
我测试下来的情况是，671B 1.58bit的，显卡有没有一点用都没，但凡动用了内存了（爆显存）速度就暴跌，所以 ...

是的，显卡占用不超过1%，随便一个显卡都行。现在主要是不想花钱给电脑添硬件了，毕竟3990x基本报废了，提问2-3次必定蓝屏，等有机会再重新攒一台电脑

一懒众衫小 · 发表于 2025-2-12 09:24

haphaphap 发表于 2025-2-12 09:17
可以试一下KTransformers的方案。

我去试试看

pdvc · 发表于 2025-2-12 11:12

一懒众衫小发表于 2025-2-12 09:20
我运行的是 Q6_K 的量化版，反正显存溢出，内存绰绰有余

其实用48G魔改的4090也行

重点是得上D5，D4爆显存后基本不能用。

pdvc · 发表于 2025-2-12 11:14

一懒众衫小发表于 2025-2-12 08:17
确实是D4，还是ECC的3200，不过我用ollama跑70b速度只有2t/s，当时都惊呆了，干脆一狠心直接上1.58bit算 ...

D4 3800测过一个复杂问题，跑了五个小时，输出满了128K token😅

oolmfoo · 发表于 2025-2-12 11:47

pdvc 发表于 2025-2-12 11:14
D4 3800测过一个复杂问题，跑了五个小时，输出满了128K token😅

什麼平台，epyc嗎？

pdvc · 发表于 2025-2-12 11:50

oolmfoo 发表于 2025-2-12 11:47
什麼平台，epyc嗎？

普通zen3

Doomhammer · 发表于 2025-2-12 11:52

5975WX+512GB DDR43200可以试一试吗？内存应该是8通道

fromiss · 发表于 2025-2-12 12:09

各位彦祖，1.58bit，这个bit 全称是什么啊？

一懒众衫小 · 发表于 2025-2-12 12:25

Doomhammer 发表于 2025-2-12 11:52
5975WX+512GB DDR43200可以试一试吗？内存应该是8通道

你应该能跑 4位量化的那个版本，404G，不过速度看样子也不会很高，猜测大概3t/s吧

我试了下自己的平台，4通道，内存读写差不多是 70G/s，延迟有点高，105
仅供参考

一懒众衫小 · 发表于 2025-2-12 12:26

pdvc 发表于 2025-2-12 11:12
重点是得上D5，D4爆显存后基本不能用。

是的，今天发现蓝屏是内存问题，从3200降到2666后不再蓝屏，推理速度也降到了 1.8t/s 了。

jihuan · 发表于 2025-2-12 12:44

我两块4090跑70b挺快的

msdelphi · 发表于 2025-2-12 13:02

epyc 3 平台，671b Q4 如何才能跑到5-6token？内存有DDR4 3200 640GB，双路 16通道了，木有显卡，才跑 1 token/s

Jimmy_Qiu · 发表于 2025-2-12 13:07

我已经放弃自己折腾了，直接用第三方收费API了。

账号		自动登录	找回密码
密码			加入我们

[显卡] 完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡

评分

浏览过的版块