一懒众衫小 发表于 2025-2-11 14:23

完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡

本帖最后由 一懒众衫小 于 2025-2-11 14:40 编辑

Unsloth 发布了基于 671b 完整版的动态量化版本,目前有4个版本,是1.58bit 131GB,1.73bit 158GB,2.22bit 183GB 和 2.51bit 212GB。这些比 Ollama 里的4位量化版的 404G 大幅度减小,看了下自己电脑配置,勉强能跑上完整版了。

在此之前尝试过 32b 和 70b 蒸馏版本,其中 32b 能在 24G 显存里完整运行,速度大概在28-30tokens/s,不过智能比较差。想了一个测试它的问题,让它对“三光日月星”的下联,它居然能给我回答出“四化工农商学”、“三江水”、“四海渤黄东南海”这些啼笑皆非的答案,看来得上高版本。换成了 70b 后,由于部分运行在内存里,推理速度只有 2tokens/s 了,这还不如直接上完整版呢。

由于使用 Ollama 始终无法运行,报错内存不足,最后切换到用 llama.cpp 里已经编译好的版本来运行,调试了一些参数后,能跑起来了,推理速度大概在 2-2.6 tokens/s。

智能方面,起码能回答出“四诗风雅颂”这种标准答案了,推理速度2.6 tokens/s,但10次里也会有2-3次给出错误答案,但总比 32b 和 70b 里那种基本答不出来的结果强。

其它方面,尝试过 5090D 的那篇帖子里回贴中给出的标准滤波器来模拟声笼和声障现象,回答大概需要 3k 个tokens,速度下降到 2.13 tokens/s
prompt eval time =   14531.17 ms /    45 tokens (322.91 ms per token,   3.10 tokens per second)
       eval time = 1342347.40 ms /2856 tokens (470.01 ms per token,   2.13 tokens per second)
      total time = 1356878.57 ms /2901 tokens

这个速度只能说非常勉强能用。如果想要获得符合阅读速度的推理速度,目前看来内存带宽是瓶颈,普通电脑上要么上epyc这种8通道主板,直接上 MAC Studio 的 192G 内存版本,价格 4w5,那个内存集成在 CPU 里,带宽很高,看帖子大概有 5-7 tokens/s 的推理速度。再想提高只能用大显存显卡,价格上天了。

另外尝试过 1.75bit 版本,本地运行时存在大量的虚拟内存交换,速度急剧下降到 0.5-1 tokens/s,不实用。

最后放下那个标准滤波器来模拟声笼和声障现象问题的回答,看着像回事。

平安是福 发表于 2025-2-11 15:56

用cpu+内存的思路跑吧,这个moe模型实际激活参数大概只有30b+左右,看b站别人用洋垃圾+傲腾持久内存跑的动大概2t/s(应该是fp8版本的)

一懒众衫小 发表于 2025-2-11 18:10

平安是福 发表于 2025-2-11 15:56
用cpu+内存的思路跑吧,这个moe模型实际激活参数大概只有30b+左右,看b站别人用洋垃圾+傲腾持久内存跑的动 ...

确实只需要提高内存的带宽就行了。这是是没想到131g的版本速度比70b还快。

oolmfoo 发表于 2025-2-11 18:44

你什麼平台,memory bandwidth多少?
我打算搞個 epyc 三代平台256gb 玩玩

一懒众衫小 发表于 2025-2-11 19:39

本帖最后由 一懒众衫小 于 2025-2-11 19:53 编辑

oolmfoo 发表于 2025-2-11 18:44
你什麼平台,memory bandwidth多少?
我打算搞個 epyc 三代平台256gb 玩玩

当初别人配置的3990x,现在CPU已经处于残疾状态,动不动就蓝屏,无法测试出哪个核心有问题,dump文件是定位到AuthenticAMD.sys,看别人的评论似乎是硬件故障,估计是CPU里的IO DIE 出问题了,GF的辣鸡工艺导致。已经过保,这下没辙了。

我看了一圈,似乎没找到哪篇纯内存(比如epyc平台)跑r1的推理速度超过5t/s的,莫非只能上MAC的统一内存?

pdvc 发表于 2025-2-12 01:01

本帖最后由 pdvc 于 2025-2-12 01:08 编辑

虚拟内存跑的我之前测过了,就2t/s速度,然后输入token多一点或者多轮次,就卡死在那要很久。

我试过一个复杂点的声学问题,跑了5小时,输出满了128K token,还没跑完[流汗]

你这是D4内存吧,D5跑70b能有6-10t/s速度,1.58bit的2-3t/s。

一懒众衫小 发表于 2025-2-12 08:17

本帖最后由 一懒众衫小 于 2025-2-12 08:24 编辑

pdvc 发表于 2025-2-12 01:01
虚拟内存跑的我之前测过了,就2t/s速度,然后输入token多一点或者多轮次,就卡死在那要很久。

我试过一个 ...

确实是D4,还是ECC的3200,不过我用ollama跑70b速度只有2t/s,当时都惊呆了,干脆一狠心直接上1.58bit算了
后面用llama.cpp跑70b怎么调试都不超过2.5,就放弃在70b上面优化。

不过我跑1.58bit时候内存占用比其它模型高得多,基本是在140G-160G左右,上下文在4k时候,显存占满,内存占用151G,这接近极限了。
上下文5k时候,内存占用154G,过了“甜点”,思考和回答时候频繁读取写入硬盘(151G除了刚开始读取硬盘外,思考回答过程中几乎没有写入读取硬盘操作),推理速度暴跌到1.5以下,回答问题刚开始准备阶段超过5分钟才开始思考。

所以上下文4k是这台电脑的极限。

guitengyue 发表于 2025-2-12 08:35

一懒众衫小 发表于 2025-2-12 08:17
确实是D4,还是ECC的3200,不过我用ollama跑70b速度只有2t/s,当时都惊呆了,干脆一狠心直接上1.58bit算 ...

极限是超过内存的容量? 为啥是154G

guitengyue 发表于 2025-2-12 08:38

一懒众衫小 发表于 2025-2-11 19:39
当初别人配置的3990x,现在CPU已经处于残疾状态,动不动就蓝屏,无法测试出哪个核心有问题,dump文件是定 ...

等我两天,测测epyc D4的速度,我推测应该可以达到4-5t/s
因为现在我c612 双路(2696V3) 4通道2133MHZ,内存速度大概是100G/s,跑671B 1.58bit量化是1.5-2t/s
按照推测,EPYC双路(7742) 8通道 内存应该是300G/s,内存速度提升3倍,cpu提升4倍性能以上,怎么滴也要提升2-3倍吧,应该4-5t/s还是有希望的

Miner 发表于 2025-2-12 08:55

“换成了 70b 后,由于部分运行在内存里,推理速度只有 2tokens/s 了”

这是 Q4 量化的 70b 吗?其实你再搞一片 3090 就能跑 Q4 70b 了,完全版要求硬件太高了。推理模型输出量大,我觉得至少要有 30 token/s 才能用

winarc 发表于 2025-2-12 09:08

刷B站看到的视频,确实提到了内存带宽的瓶颈问题
完整版DeepSeek-R1 671b本地部署 速度瓶颈深度剖析
视频的评论区,这个up还置顶了一个视频
DeepSeek R1-671B全量运行!真正满血!仅需一张16G显存显卡! 人人都能拥有 671B Q4量化 Ktransformer架构 单卡4090运行


一懒众衫小 发表于 2025-2-12 09:09

本帖最后由 一懒众衫小 于 2025-2-12 09:22 编辑

guitengyue 发表于 2025-2-12 08:35
极限是超过内存的容量? 为啥是154G

我一开始以为 1.58bit 版本加载时候需要的 显存+内存 总量也差不多135-140G,和其它32b 70b的模型类似,结果发现,上下文长度设置低至512的时候,显存占满,内存还占用了141G,也就是 实际消耗内存容量=23.7(显存占用)+141-6(win系统占用)=158.7G,远超预期。

这种情况下,虽然占用部分虚拟内存,但推理仍能较流畅进行,推理过程中硬盘读写几乎没有。上限大概在上下文长度4096时候,内存占用151G。

但到了内存占用154G的时候,也就是 实际消耗内存容量=23.7(显存占用)+154-6(win系统占用)=167.7G,此时推理过程频繁读写硬盘,推理速度暴跌。

所以我尝试了下 1.73bit 158G版本后放弃了,上下文最大不能超过1k,这时候推理速度大概在1.2-1.5t/s,超过1k后,推理速度跌破0.5t/s了

一懒众衫小 发表于 2025-2-12 09:13

guitengyue 发表于 2025-2-12 08:38
等我两天,测测epyc D4的速度,我推测应该可以达到4-5t/s
因为现在我c612 双路(2696V3) 4通道2133MHZ, ...

这是我的参数,希望能帮到你
.\llama-server -m DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --gpu-layers 9 --flash-attn --ctx-size 4096 --prio 2 --temp 0.6 --no-mmap --cache-type-k q5_0 --threads 24 --threads-batch 24 --verbose

其中--threads-batch 24这个参数对我很关键,没有这个参数时候推理速度从2.5t/s跌倒了1.5t/s,这就让我很诧异,光指定threads还不够么?此外--gpu-layers要刚好设置到占满显存,当我设置到30时候占满了共享内存,速度反而也跌到了1.5t/s

我看看还有没有优化的地方

guitengyue 发表于 2025-2-12 09:14

一懒众衫小 发表于 2025-2-12 09:09
我一开始以为 1.58bit 版本加载时候需要的 显存+内存 总量也差不多135-140G,和其它32b 70b的模型类似, ...

你的是什么平台,目前内存的读写速度是多少

guitengyue 发表于 2025-2-12 09:17

我测试下来的情况是,671B 1.58bit的,显卡有没有一点用都没,但凡动用了内存了(爆显存)速度就暴跌,所以直接放弃gpu了

haphaphap 发表于 2025-2-12 09:17

可以试一下KTransformers的方案。

一懒众衫小 发表于 2025-2-12 09:20

Miner 发表于 2025-2-12 08:55
“换成了 70b 后,由于部分运行在内存里,推理速度只有 2tokens/s 了”

这是 Q4 量化的 70b 吗?其实你再 ...

我运行的是 Q6_K 的量化版,反正显存溢出,内存绰绰有余

其实用48G魔改的4090也行[狂笑]

不过70b的所有版本我提问 三光日月星,对下联,没有能回答出 四诗风雅颂 的

最后我留下的是 abliterated 70b,但就算提问 1+2=几 这种简单问题,它个别时候也能陷入思考死循环中,还是不稳。

一懒众衫小 发表于 2025-2-12 09:24

guitengyue 发表于 2025-2-12 09:17
我测试下来的情况是,671B 1.58bit的,显卡有没有一点用都没,但凡动用了内存了(爆显存)速度就暴跌,所以 ...

是的,显卡占用不超过1%,随便一个显卡都行。现在主要是不想花钱给电脑添硬件了,毕竟3990x基本报废了,提问2-3次必定蓝屏,等有机会再重新攒一台电脑

一懒众衫小 发表于 2025-2-12 09:24

haphaphap 发表于 2025-2-12 09:17
可以试一下KTransformers的方案。

我去试试看

pdvc 发表于 2025-2-12 11:12

一懒众衫小 发表于 2025-2-12 09:20
我运行的是 Q6_K 的量化版,反正显存溢出,内存绰绰有余

其实用48G魔改的4090也行


重点是得上D5,D4爆显存后基本不能用。

pdvc 发表于 2025-2-12 11:14

一懒众衫小 发表于 2025-2-12 08:17
确实是D4,还是ECC的3200,不过我用ollama跑70b速度只有2t/s,当时都惊呆了,干脆一狠心直接上1.58bit算 ...

D4 3800测过一个复杂问题,跑了五个小时,输出满了128K token😅

oolmfoo 发表于 2025-2-12 11:47

pdvc 发表于 2025-2-12 11:14
D4 3800测过一个复杂问题,跑了五个小时,输出满了128K token😅

什麼平台,epyc嗎?

pdvc 发表于 2025-2-12 11:50

oolmfoo 发表于 2025-2-12 11:47
什麼平台,epyc嗎?

普通zen3

Doomhammer 发表于 2025-2-12 11:52

5975WX+512GB DDR43200可以试一试吗?内存应该是8通道

fromiss 发表于 2025-2-12 12:09

各位彦祖,1.58bit, 这个bit 全称是什么啊?

一懒众衫小 发表于 2025-2-12 12:25

Doomhammer 发表于 2025-2-12 11:52
5975WX+512GB DDR43200可以试一试吗?内存应该是8通道

你应该能跑 4位量化的那个版本,404G,不过速度看样子也不会很高,猜测大概3t/s吧

我试了下自己的平台,4通道,内存读写差不多是 70G/s,延迟有点高,105
仅供参考

一懒众衫小 发表于 2025-2-12 12:26

pdvc 发表于 2025-2-12 11:12
重点是得上D5,D4爆显存后基本不能用。

是的,今天发现蓝屏是内存问题,从3200降到2666后不再蓝屏,推理速度也降到了 1.8t/s 了。

jihuan 发表于 2025-2-12 12:44

我两块4090跑70b挺快的

msdelphi 发表于 2025-2-12 13:02

epyc 3 平台,671b Q4 如何才能跑到5-6token? 内存有DDR4 3200 640GB,双路 16通道了,木有显卡,才跑 1 token/s

Jimmy_Qiu 发表于 2025-2-12 13:07

我已经放弃自己折腾了,直接用第三方收费API了。
页: [1] 2 3
查看完整版本: 完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡