完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡

manwomans · 发表于 2025-2-18 03:01

满血版没啥折腾的必要
直接申请api用就行了
速度比本地部署的快多了
量化版本还高
1bit的大模型也已经降智的太多了

盐湖 · 发表于 2025-2-18 09:38

pdvc 发表于 2025-2-17 23:51
涉及到的推理计算过程多一些嘛，输出的token相对也多一些。

好的，谢谢！

guitengyue · 发表于 2025-2-18 12:27

一懒众衫小发表于 2025-2-12 09:13
这是我的参数，希望能帮到你
.\llama-server -m DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --gpu-layers ...

不知道啥情况，我双路epyc，带宽350G/S，最终跑下来成绩惨不忍睹，居然和我e5差不多。。。

fut888 · 发表于 2025-2-18 13:44

6892731 发表于 2025-2-15 00:36
671B 4bit量化还行，可用；max_new_tokens 4000

这个速度可以啊，什么配置

coolcoolbear · 发表于 2025-2-18 18:07

manwomans 发表于 2025-2-18 03:01
满血版没啥折腾的必要
直接申请api用就行了
速度比本地部署的快多了

api有挺多限制，还是本地的用着爽，可以7*24让它干活，活活。

sonicz · 发表于 2025-2-18 22:15

guitengyue 发表于 2025-2-18 12:27
不知道啥情况，我双路epyc，带宽350G/S，最终跑下来成绩惨不忍睹，居然和我e5差不多。。。 ...

是不是忘了BIOS里面把NUMA设成0了？

guitengyue · 发表于 2025-2-18 22:26

sonicz 发表于 2025-2-18 22:15
是不是忘了BIOS里面把NUMA设成0了？

这个是要设置成0？我看视频教程是设置成4呢。。。

coolcoolbear · 发表于 2025-2-18 22:37

一懒众衫小发表于 2025-2-15 10:00
看到很多测试，llama 70b 的蒸馏还不如 qwen 32b的，不过这个对联都没答对。
昨天又试了下1.58b，居然还 ...

在ollama下的70b, 繁体字都出来了。

下联：四靈龍鳳麟

testmepro · 发表于 2025-2-18 22:42

大家讨论这么热闹我觉得是不是可以组个群交流也方便啊

一懒众衫小 · 发表于 2025-2-19 08:35

coolcoolbear 发表于 2025-2-18 22:37
在ollama下的70b, 繁体字都出来了。

下联：四靈龍鳳麟

llama70b在中文方面还不如qwen32b呢

一懒众衫小 · 发表于 2025-2-19 08:37

guitengyue 发表于 2025-2-18 22:26
这个是要设置成0？我看视频教程是设置成4呢。。。

我昨天切换到debian上试了llama，速度升到3.7token/s了。。。也不知道KT啥时候能搞定iq1量化系列

6892731 · 发表于 2025-2-19 23:23

KimmyGLM 发表于 2025-2-15 00:59
啥配置跑的？

9654+512G d5+4090d

6892731 · 发表于 2025-2-19 23:23

一懒众衫小发表于 2025-2-15 10:02
你的配置上 KTransformers 有望啊，如果模型大小400g，单个token激活大概是37b，所以单个token需求 37/6 ...

就是kt

6892731 · 发表于 2025-2-19 23:23

fut888 发表于 2025-2-18 13:44
这个速度可以啊，什么配置

9654+512G d5+4090d

wangbinyh · 发表于 2025-2-26 23:01

jihuan 发表于 2025-2-12 12:44
我两块4090跑70b挺快的

两张卡要nvlink么？还是纯从服务中配置就好了？

marcobai · 发表于 2025-2-26 23:37

炒显卡的托

postman · 发表于 2025-3-3 17:39

5950x+128gb+3090能跑得动1.58bit吗？

一懒众衫小 · 发表于 2025-3-3 18:45

postman 发表于 2025-3-3 17:39
5950x+128gb+3090能跑得动1.58bit吗？

现在的情况只能勉强运行起来而已。装debian后，128g内存用完，24g显存也用完。上下文最多3800，如果要多轮对话或在提示词长一点，那长度得低于3k。基本就是玩玩而已

postman · 发表于 2025-3-4 09:42

一懒众衫小发表于 2025-3-3 18:45
现在的情况只能勉强运行起来而已。装debian后，128g内存用完，24g显存也用完。上下文最多3800，如果要多 ...

那还是接api用吧

n37fr0g · 发表于 2025-3-5 10:37

本帖最后由 n37fr0g 于 2025-3-5 10:38 编辑

有没有大能尝试一下Intel Xeon Max （9480、9470、9468、9460、9462有64G H_B_M2内存带宽1T）配 DDR5 8g x 12内存配 intel persist memory 300 128g x 12 看看deepseek速度能到多少？

账号		自动登录	找回密码
密码			加入我们

[显卡] 完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡

浏览过的版块