manwomans 发表于 2025-2-18 03:01

满血版没啥折腾的必要
直接申请api用就行了
速度比本地部署的快多了
量化版本还高
1bit的大模型也已经降智的太多了

盐湖 发表于 2025-2-18 09:38

pdvc 发表于 2025-2-17 23:51
涉及到的推理计算过程多一些嘛,输出的token相对也多一些。

好的,谢谢!

guitengyue 发表于 2025-2-18 12:27

一懒众衫小 发表于 2025-2-12 09:13
这是我的参数,希望能帮到你
.\llama-server -m DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --gpu-layers ...

不知道啥情况,我双路epyc,带宽350G/S,最终跑下来成绩惨不忍睹,居然和我e5差不多。。。

fut888 发表于 2025-2-18 13:44

6892731 发表于 2025-2-15 00:36
671B 4bit量化还行,可用;max_new_tokens 4000

这个速度可以啊,什么配置

coolcoolbear 发表于 2025-2-18 18:07

manwomans 发表于 2025-2-18 03:01
满血版没啥折腾的必要
直接申请api用就行了
速度比本地部署的快多了


api有挺多限制,还是本地的用着爽,可以7*24让它干活,活活。

sonicz 发表于 2025-2-18 22:15

guitengyue 发表于 2025-2-18 12:27
不知道啥情况,我双路epyc,带宽350G/S,最终跑下来成绩惨不忍睹,居然和我e5差不多。。。 ...

是不是忘了BIOS里面把NUMA设成0了?

guitengyue 发表于 2025-2-18 22:26

sonicz 发表于 2025-2-18 22:15
是不是忘了BIOS里面把NUMA设成0了?

这个是要设置成0?我看视频教程是设置成4呢。。。

coolcoolbear 发表于 2025-2-18 22:37

一懒众衫小 发表于 2025-2-15 10:00
看到很多测试,llama 70b 的蒸馏还不如 qwen 32b的,不过这个对联都没答对。
昨天又试了下1.58b,居然还 ...

在ollama下的70b, 繁体字都出来了。

下联:四靈龍鳳麟

testmepro 发表于 2025-2-18 22:42

大家讨论这么热闹我觉得是不是可以组个群交流也方便啊

一懒众衫小 发表于 2025-2-19 08:35

coolcoolbear 发表于 2025-2-18 22:37
在ollama下的70b, 繁体字都出来了。

下联:四靈龍鳳麟

llama70b在中文方面还不如qwen32b呢

一懒众衫小 发表于 2025-2-19 08:37

guitengyue 发表于 2025-2-18 22:26
这个是要设置成0?我看视频教程是设置成4呢。。。

我昨天切换到debian上试了llama,速度升到3.7token/s了。。。也不知道KT啥时候能搞定iq1量化系列

6892731 发表于 2025-2-19 23:23

KimmyGLM 发表于 2025-2-15 00:59
啥配置跑的?

9654+512G d5+4090d

6892731 发表于 2025-2-19 23:23

一懒众衫小 发表于 2025-2-15 10:02
你的配置上 KTransformers 有望啊,如果模型大小400g,单个token激活大概是37b,所以单个token需求 37/6 ...

就是kt               

6892731 发表于 2025-2-19 23:23

fut888 发表于 2025-2-18 13:44
这个速度可以啊,什么配置

9654+512G d5+4090d

wangbinyh 发表于 2025-2-26 23:01

jihuan 发表于 2025-2-12 12:44
我两块4090跑70b挺快的

两张卡要nvlink么?还是纯从服务中配置就好了?

marcobai 发表于 2025-2-26 23:37

炒显卡的托

postman 发表于 2025-3-3 17:39

5950x+128gb+3090能跑得动1.58bit吗?

一懒众衫小 发表于 2025-3-3 18:45

postman 发表于 2025-3-3 17:39
5950x+128gb+3090能跑得动1.58bit吗?

现在的情况只能勉强运行起来而已。装debian后,128g内存用完,24g显存也用完。上下文最多3800,如果要多轮对话或在提示词长一点,那长度得低于3k。基本就是玩玩而已

postman 发表于 2025-3-4 09:42

一懒众衫小 发表于 2025-3-3 18:45
现在的情况只能勉强运行起来而已。装debian后,128g内存用完,24g显存也用完。上下文最多3800,如果要多 ...

那还是接api用吧

n37fr0g 发表于 2025-3-5 10:37

本帖最后由 n37fr0g 于 2025-3-5 10:38 编辑

有没有大能尝试一下Intel Xeon Max (9480、9470、9468、9460、9462有64G H_B_M2内存 带宽1T)配 DDR5 8g x 12内存配intel persist memory 300 128g x 12 看看deepseek速度能到多少?
页: 1 2 [3]
查看完整版本: 完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡