找回密码
 加入我们
搜索
      
楼主: 一懒众衫小

[显卡] 完整版DeepSeek r1 671b本地运行 1.58bit动态量化版本 128G内存+3090显卡

[复制链接]
发表于 2025-2-18 03:01 | 显示全部楼层
满血版没啥折腾的必要
直接申请api用就行了
速度比本地部署的快多了
量化版本还高
1bit的大模型也已经降智的太多了
发表于 2025-2-18 09:38 | 显示全部楼层
pdvc 发表于 2025-2-17 23:51
涉及到的推理计算过程多一些嘛,输出的token相对也多一些。

好的,谢谢!
发表于 2025-2-18 12:27 | 显示全部楼层
一懒众衫小 发表于 2025-2-12 09:13
这是我的参数,希望能帮到你
.\llama-server -m DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --gpu-layers ...

不知道啥情况,我双路epyc,带宽350G/S,最终跑下来成绩惨不忍睹,居然和我e5差不多。。。
发表于 2025-2-18 13:44 | 显示全部楼层
6892731 发表于 2025-2-15 00:36
671B 4bit量化还行,可用;max_new_tokens 4000

这个速度可以啊,什么配置
发表于 2025-2-18 18:07 | 显示全部楼层
manwomans 发表于 2025-2-18 03:01
满血版没啥折腾的必要
直接申请api用就行了
速度比本地部署的快多了

api有挺多限制,还是本地的用着爽,可以7*24让它干活,活活。
发表于 2025-2-18 22:15 | 显示全部楼层
guitengyue 发表于 2025-2-18 12:27
不知道啥情况,我双路epyc,带宽350G/S,最终跑下来成绩惨不忍睹,居然和我e5差不多。。。 ...

是不是忘了BIOS里面把NUMA设成0了?
发表于 2025-2-18 22:26 | 显示全部楼层
sonicz 发表于 2025-2-18 22:15
是不是忘了BIOS里面把NUMA设成0了?

这个是要设置成0?我看视频教程是设置成4呢。。。
发表于 2025-2-18 22:37 | 显示全部楼层
一懒众衫小 发表于 2025-2-15 10:00
看到很多测试,llama 70b 的蒸馏还不如 qwen 32b的,不过这个对联都没答对。
昨天又试了下1.58b,居然还 ...

在ollama下的70b, 繁体字都出来了。

下联:四靈龍鳳麟
发表于 2025-2-18 22:42 来自手机 | 显示全部楼层
大家讨论这么热闹我觉得是不是可以组个群交流也方便啊
 楼主| 发表于 2025-2-19 08:35 | 显示全部楼层
coolcoolbear 发表于 2025-2-18 22:37
在ollama下的70b, 繁体字都出来了。

下联:四靈龍鳳麟

llama70b在中文方面还不如qwen32b呢
 楼主| 发表于 2025-2-19 08:37 | 显示全部楼层
guitengyue 发表于 2025-2-18 22:26
这个是要设置成0?我看视频教程是设置成4呢。。。

我昨天切换到debian上试了llama,速度升到3.7token/s了。。。也不知道KT啥时候能搞定iq1量化系列
发表于 2025-2-19 23:23 | 显示全部楼层

9654+512G d5+4090d
发表于 2025-2-19 23:23 | 显示全部楼层
一懒众衫小 发表于 2025-2-15 10:02
你的配置上 KTransformers 有望啊,如果模型大小400g,单个token激活大概是37b,所以单个token需求 37/6 ...

就是kt                 
发表于 2025-2-19 23:23 | 显示全部楼层
fut888 发表于 2025-2-18 13:44
这个速度可以啊,什么配置

9654+512G d5+4090d
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-21 03:35 , Processed in 0.010676 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表