昨天在本地部署了deepseek r1-8b\14b\32b - 第3页 - 电脑讨论(新) - Chiphell - 分享与交流用户体验

chh-carter 发表于 2025-2-3 16:18

gnhen5415 发表于 2025-2-3 13:09
是1280g左右

我下载了一个70b，四十多G，3090ti都慢的一p。跟不要说完整版的V3了

YEX 发表于 2025-2-3 16:48

过几天学习学习，看看能不能把项目可研报告，估概预决算计算书还有环保啥的扔进去。。行的话打个报告就可以玩免费的5090了[偷笑]

Valkyrie1996 发表于 2025-2-8 12:26

YEX 发表于 2025-2-3 16:48
过几天学习学习，看看能不能把项目可研报告，估概预决算计算书还有环保啥的扔进去。。行的话打个报告就可以 ...

用AI来升级AI硬件装备，正循环了~哈哈

胡须佬 发表于 2025-2-8 13:25

Oxyer 发表于 2025-2-1 22:53
因为没联网，LM的和chatbox的没法联网都这个样子。ollama+page assist打开联网就没问题。 ...

ollama+page assist打开联网没效果

xbl919849900 发表于 2025-2-8 14:44

买个m4 mini 24g内存 256g的丐版，能稳定来跑32b的模型吗？速度咋样

Oxyer 发表于 2025-2-8 16:45

胡须佬发表于 2025-2-8 13:25
ollama+page assist打开联网没效果

何以见得的?

tim6252 发表于 2025-2-8 17:18

。。。我感觉以后小说也没得看了全是AI写本来就已经很烂了以后更没法看

skyfish 发表于 2025-2-8 19:22

70B及以下的都是QWen的finetune版本吧，推理速度上跟QWen或者llama没有本质区别吧，
得上671B的版本有MoE加持，才能看到相比其他家模型的性能优势吧

olloll 发表于 2025-2-8 20:27

本帖最后由 olloll 于 2025-2-8 20:29 编辑

skyfish 发表于 2025-2-8 19:22
70B及以下的都是QWen的finetune版本吧，推理速度上跟QWen或者llama没有本质区别吧，
得上671B的版本有MoE加 ...

自己部署好玩而已，，真正用会买api，，有一些整合的第三方服务商9.9美元所有模型都可以用，额度个人基本用不完

mkkkno1 发表于 2025-2-8 20:42

胡须佬发表于 2025-2-8 13:25
ollama+page assist打开联网没效果

我用火狐+page assist能联网呀

装陈醋的酱油瓶 发表于 2025-2-8 22:01

chh-carter 发表于 2025-2-3 16:18
我下载了一个70b，四十多G，3090ti都慢的一p。跟不要说完整版的V3了

爆显存了，可能跟直接用CPU跑差别不大

yfan 发表于 2025-2-8 22:10

我最近也下了个玩了下 32b我试过12tok左右 70b直接慢得要死只有1.5tok[偷笑] 显卡w6800x 32G

chh-carter 发表于 2025-2-9 17:43

装陈醋的酱油瓶发表于 2025-2-8 22:01
爆显存了，可能跟直接用CPU跑差别不大

我这个应该是显存不够自动分配了内存共享，一共是24G显存+20G的内存一起跑的，依然很慢。所以讲真的，本地部署其实对于家用来说，意义真不大。

装陈醋的酱油瓶 发表于 2025-2-9 17:51

chh-carter 发表于 2025-2-9 17:43
我这个应该是显存不够自动分配了内存共享，一共是24G显存+20G的内存一起跑的，依然很慢。所以讲真的，本 ...

试试看Q4 量化的，我一张2080ti 跑32B Q4 很快
70B Q4 量化的用两张2080ti 22G 也有10+ token/s

chh-carter 发表于 2025-2-9 17:57

装陈醋的酱油瓶发表于 2025-2-9 17:51
试试看Q4 量化的，我一张2080ti 跑32B Q4 很快
70B Q4 量化的用两张2080ti 22G 也有10+ token/s ...

我应该用的就是Q4模型，速度只有0.52

当然这个是RTX TITAN跑出来的，不是3090ti

你说发表于 2025-2-9 18:38

部署这玩意cpu用什么好？刚好打算升级电脑，不带显卡控制在1万左右，求推荐配置！显卡打算4090fe或5090fe（区别大吗？）

kuram 发表于 2025-2-9 19:58

70B的效果会比较好但是怎么弄呢

西人街语_EX 发表于 2025-2-10 14:49

chip_discovery 发表于 2025-2-1 09:33
4090 24G 只能玩32B，70B需要43G显存

PS. 32B 要求显存20G，2080ti 22g 还挺快的

请问32B的时候显存占用有多少呀

chip_discovery 发表于 2025-2-10 15:30

西人街语_EX 发表于 2025-2-10 14:49
请问32B的时候显存占用有多少呀

我没有特别长的那种文本任务，任务管理器显示19.几G

chip_discovery 发表于 2025-2-10 15:34

YsHaNg 发表于 2025-2-1 19:00
那你少了个ollama很强的前端 open webui是御用的原名叫ollama webui 有前后端打包一键跑
docker run -d...

我用docker 部署过这个open-webui，首字延迟特别大，大概几十秒，直接用cmd输入问题就很快，搞不懂

mkkkno1 发表于 2025-2-10 16:09

西人街语_EX 发表于 2025-2-10 14:49
请问32B的时候显存占用有多少呀

22G的样子

YsHaNg 发表于 2025-2-10 16:35

chip_discovery 发表于 2025-2-10 07:34
我用docker 部署过这个open-webui，首字延迟特别大，大概几十秒，直接用cmd输入问题就很快，搞不懂 ...

gui比cli慢是必然的你可以关掉promt推荐还有input补全默认是你当前对话模型去做这些事如果你选择的模型机器本身跑就很慢那输入延迟也大也可以换一个小一点的模型处理这些后台事物在管理员-设置-界面改本地模型

西人街语_EX 发表于 2025-2-10 19:07

chip_discovery 发表于 2025-2-10 15:30
我没有特别长的那种文本任务，任务管理器显示19.几G

感谢，那就放心买张22g的卡玩玩了[狂笑]

zhanming 发表于 2025-2-17 17:07

xjr12000 发表于 2025-2-1 13:03
671B都能跑起来，而且是无蒸馏版
价格不贵，起码比你买5090便宜

看了下，这个居然是用内存跑的，不用显卡
768G DDR5 内存

ifrankly 发表于 2025-2-20 13:48

蒸馏又是什么意思？

eclipser9 发表于 2025-2-20 17:12

AiReason 发表于 2025-2-1 10:41
我最想知道的是这几个蒸馏模型智力的区别有多大

反正1.5b的会抽风

页: 1 2 [3]

Chiphell - 分享与交流用户体验's Archiver