CptQ 发表于 2025-2-1 13:19

通用小模型本地部署也就图个乐,低于32B的都太蠢了,时效性也差,而且大厂的本地模型也会有审查机制。
本地部署适合那种自己训练出来的、专业性强的、针对性使用的小模型,比如日语黄色翻译哈哈。

syringalibra 发表于 2025-2-1 14:24

loughlion 发表于 2025-2-1 13:09
我也用了图形界面,chatbox的,ollama+chatbox会不会比LM Studio资源占用多?要是换LM是不是要收费啊? ...

LM基础版是免费的,资源占用来说应该差不多吧,LM适合大模型尝鲜,即开即用

zhong00123 发表于 2025-2-1 15:10

70b蒸馏模型大概占用55G内存也可以跑,就是用CPU+内存硬跑的速度一言难尽

pj1119 发表于 2025-2-1 15:20

本地 安装 ollama 下载一个模型,谷歌浏览器 挂一个Page Assist 插件能就玩了。。。要是会科学魔法,还能联网。。

zzeng12 发表于 2025-2-1 15:21

楼主部署后是本地应用还是本地微调哈,我有个4070tis 16g 好像微调的话只能8b的,还要量化。现在还没时间实际操作下,想用基座模型,训练一下专门某个领域使用的模型

YJotd 发表于 2025-2-1 18:27

搞lama吧,qwen貌似傻傻的。 我试了8B 70B还可以,32B qwen反而傻傻的。

medjail 发表于 2025-2-1 18:33

请教,本地配置有什么用处吗?

kkrace 发表于 2025-2-1 18:53

模型的大小基本上就是使用显存的大小,32b 也只是qwen2 的蒸馏,大约20G,4090能跑的极限, 纯CPU跑就看内存大小,速度看CPU核心数,家用机跑起来也就1~3个Tokens/s 基本不能忍。
不知道什么样的配置才能跑起原生R1 671b的模型。家有AMD Epyc, 1Tb 内存的大佬可以一试。

以上大小都是基于Q4_K_M 量化后的大小。

YsHaNg 发表于 2025-2-1 18:54

loughlion 发表于 2025-2-1 01:38
就ollama提供的32b版本

默认q4 modelcard上写着

YsHaNg 发表于 2025-2-1 19:00

loughlion 发表于 2025-2-1 05:09
我也用了图形界面,chatbox的,ollama+chatbox会不会比LM Studio资源占用多?要是换LM是不是要收费啊? ...

那你少了个ollama很强的前端 open webui是御用的 原名叫ollama webui 有前后端打包一键跑
docker run -d --gpus=all ghcr.io/open-webui/open-webui:ollama
https://github.com/open-webui/open-webui?tab=readme-ov-file#installing-open-webui-with-bundled-ollama-support

Illidan2004 发表于 2025-2-1 20:09

chip_discovery 发表于 2025-2-1 09:33
4090 24G 只能玩32B,70B需要43G显存

PS. 32B 要求显存20G,2080ti 22g 还挺快的

70b基于lamma的 32b基于qianwen的
70b不一定比32b优

Illidan2004 发表于 2025-2-1 20:11

jihuan 发表于 2025-2-1 12:42
这个都不是R1吧 都是千问 拿R1蒸馏的

对的 真正的DeepSeek V3需要700多G显存
R1都是蒸馏其他大模型

Netdancer 发表于 2025-2-1 20:25

kkrace 发表于 2025-2-1 18:53
模型的大小基本上就是使用显存的大小,32b 也只是qwen2 的蒸馏,大约20G,4090能跑的极限, 纯CPU跑就看内 ...

买这配置,还不如租台阿里云的服务器划算

sometime 发表于 2025-2-1 20:30

您好!当前的时间是 **2023年10月5日 9:26**。如果您需要其他帮助,请随时告诉我!

>>> 我现在时间是2025年2月1日
<think>
好,用户说“我现在时间是2025年2月1日”,这显然是一个未来的时间点。

首先,我需要理解用户的意图。他可能是在测试我的时间和数据更新能力,或者想了解在特定未来日期下我能提供哪些帮助。

接着,我会考虑如何回应。我要确认他提供的日期,并表达我对未来的展望,同时表明我会尽力根据现有知识提供相关信息。

然后,我会思考是否需要进一步询问用户的具体需求,以便更好地帮助他。比如,他可能是在规划未来的事情,或者想了解某个领域
的未来发展情况。

最后,我决定以友好和支持的态度回应,确认时间并表示愿意在2025年提供帮助,同时保持开放姿态接受更多问题。
</think>

您好!如果您现在的时间是 **2025年2月1日**,这意味着您可能处于未来或者是在某个特定的时区中。如果您有需要了解的信息或
问题,请随时告诉我,我会尽力根据我的知识和能力为您提供帮助!


为什么DEEPSEEK 告诉我时间是2023 年呢?

loughlion 发表于 2025-2-1 20:51

YsHaNg 发表于 2025-2-1 19:00
那你少了个ollama很强的前端 open webui是御用的 原名叫ollama webui 有前后端打包一键跑
docker run -d...

open webui昨天也尝试安装了,后来听说这个操作需要7*24小时运行,否则意义不大,我没什么外网访问家里主机的需求,就放弃了

loughlion 发表于 2025-2-1 21:02

syringalibra 发表于 2025-2-1 14:24
LM基础版是免费的,资源占用来说应该差不多吧,LM适合大模型尝鲜,即开即用 ...

下午试了LM,但是安装之后搜索deepseek,能搜到的最大就是8b,而且还找不到怎么安装model

YsHaNg 发表于 2025-2-1 22:03

sometime 发表于 2025-2-1 12:30
您好!当前的时间是 **2023年10月5日 9:26**。如果您需要其他帮助,请随时告诉我!

>>> 我现在时间是2025 ...

自己配置联网搜索pse duckduckgo是免费的人

Kevin_Yip 发表于 2025-2-1 22:09

loughlion 发表于 2025-2-1 21:02
下午试了LM,但是安装之后搜索deepseek,能搜到的最大就是8b,而且还找不到怎么安装model ...

用Ollama的性能釋放比LM Studio要好
另外Open WebUI你也可以用docker的形式部署在NAS或者路由器中
不過跑模型的機器是要長期開機了

nickyos 发表于 2025-2-1 22:10

试过32b,和网上完全体差距太大了,呆的一笔

nickyos 发表于 2025-2-1 22:10

AiReason 发表于 2025-2-1 10:41
我最想知道的是这几个蒸馏模型智力的区别有多大

和原版只能说不是一个东西

nickyos 发表于 2025-2-1 22:11

CptQ 发表于 2025-2-1 13:19
通用小模型本地部署也就图个乐,低于32B的都太蠢了,时效性也差,而且大厂的本地模型也会有审查机制。
本地 ...

32都挺呆的,只能拿来做点翻译这类简单工作

Kevin_Yip 发表于 2025-2-1 22:12

nickyos 发表于 2025-2-1 22:10
试过32b,和网上完全体差距太大了,呆的一笔

主要是看你怎麼使用。。。
而且本地版也沒那麼多內容限制

netlzh 发表于 2025-2-1 22:39

我的配置和你差不多,5900x, 128G 3600, 4700ti super,同时用m1 pro 32G 和 m4 pro 48G进行测试。全部都是跑的32b
首先说一下,ollama直接可以调用macos的GPU,所以速度都比PC默认的快。

pc一定要装cuda toolkit才能开启gpu加速,提升一点速度。最后效果是 m4 mac > PC > m1 mac。

PS:m1 pro频繁用了3年多了,昨天问他几个问题,估计风扇转的圈比前几年加起来的都多。[流汗]


Oxyer 发表于 2025-2-1 22:53

sometime 发表于 2025-2-1 20:30
您好!当前的时间是 **2023年10月5日 9:26**。如果您需要其他帮助,请随时告诉我!

>>> 我现在时间是2025 ...

因为没联网,LM的和chatbox的没法联网都这个样子。ollama+page assist打开联网就没问题。

chh-carter 发表于 2025-2-2 15:46

loughlion 发表于 2025-2-1 21:02
下午试了LM,但是安装之后搜索deepseek,能搜到的最大就是8b,而且还找不到怎么安装model ...

不会啊,我刚搜了,很多几百个gb的大模型啊

loughlion 发表于 2025-2-2 18:24

chh-carter 发表于 2025-2-2 15:46
不会啊,我刚搜了,很多几百个gb的大模型啊

peterhello 发表于 2025-2-2 22:30

loughlion 发表于 2025-2-2 18:24


模型搜索的是https://huggingface.co/,需要科学上网。或者改成镜像hf-mirror,网上搜一下有教程

dksir47 发表于 2025-2-3 01:00

https://www.youtube.com/watch?v=tc84i2MM1b4

gnhen5415 发表于 2025-2-3 13:09

Illidan2004 发表于 2025-2-1 20:11
对的 真正的DeepSeek V3需要700多G显存
R1都是蒸馏其他大模型

是1280g左右

qdzx123 发表于 2025-2-3 13:21

gnhen5415 发表于 2025-2-3 13:09
是1280g左右

据说不需要跑16bit 跑8bit就是完整版 训练的时候好像就是8bit
页: 1 [2] 3
查看完整版本: 昨天在本地部署了deepseek r1-8b\14b\32b