自己部署deepseek-r1是选5000ada还是a6000好

kingofgu · 发表于 2025-1-21 23:13

一个32gb 一个48gb
我看了下都只能跑32b 区别是一个是全程q8量化一个是q6推理 q8输出
加钱6000ada单卡也跑不了完整模型

neavo · 发表于 2025-1-21 23:18

官方推荐 H100/H800*8，你真的要自己部署这个吗，自己部署的成本百分之百比官方API高，速度比官方API慢

kingofgu · 发表于 2025-1-21 23:21

neavo 发表于 2025-1-21 23:18
官方推荐 H100/H800*8，你真的要自己部署这个吗，自己部署的成本百分之百比官方API高，速度比官方API慢 ...

肯定是部署distilled的版本啊 32b的那个
我之前没研究过用api 都是直接开的**和claude，一个月加起来50刀往上还有用量限制用力半年多有的时候token还不够用，成本也不低了
如果用deepseek的api的话前端有推荐的吗

yangzi123aaa20 · 发表于 2025-1-21 23:21

neavo 发表于 2025-1-21 23:18
官方推荐 H100/H800*8，你真的要自己部署这个吗，自己部署的成本百分之百比官方API高，速度比官方API慢 ...

可能是要求保密吧

neavo · 发表于 2025-1-21 23:25

本帖最后由 neavo 于 2025-1-21 23:30 编辑

kingofgu 发表于 2025-1-21 23:21
肯定是部署distilled的版本啊 32b的那个
我之前没研究过用api 都是直接开的**和claude，一个月加起来50刀 ...

那 4090 就可以了。。。本质上就是 Qwen-2.5-32B，想快一点就多来两块4090

这几个蒸馏版我玩了一天了，确实在本地模型里面也是断崖式的强，但是跟在线模型还是有差距的

为了这个买卡不如直接买官方 API 用，DS 的 API 不限制并发数，快到飞起

kingofgu · 发表于 2025-1-21 23:38

neavo 发表于 2025-1-21 23:25
那 4090 就可以了。。。本质上就是 Qwen-2.5-32B，想快一点就多来两块4090

这几个蒸馏版我玩了一天了， ...

买api的话有推荐的前端吗

kingofgu · 发表于 2025-1-21 23:39

yangzi123aaa20 发表于 2025-1-21 23:21
可能是要求保密吧

确实也有很多单位有保密需要的但我只是个人用用

neavo · 发表于 2025-1-21 23:46

kingofgu 发表于 2025-1-21 23:38
买api的话有推荐的前端吗

只是聊聊天的话，我觉得用官网免费网页版就可以了，完全没有任何使用量的限制

需要API进行数据二次处理就看你自己的需求了，我都是写脚本直接处理数据的，没怎么用过聊天 UI

zxy2001 · 发表于 2025-1-22 00:01

LZ 真壕。。。自己玩，买5000Ada、A6000。。。可以上魔改的48G 4090

用户 · 发表于 2025-1-22 00:11

廉价版可以8480+1T+内存，不知道能到几token/s。

uprit · 发表于 2025-1-22 01:22

neavo 发表于 2025-1-21 23:25
那 4090 就可以了。。。本质上就是 Qwen-2.5-32B，想快一点就多来两块4090

这几个蒸馏版我玩了一天了， ...

和qwen2.5有啥区别？

kingofgu · 发表于 2025-1-22 01:30

uprit 发表于 2025-1-22 01:22
和qwen2.5有啥区别？

权重不一样

YsHaNg · 发表于 2025-1-22 03:11

uprit 发表于 2025-1-21 17:22
和qwen2.5有啥区别？

借用Nvidia一张图

ScjMitsui · 发表于 2025-1-22 04:07

前端用cherry studio

YsHaNg · 发表于 2025-1-22 04:26

neavo 发表于 2025-1-21 15:46
只是聊聊天的话，我觉得用官网免费网页版就可以了，完全没有任何使用量的限制

需要API进行数据二次处理 ...

网页版试用了一下一直拒绝访问网站哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全没问题

kingofgu · 发表于 2025-1-22 07:09

ScjMitsui 发表于 2025-1-22 04:07
前端用cherry studio

试了一下还可以搭配LM Studio一个本地一个在线基本零代码部署即开即用

kingofgu · 发表于 2025-1-22 07:10

YsHaNg 发表于 2025-1-22 04:26
网页版试用了一下一直拒绝访问网站哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全 ...

检查一下自己的网络出口是不是被黑名单了用手机开热点访问一下试试

我輩樹である · 发表于 2025-1-22 09:20

YsHaNg 发表于 2025-1-22 04:26
网页版试用了一下一直拒绝访问网站哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全 ...

你在海外么？

我輩樹である · 发表于 2025-1-22 09:21

最便宜的方案。

Miner · 发表于 2025-1-22 09:43

完全体的R1是660B啊，你说的是R1蒸馏出的小模型，那两张消费级旗舰卡就能跑了，还要看你上下文，RAG 大小

neavo · 发表于 2025-1-22 09:45

YsHaNg 发表于 2025-1-22 04:26
网页版试用了一下一直拒绝访问网站哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全 ...

所以前面说看个人需求，不过这几个蒸馏版拿来干活还是粗糙了点，而且本地跑就算是4090也挺慢的，能 API 还是尽量 API

kingofgu · 发表于 2025-1-22 10:29

我輩樹である发表于 2025-1-22 09:21
最便宜的方案。

用苹果硅跑是吗不是说prefill会瓶颈导致整体token编码速度上不来吗
你这么一说我感觉strix halo有搞头了

我輩樹である · 发表于 2025-1-22 10:32

本帖最后由我輩樹である于 2025-1-22 10:39 编辑

kingofgu 发表于 2025-1-22 10:29
用苹果硅跑是吗不是说prefill会瓶颈导致整体token编码速度上不来吗
你这么一说我感觉strix halo有搞头 ...

prefill的时间20-25秒。图里面有。
strix halo可能跟mac有一样的问题，GPU不够强。

neavo · 发表于 2025-1-22 10:39

本帖最后由 neavo 于 2025-1-22 10:40 编辑

kingofgu 发表于 2025-1-22 10:29
用苹果硅跑是吗不是说prefill会瓶颈导致整体token编码速度上不来吗
你这么一说我感觉strix halo有搞头 ...

推理很慢，已经有设备了将就用一下挺好的，专门为了推理买 Mac 设备就没什么性价比了

YsHaNg · 发表于 2025-1-22 19:34

我輩樹である发表于 2025-1-22 01:20
你在海外么？

对是境内网站需要censorship的缘故吗

我輩樹である · 发表于 2025-1-22 19:35

YsHaNg 发表于 2025-1-22 19:34
对是境内网站需要censorship的缘故吗

现在好像不想给境外提供服务。

YsHaNg · 发表于 2025-1-22 19:36

kingofgu 发表于 2025-1-21 23:10
检查一下自己的网络出口是不是被黑名单了用手机开热点访问一下试试

我是指让模型去访问站点

YsHaNg · 发表于 2025-1-22 19:38

我輩樹である发表于 2025-1-22 11:35
现在好像不想给境外提供服务。

那我挂**用吧

anishieh` · 发表于 2025-1-22 19:45

目前两张4090，可以vllm部署qwen 32b，但没法部署70b的。

用lmstudio 70b的模型能跑，但上下文很短。

目前我是小规模想省钱就本地vllm，不过多数还是直接api了。

YsHaNg · 发表于 2025-1-22 19:45

neavo 发表于 2025-1-22 01:45
所以前面说看个人需求，不过这几个蒸馏版拿来干活还是粗糙了点，而且本地跑就算是4090也挺慢的，能 API ...

你们能让网页r1访问站点吗我试了搜索可以但是扔一个网址给它就不行类似于rag 如果不能做api也没辙吧本地host用rag是独立的embedding model一点问题没有

账号		自动登录	找回密码
密码			加入我们

[显卡] 自己部署deepseek-r1是选5000ada还是a6000好

浏览过的版块