自己部署deepseek-r1是选5000ada还是a6000好

kingofgu · 发表于 2025-1-22 19:47

我輩樹である发表于 2025-1-22 19:35
现在好像不想给境外提供服务。

我刚刚试了欧洲这边用deepseek的api没问题

YsHaNg · 发表于 2025-1-22 19:47

anishieh` 发表于 2025-1-22 11:45
目前两张4090，可以vllm部署qwen 32b，但没法部署70b的。

用lmstudio 70b的模型能跑，但上下文很短。

你是哪个模型我用ollama加载Nvidia的nemo context length可以1024k

YsHaNg · 发表于 2025-1-22 19:54

kingofgu 发表于 2025-1-22 11:47
我刚刚试了欧洲这边用deepseek的api没问题

扔一个url进去呢？思考部分有没有说Hmm, I can't actually browse the internet.
我看网页版大概是不能rag的原因

anishieh` · 发表于 2025-1-22 20:03

YsHaNg 发表于 2025-1-22 19:47
你是哪个模型我用ollama加载Nvidia的nemo context length可以1024k

llama 3.3 70b 和r1的蒸馏版本，qwen 2.5 72b

8k上下文已经爆显存很难用了，我下次也试试ollama

我輩樹である · 发表于 2025-1-22 20:08

kingofgu 发表于 2025-1-22 19:47
我刚刚试了欧洲这边用deepseek的api没问题

你试试让它读个网页总结一下，是不是rag功能封了。

Leciel · 发表于 2025-1-22 21:16

在amd 7900xtx部署了32gb。速度还行。想30到60秒，出结果很快。

问了几个特别尖锐的问题。只能说，这个模型非常的反动。迟早要被清算。简单的几个诱导就会让ai走上不归路。

kingofgu · 发表于 2025-1-22 21:32

我輩樹である发表于 2025-1-22 20:08
你试试让它读个网页总结一下，是不是rag功能封了。

是的没有网络访问权限

kingofgu · 发表于 2025-1-22 21:33

Leciel 发表于 2025-1-22 21:16
在amd 7900xtx部署了32gb。速度还行。想30到60秒，出结果很快。

问了几个特别尖锐的问题。只能说，这个模 ...

使用工具的是人

YsHaNg · 发表于 2025-1-22 22:11

我輩樹である发表于 2025-1-22 12:08
你试试让它读个网页总结一下，是不是rag功能封了。

国内使用网页版有rag能力吗

YsHaNg · 发表于 2025-1-22 22:13

Leciel 发表于 2025-1-22 13:16
在amd 7900xtx部署了32gb。速度还行。想30到60秒，出结果很快。

问了几个特别尖锐的问题。只能说，这个模 ...

你试试同样问题给网页版那个有做alignment 不然不可能上浙备案号

我輩樹である · 发表于 2025-1-22 23:01

YsHaNg 发表于 2025-1-22 22:11
国内使用网页版有rag能力吗

有。网页或上传文件都可以。

i6wz1l · 发表于 2025-1-31 15:15

Leciel 发表于 2025-1-22 21:16
在amd 7900xtx部署了32gb。速度还行。想30到60秒，出结果很快。

问了几个特别尖锐的问题。只能说，这个模 ...

最近想买一套设备上这个模型一直在纠结上7900xtx还是5080，我搜索了很多资料室 amd的最新驱动对于这个模型使用舒适度还是很可可以的？能做到每秒多少token

wjm47196 · 发表于 2025-1-31 15:25

kingofgu 发表于 2025-1-22 07:09
试了一下还可以搭配LM Studio一个本地一个在线基本零代码部署即开即用

那你不如买7900xtx，32b能跑30多tokens每秒

装陈醋的酱油瓶 · 发表于 2025-1-31 15:52

如果只是跑大模型毫无疑问显存更大的那个

su2353 · 发表于 2025-2-1 00:32

看到有用六七台m4 mac mini集群跑完整版的671B

mythgo · 发表于 2025-2-1 00:47

自己玩当是魔改48G显存的4090最好。ampere架构已经过时了，除非是80G的A100，否则别再买了。

YsHaNg · 发表于 2025-2-1 01:21

i6wz1l 发表于 2025-1-31 07:15
最近想买一套设备上这个模型一直在纠结上7900xtx还是5080，我搜索了很多资料室 amd的最新驱动对于 ...

7900xtx 小模型还是参数量为王

Kevin_Yip · 发表于 2025-2-1 01:31

neavo 发表于 2025-1-22 09:45
所以前面说看个人需求，不过这几个蒸馏版拿来干活还是粗糙了点，而且本地跑就算是4090也挺慢的，能 API ...

你用32b 4Q 5Q model還是很快的
36token/s自己用的話，你估計看不過來

Kevin_Yip · 发表于 2025-2-1 01:32

YsHaNg 发表于 2025-1-22 19:45
你们能让网页r1访问站点吗我试了搜索可以但是扔一个网址给它就不行类似于rag 如果不能做api也没辙吧 ...

可以。。。配上google的API能搜索內容
但是檢索到的網頁比較傻，網頁真偽也不太會判斷

Kevin_Yip · 发表于 2025-2-1 01:36

i6wz1l 发表于 2025-1-31 15:15
最近想买一套设备上这个模型一直在纠结上7900xtx还是5080，我搜索了很多资料室 amd的最新驱动对于 ...

4090 48G是最佳選擇
其次就是3090和3090Ti
4090單卡的話可以做到36token/s左右，48G剛好能吃下一個70b的模型

BFG9K · 发表于 2025-2-1 02:15

看看你哪里能不能买到二手的A100 80G

用户 · 发表于 2025-2-1 02:41

BFG9K 发表于 2025-2-1 02:15
看看你哪里能不能买到二手的A100 80G

这玩意现在多少钱？美国好像$8000的都不多，要$14000

YsHaNg · 发表于 2025-2-1 02:57

Kevin_Yip 发表于 2025-1-31 17:32
可以。。。配上google的API能搜索內容
但是檢索到的網頁比較傻，網頁真偽也不太會判斷 ...

这个我也做了Google pse 搜索是没问题 rag parse html有问题只能pdf

账号		自动登录	找回密码
密码			加入我们

[显卡] 自己部署deepseek-r1是选5000ada还是a6000好