找回密码
 加入我们
搜索
      
楼主: kingofgu

[显卡] 自己部署deepseek-r1是选5000ada还是a6000好

[复制链接]
 楼主| 发表于 2025-1-22 19:47 | 显示全部楼层
我輩樹である 发表于 2025-1-22 19:35
现在好像不想给境外提供服务。

我刚刚试了 欧洲这边用deepseek的api没问题
发表于 2025-1-22 19:47 来自手机 | 显示全部楼层
anishieh` 发表于 2025-1-22 11:45
目前两张4090,可以vllm部署qwen 32b,但没法部署70b的。

用lmstudio 70b的模型能跑,但上下文很短。

你是哪个模型 我用ollama加载Nvidia的nemo context length可以1024k
发表于 2025-1-22 19:54 来自手机 | 显示全部楼层
kingofgu 发表于 2025-1-22 11:47
我刚刚试了 欧洲这边用deepseek的api没问题

扔一个url进去呢?思考部分有没有说Hmm, I can't actually browse the internet.
我看网页版大概是不能rag的原因
发表于 2025-1-22 20:03 | 显示全部楼层
YsHaNg 发表于 2025-1-22 19:47
你是哪个模型 我用ollama加载Nvidia的nemo context length可以1024k

llama 3.3 70b 和r1的蒸馏版本,qwen 2.5 72b

8k上下文已经爆显存很难用了,我下次也试试ollama
发表于 2025-1-22 20:08 | 显示全部楼层
kingofgu 发表于 2025-1-22 19:47
我刚刚试了 欧洲这边用deepseek的api没问题

你试试让它读个网页总结一下,是不是rag功能封了。
发表于 2025-1-22 21:16 | 显示全部楼层
在amd 7900xtx部署了32gb。速度还行。想30到60秒,出结果很快。

问了几个特别尖锐的问题。只能说,这个模型非常的反动。迟早要被清算。简单的几个诱导就会让ai走上不归路。
 楼主| 发表于 2025-1-22 21:32 | 显示全部楼层
我輩樹である 发表于 2025-1-22 20:08
你试试让它读个网页总结一下,是不是rag功能封了。

是的 没有网络访问权限
 楼主| 发表于 2025-1-22 21:33 | 显示全部楼层
Leciel 发表于 2025-1-22 21:16
在amd 7900xtx部署了32gb。速度还行。想30到60秒,出结果很快。

问了几个特别尖锐的问题。只能说,这个模 ...

使用工具的是人
发表于 2025-1-22 22:11 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-1-22 12:08
你试试让它读个网页总结一下,是不是rag功能封了。

国内使用网页版有rag能力吗
发表于 2025-1-22 22:13 来自手机 | 显示全部楼层
Leciel 发表于 2025-1-22 13:16
在amd 7900xtx部署了32gb。速度还行。想30到60秒,出结果很快。

问了几个特别尖锐的问题。只能说,这个模 ...

你试试同样问题给网页版 那个有做alignment 不然不可能上浙备案号
发表于 2025-1-22 23:01 | 显示全部楼层
YsHaNg 发表于 2025-1-22 22:11
国内使用网页版有rag能力吗

有。网页或上传文件都可以。
发表于 2025-1-31 15:15 | 显示全部楼层
Leciel 发表于 2025-1-22 21:16
在amd 7900xtx部署了32gb。速度还行。想30到60秒,出结果很快。

问了几个特别尖锐的问题。只能说,这个模 ...

最近想买一套设备上这个模型  一直在纠结 上7900xtx还是5080,我搜索了很多资料室 amd的 最新驱动  对于这个模型使用舒适度还是很可可以的?能做到每秒多少token
发表于 2025-1-31 15:25 | 显示全部楼层
kingofgu 发表于 2025-1-22 07:09
试了一下 还可以 搭配LM Studio一个本地一个在线基本零代码部署即开即用

那你不如买7900xtx,32b能跑30多tokens每秒
发表于 2025-1-31 15:52 | 显示全部楼层
如果只是跑大模型毫无疑问显存更大的那个
发表于 2025-2-1 00:32 | 显示全部楼层
看到有用六七台m4 mac mini集群跑完整版的671B
发表于 2025-2-1 00:47 | 显示全部楼层
自己玩当是魔改48G显存的4090最好。ampere架构已经过时了,除非是80G的A100,否则别再买了。
发表于 2025-2-1 01:21 来自手机 | 显示全部楼层
i6wz1l 发表于 2025-1-31 07:15
最近想买一套设备上这个模型  一直在纠结 上7900xtx还是5080,我搜索了很多资料室 amd的 最新驱动  对于 ...

7900xtx 小模型还是参数量为王
发表于 2025-2-1 01:31 | 显示全部楼层
neavo 发表于 2025-1-22 09:45
所以前面说看个人需求,不过这几个蒸馏版拿来干活还是粗糙了点,而且本地跑就算是4090也挺慢的,能 API  ...

你用32b 4Q 5Q model還是很快的
36token/s自己用的話,你估計看不過來
发表于 2025-2-1 01:32 | 显示全部楼层
YsHaNg 发表于 2025-1-22 19:45
你们能让网页r1访问站点吗 我试了搜索可以 但是扔一个网址给它就不行 类似于rag 如果不能做api也没辙吧  ...

可以。。。配上google的API能搜索內容
但是檢索到的網頁比較傻,網頁真偽也不太會判斷
发表于 2025-2-1 01:36 | 显示全部楼层
i6wz1l 发表于 2025-1-31 15:15
最近想买一套设备上这个模型  一直在纠结 上7900xtx还是5080,我搜索了很多资料室 amd的 最新驱动  对于 ...

4090 48G是最佳選擇
其次就是3090和3090Ti
4090單卡的話可以做到36token/s左右,48G剛好能吃下一個70b的模型
发表于 2025-2-1 02:15 | 显示全部楼层
看看你哪里能不能买到二手的A100 80G
发表于 2025-2-1 02:41 | 显示全部楼层
BFG9K 发表于 2025-2-1 02:15
看看你哪里能不能买到二手的A100 80G

这玩意现在多少钱?美国好像$8000的都不多,要$14000
发表于 2025-2-1 02:57 来自手机 | 显示全部楼层
Kevin_Yip 发表于 2025-1-31 17:32
可以。。。配上google的API能搜索內容
但是檢索到的網頁比較傻,網頁真偽也不太會判斷 ...

这个我也做了Google pse 搜索是没问题 rag parse html有问题 只能pdf
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-23 01:16 , Processed in 0.011358 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表