找回密码
 加入我们
搜索
      
查看: 1792|回复: 20

[软件] deepseek 70b大模型下载链接是什么?

[复制链接]
发表于 2025-2-11 12:03 | 显示全部楼层 |阅读模式

https://www.deepseekr1.org/cn/download

为何打不开链接

无法访问此网站网址为 https://www.deepseekr1.org/cn/download 的网页可能暂时无法连接,或者它已永久性地移动到了新网址。
ERR_ADDRESS_INVALID
发表于 2025-2-11 12:05 | 显示全部楼层
发表于 2025-2-11 12:07 | 显示全部楼层
官方没有70b的,说的70b都是拿llama或者千问做基座模型蒸馏出来的,得去huggingface上面下,没科学就去镜像站hf-mirror弄
发表于 2025-2-11 12:13 | 显示全部楼层
本帖最后由 a010301208 于 2025-2-11 12:15 编辑
wjm47196 发表于 2025-2-11 12:07
官方没有70b的,说的70b都是拿llama或者千问做基座模型蒸馏出来的,得去huggingface上面下,没科学就去镜像 ...


qwen效果更好,所以70b是垃圾,因为不是qwen

https://ollama.com/huihui_ai/dee ... b-qwen-distill-fp16

这个32b fp16的qwen蒸馏的越狱版就是现在除原版外最强的了

不需要科学上网,直接ollma加载就行
发表于 2025-2-11 12:27 | 显示全部楼层
a010301208 发表于 2025-2-11 12:13
qwen效果更好,所以70b是垃圾,因为不是qwen

https://ollama.com/huihui_ai/deepseek-r1-abliterated:32 ...

lm能加载ollama的模型么?
发表于 2025-2-11 12:39 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-2-11 12:46 编辑

这确定不是李鬼域名么?

没有所谓的70b模型,只有原始模型和各参数量(包括70b)的蒸馏版本。

这是官方地址(要**):
https://huggingface.co/deepseek-ai/DeepSeek-R1

这是镜像站:
https://modelscope.cn/models/deepseek-ai/DeepSeek-R1/summary

如果你使用ollama,这是ollama的官方介绍地址:
https://ollama.com/library/deepseek-r1:70b
发表于 2025-2-11 13:03 | 显示全部楼层
mark一下
发表于 2025-2-11 13:50 | 显示全部楼层
mark一个。
发表于 2025-2-11 14:16 | 显示全部楼层
本帖最后由 a010301208 于 2025-2-11 14:17 编辑
abbot 发表于 2025-2-11 12:27
lm能加载ollama的模型么?


ollama直接运行就行了,效率最高,UI界面的话chrome下载个Page Assist直接就能图形化调用了,还能联网
发表于 2025-2-11 15:17 | 显示全部楼层
a010301208 发表于 2025-2-11 12:13
qwen效果更好,所以70b是垃圾,因为不是qwen

https://ollama.com/huihui_ai/deepseek-r1-abliterated:32 ...

QWEN底模具体优势在哪?昨天看到群友说是LLAMA底模的版本体验最好
发表于 2025-2-11 15:21 | 显示全部楼层
ollama下载了两天始终失败,最后发现原因竟然是网卡问题,换了块网卡一切OK
发表于 2025-2-11 15:25 | 显示全部楼层
xyk456as 发表于 2025-2-11 15:17
QWEN底模具体优势在哪?昨天看到群友说是LLAMA底模的版本体验最好

llama垃圾,不如qwen。非推理的模型,qwen好就好在中文支持好、同参数量下基本都比其他模型好。qwen32B比llama70B好是有道理的

发表于 2025-2-11 16:05 来自手机 | 显示全部楼层
火钳留名
 楼主| 发表于 2025-2-11 16:14 | 显示全部楼层
wjm47196 发表于 2025-2-11 12:07
官方没有70b的,说的70b都是拿llama或者千问做基座模型蒸馏出来的,得去huggingface上面下,没科学就去镜像 ...

ds官方最大的模型是多少参数?

671b么?
 楼主| 发表于 2025-2-11 16:15 | 显示全部楼层
uprit 发表于 2025-2-11 15:25
llama垃圾,不如qwen。非推理的模型,qwen好就好在中文支持好、同参数量下基本都比其他模型好。qwen32B比 ...

推理模型是不是更耗算力?
发表于 2025-2-11 19:31 来自手机 | 显示全部楼层
abbot 发表于 2025-2-11 12:27
lm能加载ollama的模型么?

都是gguf的完全没问题
发表于 2025-2-11 19:32 来自手机 | 显示全部楼层
listree 发表于 2025-2-11 16:14
ds官方最大的模型是多少参数?

671b么?

原版就是671b,700多个g
发表于 2025-2-11 19:41 | 显示全部楼层
a010301208 发表于 2025-2-11 12:13
qwen效果更好,所以70b是垃圾,因为不是qwen

https://ollama.com/huihui_ai/deepseek-r1-abliterated:32 ...

这个32b模型高达60G,真的比70b还好么,不是说同等文件大小下,大参数低量化的模型优于小参数高量化的模型么。
发表于 2025-2-11 19:55 | 显示全部楼层
一懒众衫小 发表于 2025-2-11 19:41
这个32b模型高达60G,真的比70b还好么,不是说同等文件大小下,大参数低量化的模型优于小参数高量化的模 ...

这个是FP16,精度越高越好,deepseek原版是1.3T,600多G那个是精度减半的

当然了你也可以下30G那个低精度的,20G显存就能跑了
发表于 2025-2-11 20:08 | 显示全部楼层
a010301208 发表于 2025-2-11 19:55
这个是FP16,精度越高越好,deepseek原版是1.3T,600多G那个是精度减半的

当然了你也可以下30G那个低精 ...

abliterated版本也试过了,确实破限,可惜目前没有671b的uncensored版本

全跑在显存里的版本推理速度>25t/s
小部分溢出的,10-15t/s
大幅度溢出的(例如70b版本),2t/s

所以在本地128G内存下,70b和671b 1.58bit的推理速度几乎相同,干脆一步到位选择1.58bit版本了
发表于 2025-2-11 20:37 来自手机 | 显示全部楼层
xyk456as 发表于 2025-2-11 07:17
QWEN底模具体优势在哪?昨天看到群友说是LLAMA底模的版本体验最好

斯坦福李飞飞s1了解一下 llama是没有效果的
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-21 18:36 , Processed in 0.011716 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表