listree 发表于 2025-2-11 12:03

deepseek 70b大模型下载链接是什么?


https://www.deepseekr1.org/cn/download

为何打不开链接[生病]

无法访问此网站网址为 https://www.deepseekr1.org/cn/download 的网页可能暂时无法连接,或者它已永久性地移动到了新网址。
ERR_ADDRESS_INVALID

a010301208 发表于 2025-2-11 12:05

越狱版,https://ollama.com/huihui_ai/deepseek-r1-abliterated:70b

也就是可以玩nsfw

wjm47196 发表于 2025-2-11 12:07

官方没有70b的,说的70b都是拿llama或者千问做基座模型蒸馏出来的,得去huggingface上面下,没科学就去镜像站hf-mirror弄

a010301208 发表于 2025-2-11 12:13

本帖最后由 a010301208 于 2025-2-11 12:15 编辑

wjm47196 发表于 2025-2-11 12:07
官方没有70b的,说的70b都是拿llama或者千问做基座模型蒸馏出来的,得去huggingface上面下,没科学就去镜像 ...

qwen效果更好,所以70b是垃圾,因为不是qwen

https://ollama.com/huihui_ai/deepseek-r1-abliterated:32b-qwen-distill-fp16

这个32b fp16的qwen蒸馏的越狱版就是现在除原版外最强的了

不需要科学上网,直接ollma加载就行[偷笑]

abbot 发表于 2025-2-11 12:27

a010301208 发表于 2025-2-11 12:13
qwen效果更好,所以70b是垃圾,因为不是qwen

https://ollama.com/huihui_ai/deepseek-r1-abliterated:32 ...

lm能加载ollama的模型么?

我輩樹である 发表于 2025-2-11 12:39

本帖最后由 我輩樹である 于 2025-2-11 12:46 编辑

这确定不是李鬼域名么?

没有所谓的70b模型,只有原始模型和各参数量(包括70b)的蒸馏版本。

这是官方地址(要**):
https://huggingface.co/deepseek-ai/DeepSeek-R1

这是镜像站:
https://modelscope.cn/models/deepseek-ai/DeepSeek-R1/summary

如果你使用ollama,这是ollama的官方介绍地址:
https://ollama.com/library/deepseek-r1:70b

winscale 发表于 2025-2-11 13:03

mark一下

459633561 发表于 2025-2-11 13:50

mark一个。

a010301208 发表于 2025-2-11 14:16

本帖最后由 a010301208 于 2025-2-11 14:17 编辑

abbot 发表于 2025-2-11 12:27
lm能加载ollama的模型么?

ollama直接运行就行了,效率最高,UI界面的话chrome下载个Page Assist直接就能图形化调用了,还能联网

xyk456as 发表于 2025-2-11 15:17

a010301208 发表于 2025-2-11 12:13
qwen效果更好,所以70b是垃圾,因为不是qwen

https://ollama.com/huihui_ai/deepseek-r1-abliterated:32 ...

[可爱]QWEN底模具体优势在哪?昨天看到群友说是LLAMA底模的版本体验最好

喵喵猫 发表于 2025-2-11 15:21

[流汗]ollama下载了两天始终失败,最后发现原因竟然是网卡问题[晕倒],换了块网卡一切OK

uprit 发表于 2025-2-11 15:25

xyk456as 发表于 2025-2-11 15:17
QWEN底模具体优势在哪?昨天看到群友说是LLAMA底模的版本体验最好

llama垃圾,不如qwen。非推理的模型,qwen好就好在中文支持好、同参数量下基本都比其他模型好。qwen32B比llama70B好是有道理的

StevenG 发表于 2025-2-11 16:05

火钳留名[偷笑]

listree 发表于 2025-2-11 16:14

wjm47196 发表于 2025-2-11 12:07
官方没有70b的,说的70b都是拿llama或者千问做基座模型蒸馏出来的,得去huggingface上面下,没科学就去镜像 ...

ds官方最大的模型是多少参数?

671b么?

listree 发表于 2025-2-11 16:15

uprit 发表于 2025-2-11 15:25
llama垃圾,不如qwen。非推理的模型,qwen好就好在中文支持好、同参数量下基本都比其他模型好。qwen32B比 ...

推理模型是不是更耗算力?

wjm47196 发表于 2025-2-11 19:31

abbot 发表于 2025-2-11 12:27
lm能加载ollama的模型么?

都是gguf的完全没问题

wjm47196 发表于 2025-2-11 19:32

listree 发表于 2025-2-11 16:14
ds官方最大的模型是多少参数?

671b么?

原版就是671b,700多个g

一懒众衫小 发表于 2025-2-11 19:41

a010301208 发表于 2025-2-11 12:13
qwen效果更好,所以70b是垃圾,因为不是qwen

https://ollama.com/huihui_ai/deepseek-r1-abliterated:32 ...

这个32b模型高达60G,真的比70b还好么,不是说同等文件大小下,大参数低量化的模型优于小参数高量化的模型么。

a010301208 发表于 2025-2-11 19:55

一懒众衫小 发表于 2025-2-11 19:41
这个32b模型高达60G,真的比70b还好么,不是说同等文件大小下,大参数低量化的模型优于小参数高量化的模 ...

这个是FP16,精度越高越好,deepseek原版是1.3T,600多G那个是精度减半的

当然了你也可以下30G那个低精度的,20G显存就能跑了

一懒众衫小 发表于 2025-2-11 20:08

a010301208 发表于 2025-2-11 19:55
这个是FP16,精度越高越好,deepseek原版是1.3T,600多G那个是精度减半的

当然了你也可以下30G那个低精 ...

abliterated版本也试过了,确实破限[狂笑],可惜目前没有671b的uncensored版本[困惑]

全跑在显存里的版本推理速度>25t/s
小部分溢出的,10-15t/s
大幅度溢出的(例如70b版本),2t/s

所以在本地128G内存下,70b和671b 1.58bit的推理速度几乎相同,干脆一步到位选择1.58bit版本了

YsHaNg 发表于 2025-2-11 20:37

xyk456as 发表于 2025-2-11 07:17
QWEN底模具体优势在哪?昨天看到群友说是LLAMA底模的版本体验最好

斯坦福李飞飞s1了解一下 llama是没有效果的
页: [1]
查看完整版本: deepseek 70b大模型下载链接是什么?