deepseek 70b大模型下载链接是什么？

listree · 发表于 2025-2-11 12:03

无法访问此网站网址为 https://www.deepseekr1.org/cn/download 的网页可能暂时无法连接，或者它已永久性地移动到了新网址。
ERR_ADDRESS_INVALID

a010301208 · 发表于 2025-2-11 12:05

wjm47196 · 发表于 2025-2-11 12:07

官方没有70b的，说的70b都是拿llama或者千问做基座模型蒸馏出来的，得去huggingface上面下，没科学就去镜像站hf-mirror弄

a010301208 · 发表于 2025-2-11 12:13

本帖最后由 a010301208 于 2025-2-11 12:15 编辑

wjm47196 发表于 2025-2-11 12:07
官方没有70b的，说的70b都是拿llama或者千问做基座模型蒸馏出来的，得去huggingface上面下，没科学就去镜像 ...

qwen效果更好，所以70b是垃圾，因为不是qwen

https://ollama.com/huihui_ai/dee ... b-qwen-distill-fp16

这个32b fp16的qwen蒸馏的越狱版就是现在除原版外最强的了

不需要科学上网，直接ollma加载就行

abbot · 发表于 2025-2-11 12:27

a010301208 发表于 2025-2-11 12:13
qwen效果更好，所以70b是垃圾，因为不是qwen

https://ollama.com/huihui_ai/deepseek-r1-abliterated:32 ...

lm能加载ollama的模型么？

我輩樹である · 发表于 2025-2-11 12:39

本帖最后由我輩樹である于 2025-2-11 12:46 编辑

这确定不是李鬼域名么？

没有所谓的70b模型，只有原始模型和各参数量（包括70b）的蒸馏版本。

这是官方地址（要**）：
https://huggingface.co/deepseek-ai/DeepSeek-R1

这是镜像站：
https://modelscope.cn/models/deepseek-ai/DeepSeek-R1/summary

如果你使用ollama，这是ollama的官方介绍地址：
https://ollama.com/library/deepseek-r1:70b

winscale · 发表于 2025-2-11 13:03

mark一下

459633561 · 发表于 2025-2-11 13:50

mark一个。

a010301208 · 发表于 2025-2-11 14:16

本帖最后由 a010301208 于 2025-2-11 14:17 编辑

abbot 发表于 2025-2-11 12:27
lm能加载ollama的模型么？

ollama直接运行就行了，效率最高，UI界面的话chrome下载个Page Assist直接就能图形化调用了，还能联网

xyk456as · 发表于 2025-2-11 15:17

a010301208 发表于 2025-2-11 12:13
qwen效果更好，所以70b是垃圾，因为不是qwen

https://ollama.com/huihui_ai/deepseek-r1-abliterated:32 ...

QWEN底模具体优势在哪？昨天看到群友说是LLAMA底模的版本体验最好

喵喵猫 · 发表于 2025-2-11 15:21

ollama下载了两天始终失败，最后发现原因竟然是网卡问题

，换了块网卡一切OK

uprit · 发表于 2025-2-11 15:25

xyk456as 发表于 2025-2-11 15:17
QWEN底模具体优势在哪？昨天看到群友说是LLAMA底模的版本体验最好

llama垃圾，不如qwen。非推理的模型，qwen好就好在中文支持好、同参数量下基本都比其他模型好。qwen32B比llama70B好是有道理的

StevenG · 发表于 2025-2-11 16:05

火钳留名

listree · 发表于 2025-2-11 16:14

wjm47196 发表于 2025-2-11 12:07
官方没有70b的，说的70b都是拿llama或者千问做基座模型蒸馏出来的，得去huggingface上面下，没科学就去镜像 ...

ds官方最大的模型是多少参数？

671b么？

listree · 发表于 2025-2-11 16:15

uprit 发表于 2025-2-11 15:25
llama垃圾，不如qwen。非推理的模型，qwen好就好在中文支持好、同参数量下基本都比其他模型好。qwen32B比 ...

推理模型是不是更耗算力？

wjm47196 · 发表于 2025-2-11 19:31

abbot 发表于 2025-2-11 12:27
lm能加载ollama的模型么？

都是gguf的完全没问题

wjm47196 · 发表于 2025-2-11 19:32

listree 发表于 2025-2-11 16:14
ds官方最大的模型是多少参数？

671b么？

原版就是671b，700多个g

一懒众衫小 · 发表于 2025-2-11 19:41

a010301208 发表于 2025-2-11 12:13
qwen效果更好，所以70b是垃圾，因为不是qwen

https://ollama.com/huihui_ai/deepseek-r1-abliterated:32 ...

这个32b模型高达60G，真的比70b还好么，不是说同等文件大小下，大参数低量化的模型优于小参数高量化的模型么。

a010301208 · 发表于 2025-2-11 19:55

一懒众衫小发表于 2025-2-11 19:41
这个32b模型高达60G，真的比70b还好么，不是说同等文件大小下，大参数低量化的模型优于小参数高量化的模 ...

这个是FP16，精度越高越好，deepseek原版是1.3T，600多G那个是精度减半的

当然了你也可以下30G那个低精度的，20G显存就能跑了

一懒众衫小 · 发表于 2025-2-11 20:08

a010301208 发表于 2025-2-11 19:55
这个是FP16，精度越高越好，deepseek原版是1.3T，600多G那个是精度减半的

当然了你也可以下30G那个低精 ...

abliterated版本也试过了，确实破限

，可惜目前没有671b的uncensored版本

全跑在显存里的版本推理速度>25t/s
小部分溢出的，10-15t/s
大幅度溢出的（例如70b版本），2t/s

所以在本地128G内存下，70b和671b 1.58bit的推理速度几乎相同，干脆一步到位选择1.58bit版本了

YsHaNg · 发表于 2025-2-11 20:37

xyk456as 发表于 2025-2-11 07:17
QWEN底模具体优势在哪？昨天看到群友说是LLAMA底模的版本体验最好

斯坦福李飞飞s1了解一下 llama是没有效果的

账号		自动登录	找回密码
密码			加入我们

[软件] deepseek 70b大模型下载链接是什么？