deepseek 70b大模型下载链接是什么?
https://www.deepseekr1.org/cn/download
为何打不开链接[生病]
无法访问此网站网址为 https://www.deepseekr1.org/cn/download 的网页可能暂时无法连接,或者它已永久性地移动到了新网址。
ERR_ADDRESS_INVALID 越狱版,https://ollama.com/huihui_ai/deepseek-r1-abliterated:70b
也就是可以玩nsfw 官方没有70b的,说的70b都是拿llama或者千问做基座模型蒸馏出来的,得去huggingface上面下,没科学就去镜像站hf-mirror弄 本帖最后由 a010301208 于 2025-2-11 12:15 编辑
wjm47196 发表于 2025-2-11 12:07
官方没有70b的,说的70b都是拿llama或者千问做基座模型蒸馏出来的,得去huggingface上面下,没科学就去镜像 ...
qwen效果更好,所以70b是垃圾,因为不是qwen
https://ollama.com/huihui_ai/deepseek-r1-abliterated:32b-qwen-distill-fp16
这个32b fp16的qwen蒸馏的越狱版就是现在除原版外最强的了
不需要科学上网,直接ollma加载就行[偷笑] a010301208 发表于 2025-2-11 12:13
qwen效果更好,所以70b是垃圾,因为不是qwen
https://ollama.com/huihui_ai/deepseek-r1-abliterated:32 ...
lm能加载ollama的模型么? 本帖最后由 我輩樹である 于 2025-2-11 12:46 编辑
这确定不是李鬼域名么?
没有所谓的70b模型,只有原始模型和各参数量(包括70b)的蒸馏版本。
这是官方地址(要**):
https://huggingface.co/deepseek-ai/DeepSeek-R1
这是镜像站:
https://modelscope.cn/models/deepseek-ai/DeepSeek-R1/summary
如果你使用ollama,这是ollama的官方介绍地址:
https://ollama.com/library/deepseek-r1:70b mark一下 mark一个。 本帖最后由 a010301208 于 2025-2-11 14:17 编辑
abbot 发表于 2025-2-11 12:27
lm能加载ollama的模型么?
ollama直接运行就行了,效率最高,UI界面的话chrome下载个Page Assist直接就能图形化调用了,还能联网
a010301208 发表于 2025-2-11 12:13
qwen效果更好,所以70b是垃圾,因为不是qwen
https://ollama.com/huihui_ai/deepseek-r1-abliterated:32 ...
[可爱]QWEN底模具体优势在哪?昨天看到群友说是LLAMA底模的版本体验最好 [流汗]ollama下载了两天始终失败,最后发现原因竟然是网卡问题[晕倒],换了块网卡一切OK xyk456as 发表于 2025-2-11 15:17
QWEN底模具体优势在哪?昨天看到群友说是LLAMA底模的版本体验最好
llama垃圾,不如qwen。非推理的模型,qwen好就好在中文支持好、同参数量下基本都比其他模型好。qwen32B比llama70B好是有道理的
火钳留名[偷笑] wjm47196 发表于 2025-2-11 12:07
官方没有70b的,说的70b都是拿llama或者千问做基座模型蒸馏出来的,得去huggingface上面下,没科学就去镜像 ...
ds官方最大的模型是多少参数?
671b么? uprit 发表于 2025-2-11 15:25
llama垃圾,不如qwen。非推理的模型,qwen好就好在中文支持好、同参数量下基本都比其他模型好。qwen32B比 ...
推理模型是不是更耗算力? abbot 发表于 2025-2-11 12:27
lm能加载ollama的模型么?
都是gguf的完全没问题 listree 发表于 2025-2-11 16:14
ds官方最大的模型是多少参数?
671b么?
原版就是671b,700多个g a010301208 发表于 2025-2-11 12:13
qwen效果更好,所以70b是垃圾,因为不是qwen
https://ollama.com/huihui_ai/deepseek-r1-abliterated:32 ...
这个32b模型高达60G,真的比70b还好么,不是说同等文件大小下,大参数低量化的模型优于小参数高量化的模型么。 一懒众衫小 发表于 2025-2-11 19:41
这个32b模型高达60G,真的比70b还好么,不是说同等文件大小下,大参数低量化的模型优于小参数高量化的模 ...
这个是FP16,精度越高越好,deepseek原版是1.3T,600多G那个是精度减半的
当然了你也可以下30G那个低精度的,20G显存就能跑了 a010301208 发表于 2025-2-11 19:55
这个是FP16,精度越高越好,deepseek原版是1.3T,600多G那个是精度减半的
当然了你也可以下30G那个低精 ...
abliterated版本也试过了,确实破限[狂笑],可惜目前没有671b的uncensored版本[困惑]
全跑在显存里的版本推理速度>25t/s
小部分溢出的,10-15t/s
大幅度溢出的(例如70b版本),2t/s
所以在本地128G内存下,70b和671b 1.58bit的推理速度几乎相同,干脆一步到位选择1.58bit版本了 xyk456as 发表于 2025-2-11 07:17
QWEN底模具体优势在哪?昨天看到群友说是LLAMA底模的版本体验最好
斯坦福李飞飞s1了解一下 llama是没有效果的
页:
[1]