国内deepseek的api谁的最流畅

ssl0008 · 发表于 2025-2-6 17:47

m40 24g不行吗，我看m40居然涨价了

edgeskypay · 发表于 2025-2-6 17:51

本帖最后由 edgeskypay 于 2025-2-6 17:56 编辑

wosell 发表于 2025-2-6 17:43
跑推理模型双卡有用么？

单模型部署方案对比
| 指标 | 7B-全负载模式 | 13B-平衡模式 | 33B-极限模式 |
|---------------------|--------------------|--------------------|--------------------|
| 量化方案 | **Q 4-bit | AWQ 3-bit | ExLlamaV2 4-bit |
| 并行策略 | 张量并行4-way | 混合并行(2TP+2PP) | 混合并行(4TP) |
| GPU分配 | 4卡全占用 | 4卡全占用 | 4卡全占用 |
| 显存占用/卡 | 5.2GB | 12.8GB | 15.4GB |
| 内存占用 | 320GB | 448GB | 496GB |
| 吞吐量 | 480-520 tokens/s | 220-260 tokens/s | 65-80 tokens/s |
| 首Token延迟 | 25-40ms | 80-120ms | 400-600ms |
| 最大上下文 | 128k tokens | 64k tokens | 32k tokens |
| 批处理能力 | 256请求 | 128请求 | 32请求 |
| 推荐学习率 | 2e-5 | 1e-5 | 5e-6 |
| 微调适配器 | 可加载8个LoRA | 可加载4个LoRA | 仅支持1个LoRA |

硬件利用率对比
| 资源类型 | 7B模式利用率 | 13B模式利用率 | 33B模式利用率 |
|----------------|-------------|--------------|--------------|
| GPU计算单元 | 92-95% | 85-88% | 75-78% |
| 显存带宽 | 98% | 95% | 90% |
| 内存带宽 | 80% | 92% | 96% |
| PCIe 3.0 x16 | 70% | 85% | 90% |
---

推荐组合:
  1. 主服务: 4x7B实例 (负载均衡)
   - 总吞吐: 1,300-1,400 tokens/s
   - 适用: 客服系统、API接口

  2. 精准服务: 2x13B实例 (热备)
   - 总吞吐: 300-360 tokens/s
   - 适用: 法律咨询、医疗问答

  3. 研究后台: 1x33B实例
   - 总吞吐: 45-60 tokens/s
   - 适用: 论文润色、剧本创作

我机器是E5-2680V4,512G，P100-16G*4,让DS出了个算力预估。。。准备折腾下。

YsHaNg · 发表于 2025-2-6 18:44

bennq 发表于 2025-2-6 08:06
满血版 nvdia NIM速度最快,比官网快,蒸馏的智商太低就不用了

nv大善人 nim注册送1000tokens 速度很起飞很稳

chip_discovery · 发表于 2025-2-6 18:54

wosell 发表于 2025-2-6 17:43
跑推理模型双卡有用么？

只是共享显存，起码跑deepseek 是这样子的

gerbigo · 发表于 2025-2-6 19:26

现在ds的网络环境和流量，API节后应该会优化服务器和增加网络安全后开放吧

2ndWeapon · 发表于 2025-2-6 21:31

i6wz1l 发表于 2025-2-6 10:57
咸鱼看了一下要2w了

这么便宜？我一直以为要3w+，2w的话倒是可以考虑弄一张。

风采 · 发表于 2025-2-6 23:14

咸鱼125买了三千万的满血版本次数

erneenre · 发表于 2025-2-10 21:52

风采发表于 2025-2-6 23:14
咸鱼125买了三千万的满血版本次数

也想买，请问能稳定使用不

Vossk · 发表于 2025-2-10 21:55

试了一圈各家满血r1，目前阿里云的比较让人满意，没出现过不能服务的问题。但是有个问题阿里云的模型好像思考过程过于啰嗦，问个问题他能想5分钟，thinking部分输出上万字

风采 · 发表于 2025-2-10 22:04

erneenre 发表于 2025-2-10 21:52
也想买，请问能稳定使用不

很稳定啊，自己搭的服务器。用chatbox用的

enjoywoo · 发表于 2025-2-10 22:16

当然是用quora的

moonstruck · 发表于 2025-2-16 17:08

kaixin_chh 发表于 2025-2-6 17:28
我最近也看到别人也是这么操作。

ds是很吊，chatg p t也不差，但是稳定大于一切，所以就买200刀的pro了 ...

ds推理很不错。不管怎么说，技术突飞猛进，有一条鲶鱼总是好的。

MageHan · 发表于 2025-2-16 17:15

影驰无影rtx4060ti 16g单槽那个怎么样

zzyzzy0512 · 发表于 2025-2-16 20:01

chip_discovery 发表于 2025-2-6 18:54
只是共享显存，起码跑deepseek 是这样子的

推理多卡大部分模型都是只共享显存，算力不叠加，哪一层在哪张卡就使用这张卡的全部算力

zzyzzy0512 · 发表于 2025-2-16 20:04

MageHan 发表于 2025-2-16 17:15
影驰无影rtx4060ti 16g单槽那个怎么样

4060ti内存带宽不够大，而且p2p也被干掉了，单卡拿来玩玩还可以，多卡不太行

zzyzzy0512 · 发表于 2025-2-16 20:08

ssl0008 发表于 2025-2-6 17:47
m40 24g不行吗，我看m40居然涨价了

显存够用了，架构太老了，fp16效率差，int8不支持

ZEROAONE · 发表于 2025-2-16 22:25

目前应该是火山云提供的API是最稳定的

ZEROAONE · 发表于 2025-2-16 22:26

对了，那些说家用显卡能跑的，都不是真的R1或者V3，本质就是改良过增加了思维链的QWEN2.5和Llama，能力和真正的R1还是差了太多

galfood · 发表于 2025-2-16 22:28

目前用讯飞和腾讯的都不错

listree · 发表于 2025-4-10 20:43

你在本地电脑跑14b么？

listree · 发表于 2025-4-10 20:43

kaixin_chh 发表于 2025-2-6 17:28
我最近也看到别人也是这么操作。

ds是很吊，chatg p t也不差，但是稳定大于一切，所以就买200刀的pro了 ...

200刀怎么收费？按token么？

listree · 发表于 2025-4-10 20:43

szjzll 发表于 2025-2-6 16:11
5090D现在还没法本地部署吗

5090D可以运行满血版本么？

listree · 发表于 2025-4-10 20:44

lz2906190 发表于 2025-2-6 11:52
还是用gemini2.0，deepseek开源了gemini的效率也提了不少。

gemini2.0聊天链接是什么？

账号		自动登录	找回密码
密码			加入我们

[软件] 国内deepseek的api谁的最流畅

浏览过的版块