ssl0008 发表于 2025-2-6 17:47

m40 24g不行吗,我看m40居然涨价了

edgeskypay 发表于 2025-2-6 17:51

本帖最后由 edgeskypay 于 2025-2-6 17:56 编辑

wosell 发表于 2025-2-6 17:43
跑推理模型双卡有用么?

单模型部署方案对比
| 指标 | 7B-全负载模式 | 13B-平衡模式 | 33B-极限模式 |
|---------------------|--------------------|--------------------|--------------------|
| 量化方案 | **Q 4-bit | AWQ 3-bit | ExLlamaV2 4-bit |
| 并行策略 | 张量并行4-way | 混合并行(2TP+2PP) | 混合并行(4TP) |
| GPU分配 | 4卡全占用 | 4卡全占用 | 4卡全占用 |
| 显存占用/卡 | 5.2GB | 12.8GB | 15.4GB |
| 内存占用 | 320GB | 448GB | 496GB |
| 吞吐量 | 480-520 tokens/s | 220-260 tokens/s | 65-80 tokens/s |
| 首Token延迟 | 25-40ms | 80-120ms | 400-600ms |
| 最大上下文 | 128k tokens | 64k tokens | 32k tokens |
| 批处理能力 | 256请求 | 128请求 | 32请求 |
| 推荐学习率 | 2e-5 | 1e-5 | 5e-6 |
| 微调适配器 | 可加载8个LoRA | 可加载4个LoRA | 仅支持1个LoRA |

硬件利用率对比
| 资源类型 | 7B模式利用率 | 13B模式利用率 | 33B模式利用率 |
|----------------|-------------|--------------|--------------|
| GPU计算单元 | 92-95% | 85-88% | 75-78% |
| 显存带宽 | 98% | 95% | 90% |
| 内存带宽 | 80% | 92% | 96% |
| PCIe 3.0 x16 | 70% | 85% | 90% |
---

推荐组合:
1. 主服务: 4x7B实例 (负载均衡)
   - 总吞吐: 1,300-1,400 tokens/s
   - 适用: 客服系统、API接口

2. 精准服务: 2x13B实例 (热备)
   - 总吞吐: 300-360 tokens/s
   - 适用: 法律咨询、医疗问答

3. 研究后台: 1x33B实例
   - 总吞吐: 45-60 tokens/s
   - 适用: 论文润色、剧本创作


我机器是E5-2680V4,512G,P100-16G*4,让DS出了个算力预估。。。准备折腾下。

YsHaNg 发表于 2025-2-6 18:44

bennq 发表于 2025-2-6 08:06
满血版nvdia NIM速度最快,比官网快,蒸馏的智商太低就不用了

nv大善人 nim注册送1000tokens 速度很起飞很稳

chip_discovery 发表于 2025-2-6 18:54

wosell 发表于 2025-2-6 17:43
跑推理模型双卡有用么?

只是共享显存,起码跑deepseek 是这样子的

gerbigo 发表于 2025-2-6 19:26

现在ds的网络环境和流量,API节后应该会优化服务器和增加网络安全后开放吧

2ndWeapon 发表于 2025-2-6 21:31

i6wz1l 发表于 2025-2-6 10:57
咸鱼看了一下 要2w了

这么便宜?我一直以为要3w+,2w的话倒是可以考虑弄一张。

风采 发表于 2025-2-6 23:14

[无奈]咸鱼125买了三千万的满血版本次数

erneenre 发表于 2025-2-10 21:52

风采 发表于 2025-2-6 23:14
咸鱼125买了三千万的满血版本次数

也想买,请问能稳定使用不[可爱]

Vossk 发表于 2025-2-10 21:55

试了一圈各家满血r1,目前阿里云的比较让人满意,没出现过不能服务的问题。但是有个问题阿里云的模型好像思考过程过于啰嗦,问个问题他能想5分钟,thinking部分输出上万字[睡觉]

风采 发表于 2025-2-10 22:04

erneenre 发表于 2025-2-10 21:52
也想买,请问能稳定使用不

[偷笑]很稳定啊,自己搭的服务器。用chatbox用的

enjoywoo 发表于 2025-2-10 22:16

当然是用quora的

moonstruck 发表于 2025-2-16 17:08

kaixin_chh 发表于 2025-2-6 17:28
我最近也看到别人也是这么操作。

ds是很吊,chatg p t也不差,但是稳定大于一切,所以就买200刀的pro了 ...

ds推理很不错。不管怎么说,技术突飞猛进,有一条鲶鱼总是好的。

MageHan 发表于 2025-2-16 17:15

影驰无影rtx4060ti 16g单槽那个怎么样

zzyzzy0512 发表于 2025-2-16 20:01

chip_discovery 发表于 2025-2-6 18:54
只是共享显存,起码跑deepseek 是这样子的

推理多卡大部分模型都是只共享显存,算力不叠加,哪一层在哪张卡就使用这张卡的全部算力

zzyzzy0512 发表于 2025-2-16 20:04

MageHan 发表于 2025-2-16 17:15
影驰无影rtx4060ti 16g单槽那个怎么样

4060ti内存带宽不够大,而且p2p也被干掉了,单卡拿来玩玩还可以,多卡不太行

zzyzzy0512 发表于 2025-2-16 20:08

ssl0008 发表于 2025-2-6 17:47
m40 24g不行吗,我看m40居然涨价了

显存够用了,架构太老了,fp16效率差,int8不支持

ZEROAONE 发表于 2025-2-16 22:25

目前应该是火山云提供的API是最稳定的

ZEROAONE 发表于 2025-2-16 22:26

对了,那些说家用显卡能跑的,都不是真的R1或者V3,本质就是改良过增加了思维链的QWEN2.5和Llama,能力和真正的R1还是差了太多

galfood 发表于 2025-2-16 22:28

目前用讯飞和腾讯的都不错

listree 发表于 2025-4-10 20:43

你在本地电脑跑14b么?

listree 发表于 2025-4-10 20:43

kaixin_chh 发表于 2025-2-6 17:28
我最近也看到别人也是这么操作。

ds是很吊,chatg p t也不差,但是稳定大于一切,所以就买200刀的pro了 ...

200刀怎么收费?按token么?

listree 发表于 2025-4-10 20:43

szjzll 发表于 2025-2-6 16:11
5090D现在还没法本地部署吗

5090D可以运行满血版本么?

listree 发表于 2025-4-10 20:44

lz2906190 发表于 2025-2-6 11:52
还是用gemini2.0,deepseek开源了gemini的效率也提了不少。

gemini2.0聊天链接是什么?
页: 1 [2]
查看完整版本: 国内deepseek的api谁的最流畅