wosell 发表于 2025-2-6 17:43
跑推理模型双卡有用么?
单模型部署方案对比
| 指标 | 7B-全负载模式 | 13B-平衡模式 | 33B-极限模式 |
|---------------------|--------------------|--------------------|--------------------|
| 量化方案 | **Q 4-bit | AWQ 3-bit | ExLlamaV2 4-bit |
| 并行策略 | 张量并行4-way | 混合并行(2TP+2PP) | 混合并行(4TP) |
| GPU分配 | 4卡全占用 | 4卡全占用 | 4卡全占用 |
| 显存占用/卡 | 5.2GB | 12.8GB | 15.4GB |
| 内存占用 | 320GB | 448GB | 496GB |
| 吞吐量 | 480-520 tokens/s | 220-260 tokens/s | 65-80 tokens/s |
| 首Token延迟 | 25-40ms | 80-120ms | 400-600ms |
| 最大上下文 | 128k tokens | 64k tokens | 32k tokens |
| 批处理能力 | 256请求 | 128请求 | 32请求 |
| 推荐学习率 | 2e-5 | 1e-5 | 5e-6 |
| 微调适配器 | 可加载8个LoRA | 可加载4个LoRA | 仅支持1个LoRA |
硬件利用率对比
| 资源类型 | 7B模式利用率 | 13B模式利用率 | 33B模式利用率 |
|----------------|-------------|--------------|--------------|
| GPU计算单元 | 92-95% | 85-88% | 75-78% |
| 显存带宽 | 98% | 95% | 90% |
| 内存带宽 | 80% | 92% | 96% |
| PCIe 3.0 x16 | 70% | 85% | 90% |
---
推荐组合:
1. 主服务: 4x7B实例 (负载均衡)
- 总吞吐: 1,300-1,400 tokens/s
- 适用: 客服系统、API接口
2. 精准服务: 2x13B实例 (热备)
- 总吞吐: 300-360 tokens/s
- 适用: 法律咨询、医疗问答
3. 研究后台: 1x33B实例
- 总吞吐: 45-60 tokens/s
- 适用: 论文润色、剧本创作
我机器是E5-2680V4,512G,P100-16G*4,让DS出了个算力预估。。。准备折腾下。 bennq 发表于 2025-2-6 08:06
满血版nvdia NIM速度最快,比官网快,蒸馏的智商太低就不用了
nv大善人 nim注册送1000tokens 速度很起飞很稳 wosell 发表于 2025-2-6 17:43
跑推理模型双卡有用么?
只是共享显存,起码跑deepseek 是这样子的 现在ds的网络环境和流量,API节后应该会优化服务器和增加网络安全后开放吧 i6wz1l 发表于 2025-2-6 10:57
咸鱼看了一下 要2w了
这么便宜?我一直以为要3w+,2w的话倒是可以考虑弄一张。 [无奈]咸鱼125买了三千万的满血版本次数 风采 发表于 2025-2-6 23:14
咸鱼125买了三千万的满血版本次数
也想买,请问能稳定使用不[可爱] 试了一圈各家满血r1,目前阿里云的比较让人满意,没出现过不能服务的问题。但是有个问题阿里云的模型好像思考过程过于啰嗦,问个问题他能想5分钟,thinking部分输出上万字[睡觉] erneenre 发表于 2025-2-10 21:52
也想买,请问能稳定使用不
[偷笑]很稳定啊,自己搭的服务器。用chatbox用的 当然是用quora的 kaixin_chh 发表于 2025-2-6 17:28
我最近也看到别人也是这么操作。
ds是很吊,chatg p t也不差,但是稳定大于一切,所以就买200刀的pro了 ...
ds推理很不错。不管怎么说,技术突飞猛进,有一条鲶鱼总是好的。 影驰无影rtx4060ti 16g单槽那个怎么样 chip_discovery 发表于 2025-2-6 18:54
只是共享显存,起码跑deepseek 是这样子的
推理多卡大部分模型都是只共享显存,算力不叠加,哪一层在哪张卡就使用这张卡的全部算力 MageHan 发表于 2025-2-16 17:15
影驰无影rtx4060ti 16g单槽那个怎么样
4060ti内存带宽不够大,而且p2p也被干掉了,单卡拿来玩玩还可以,多卡不太行 ssl0008 发表于 2025-2-6 17:47
m40 24g不行吗,我看m40居然涨价了
显存够用了,架构太老了,fp16效率差,int8不支持 目前应该是火山云提供的API是最稳定的 对了,那些说家用显卡能跑的,都不是真的R1或者V3,本质就是改良过增加了思维链的QWEN2.5和Llama,能力和真正的R1还是差了太多 目前用讯飞和腾讯的都不错 你在本地电脑跑14b么? kaixin_chh 发表于 2025-2-6 17:28
我最近也看到别人也是这么操作。
ds是很吊,chatg p t也不差,但是稳定大于一切,所以就买200刀的pro了 ...
200刀怎么收费?按token么? szjzll 发表于 2025-2-6 16:11
5090D现在还没法本地部署吗
5090D可以运行满血版本么? lz2906190 发表于 2025-2-6 11:52
还是用gemini2.0,deepseek开源了gemini的效率也提了不少。
gemini2.0聊天链接是什么?
页:
1
[2]