找回密码
 加入我们
搜索
      
查看: 6569|回复: 61

[显卡] 新手本地部署LLM的一些问题

[复制链接]
发表于 2025-2-5 08:49 | 显示全部楼层 |阅读模式
本帖最后由 秦南瓜 于 2025-2-5 09:00 编辑

最近Deepseek的出圈,也点燃了👴的折腾激情。打算折腾本地部署LLM玩玩,纯小白,有一些问题搜了半天无果。来坛子问问大佬们~~

打算弄deepseek的qwen 70b。只跑推理,预算三万元以内,671b啥的不考虑太贵。
(模型啥的不重要。其实还是给折腾显卡一个理由

L20 48G*1         价格2w4左右
4090 48G*1      价格2w3涡轮,2w4水冷比较静音,魔改有风险
W7900 48G*1   价格1w5左右,AMD这波好像也不是不行
RTX8000 48G*1 价格1w2涡轮,9k被动散热,TU102,比较老
4090d*2            单卡价格1w3的样子 ,2w6,相对来说靠谱&保值一点
3090*2              单卡5300左右,默认矿
titan RTX*2       单卡3700左右,比较老了
2080ti 22G*2    单卡2400左右,不确定44G 跑70B够不够??

其他还有v100 32G改涡轮,p100*4 chh老哥走plx switch跑mlc的骚操作。
但我就是家里玩玩,对噪音还是比较在意,这些没有常规散热方案的我先不考虑了。。。   


问:
Q1,我对这些LLM的f16 Q6 Q5 Q4 之类的量化,没有什么清晰的概念,有没有推荐的科普专栏文章?
Q2,我能接受的方案基本都是总显存48G的样子。48G跑推理的话,最大是70b什么级别的量化模型?
Q3,mac 这边,96G 128G 192G大内存啥的好像也不错,是不是能跑这些模型但是很慢?
Q4,目前没搜到有人用4060ti 16G多卡、4070ti super多卡,7900xtx 多卡,感觉性价比也不错呀?为啥没人用呢。。
Q5,是否可以不同型号的显卡插在同一个机器上一起跑LLM推理?如果可以的话,其中性能较低的卡是否会造成瓶颈?
发表于 2025-2-5 09:02 | 显示全部楼层
m2max 14寸 96G,跑deepseek 蒸馏qwen 70b q6,大约2.5 token/s.但是并不安静,风扇狂转
发表于 2025-2-5 09:05 | 显示全部楼层
如果不是跑越狱模型,还是买API最划算
发表于 2025-2-5 09:05 | 显示全部楼层
4090 48G,双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上,而在于环境搭建,性能调优上,光一个linux就枪毙大多小白
img_2175.jpeg


 楼主| 发表于 2025-2-5 09:06 | 显示全部楼层
kzfile 发表于 2025-2-5 09:05
如果不是跑越狱模型,还是买API最划算

那肯定是要的
 楼主| 发表于 2025-2-5 09:07 | 显示全部楼层
kzfile 发表于 2025-2-5 09:02
m2max 14寸 96G,跑deepseek 蒸馏qwen 70b q6,大约2.5 token/s.但是并不安静,风扇狂转

确实慢。。不过能跑且功耗低,还能带着到处跑。也蛮爽的
 楼主| 发表于 2025-2-5 09:08 | 显示全部楼层
本帖最后由 秦南瓜 于 2025-2-5 09:10 编辑
T.JOHN 发表于 2025-2-5 09:05
4090 48G,双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上,而在于环境搭建,性能调优上,光一 ...


是这样。。。。。我就是不懂linux的小白。打算windows ollama

3090性价比确实可以
发表于 2025-2-5 09:09 | 显示全部楼层
感觉70b费劲点....有这个钱自己充值玩一玩得了.不是专业的不建议烧这东西
发表于 2025-2-5 09:10 | 显示全部楼层
个人用的话,为了显存堆GPU,会导致计算力溢出的很多,我觉得很不划算,或许可以等aimax395
 楼主| 发表于 2025-2-5 09:11 | 显示全部楼层
Oxyer 发表于 2025-2-5 09:09
感觉70b费劲点....有这个钱自己充值玩一玩得了.不是专业的不建议烧这东西

折腾硬件是主要目的。。。。
真要用 70b和在线的还是差远了
发表于 2025-2-5 09:13 | 显示全部楼层
秦南瓜 发表于 2025-2-5 09:11
折腾硬件是主要目的。。。。
真要用 70b和在线的还是差远了

对啊,在线的直接就是671B完整版,玩着还爽,玩腻了不充值就是了,你这折腾硬件的成本有点高啊,但凡你是自有的硬件折腾也没所谓了,但是为了折腾花这么多钱,多少有点没必要
发表于 2025-2-5 09:14 | 显示全部楼层
量化就是降低模型的精度,以减少推理时显存的占用,70b 模型 Q4 量化后大概需要 35G 显存,Q8就是 70G,还需要KV缓存什么的。48G 的显卡能 run Q4 ,看过一个测试,参数越大的模型,量化后性能损失越少。其实这些问题你可以去问 DS,比坛友解释的好
 楼主| 发表于 2025-2-5 09:14 | 显示全部楼层
Oxyer 发表于 2025-2-5 09:13
对啊,在线的直接就是671B完整版,玩着还爽,玩腻了不充值就是了,你这折腾硬件的成本有点高啊,但凡你是自有 ...

主要是可以玩没限制的模型
 楼主| 发表于 2025-2-5 09:20 | 显示全部楼层
Miner 发表于 2025-2-5 09:14
量化就是降低模型的精度,以减少推理时显存的占用,70b 模型 Q4 量化后大概需要 35G 显存,Q8就是 70G,还 ...

问了下DS果然给力。。。
发表于 2025-2-5 09:28 | 显示全部楼层
换平台,我mac mini m4 16GB能流畅跑14B,70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以
 楼主| 发表于 2025-2-5 09:32 | 显示全部楼层
nn1122 发表于 2025-2-5 09:28
换平台,我mac mini m4 16GB能流畅跑14B,70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 ...

可以是可以,就是慢。14b相比70b来说太轻松了。
发表于 2025-2-5 09:47 | 显示全部楼层
秦南瓜 发表于 2025-2-5 09:32
可以是可以,就是慢。14b相比70b来说太轻松了。

14b我能到10tok/s的速度,个人感觉比官网稍慢一点,我能接受
发表于 2025-2-5 09:51 | 显示全部楼层
都是有钳人呀!
我还在用cpu跑蒸馏模型,居然也能凑活用
发表于 2025-2-5 10:12 | 显示全部楼层
T.JOHN 发表于 2025-2-5 09:05
4090 48G,双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上,而在于环境搭建,性能调优上,光一 ...

ollama=AI原神

4090跑原神也不增加帧率只增加电费
发表于 2025-2-5 10:18 | 显示全部楼层
最省钱硬件可以 2080ti*2,显卡找那种闪电、evga的,7000
我自己是3090ti*2,可以下载43GB的Q4量化模型。70b还有Q2量化,26GB,这个我没试。
我手上还有个8581C,内存带宽230GB/s,跑100GB模型mistral-large,速度只有1.35tokens/s,距离理论速度差了一半。
以上都是ollama跑的。

有空再看看openvino,有没有改善。
 楼主| 发表于 2025-2-5 10:20 | 显示全部楼层
os39000 发表于 2025-2-5 10:18
最省钱硬件可以 2080ti*2,显卡找那种闪电、evga的,7000
我自己是3090ti*2,可以下载43GB的Q4量化模型。70 ...

学习了~ 那后面我就找找q4的
发表于 2025-2-5 10:28 | 显示全部楼层
推理更考验显存,能达到48G以上显存的,gpu性能都是过剩的。大概率运行的时候显卡风扇都不转。
从这点来说,大内存的mac其实更合适一些。
发表于 2025-2-5 10:29 | 显示全部楼层
nn1122 发表于 2025-2-5 09:28
换平台,我mac mini m4 16GB能流畅跑14B,70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 ...

跑14b   多少token
发表于 2025-2-5 10:30 | 显示全部楼层
我昨天用4060部署的 14b 每秒2token  然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足日常使用,但是就是傻傻的
发表于 2025-2-5 10:31 | 显示全部楼层
i6wz1l 发表于 2025-2-5 10:29
跑14b   多少token

10,出字速度还可以,B站有个up发了视频的
 楼主| 发表于 2025-2-5 10:48 来自手机 | 显示全部楼层
i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token  然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足 ...

就是因为太傻了。所以满足不了日常使用。。。
发表于 2025-2-5 10:50 | 显示全部楼层
因为DeepSeek是MoE model,Threadripper/EPYC+海量RAM的方案也可以考虑一下,这样比GPU方案跑的模型更大。这几天试着在我的5995WX + 8通道DDR4 3200 256GB RAM上跑了下2.51bit动态量化版的DeepSeek R1 671B,速度有5-6 tokens/s
 楼主| 发表于 2025-2-5 10:51 | 显示全部楼层
ahzhf 发表于 2025-2-5 10:50
因为DeepSeek是MoE model,Threadripper/EPYC+海量RAM的方案也可以考虑一下,这样比GPU方案跑的模型更大。 ...


不错!!我去逛逛咸鱼。你这套多少成本?
发表于 2025-2-5 10:54 | 显示全部楼层
秦南瓜 发表于 2025-2-5 10:51
不错!!我去逛逛咸鱼。你这套多少成本?

用的公司的workstation
发表于 2025-2-5 10:55 | 显示全部楼层
第一没什么用  只有最大B的有用  ,他解决的是你现在访问人数太多,每次访问Speedseek 无响应的问题

第二数据是23年12月的,除非联网 不然 没有新数据

第三模型要训练,没有H100 基本没得搞
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-22 03:00 , Processed in 0.013529 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表