chh-carter
发表于 2025-2-3 16:18
gnhen5415 发表于 2025-2-3 13:09
是1280g左右
我下载了一个70b,四十多G,3090ti都慢的一p。跟不要说完整版的V3了
YEX
发表于 2025-2-3 16:48
过几天学习学习,看看能不能把项目可研报告,估概预决算计算书还有环保啥的扔进去。。行的话打个报告就可以玩免费的5090了[偷笑]
Valkyrie1996
发表于 2025-2-8 12:26
YEX 发表于 2025-2-3 16:48
过几天学习学习,看看能不能把项目可研报告,估概预决算计算书还有环保啥的扔进去。。行的话打个报告就可以 ...
用AI来升级AI硬件装备,正循环了~哈哈
胡须佬
发表于 2025-2-8 13:25
Oxyer 发表于 2025-2-1 22:53
因为没联网,LM的和chatbox的没法联网都这个样子。ollama+page assist打开联网就没问题。 ...
ollama+page assist打开联网没效果
xbl919849900
发表于 2025-2-8 14:44
买个m4 mini 24g内存 256g的丐版,能稳定来跑32b的模型吗?速度咋样
Oxyer
发表于 2025-2-8 16:45
胡须佬 发表于 2025-2-8 13:25
ollama+page assist打开联网没效果
何以见得的?
tim6252
发表于 2025-2-8 17:18
。。。我感觉以后小说也没得看了全是AI写 本来就已经很烂了以后更没法看
skyfish
发表于 2025-2-8 19:22
70B及以下的都是QWen的finetune版本吧,推理速度上跟QWen或者llama没有本质区别吧,
得上671B的版本有MoE加持,才能看到相比其他家模型的性能优势吧
olloll
发表于 2025-2-8 20:27
本帖最后由 olloll 于 2025-2-8 20:29 编辑
skyfish 发表于 2025-2-8 19:22
70B及以下的都是QWen的finetune版本吧,推理速度上跟QWen或者llama没有本质区别吧,
得上671B的版本有MoE加 ...
自己部署好玩而已,,真正用会买api,,有一些整合的第三方服务商9.9美元所有模型都可以用,额度个人基本用不完
mkkkno1
发表于 2025-2-8 20:42
胡须佬 发表于 2025-2-8 13:25
ollama+page assist打开联网没效果
我用火狐+page assist能联网呀
装陈醋的酱油瓶
发表于 2025-2-8 22:01
chh-carter 发表于 2025-2-3 16:18
我下载了一个70b,四十多G,3090ti都慢的一p。跟不要说完整版的V3了
爆显存了,可能跟直接用CPU跑差别不大
yfan
发表于 2025-2-8 22:10
我最近也下了个玩了下 32b我试过12tok左右 70b直接慢得要死只有1.5tok[偷笑] 显卡w6800x 32G
chh-carter
发表于 2025-2-9 17:43
装陈醋的酱油瓶 发表于 2025-2-8 22:01
爆显存了,可能跟直接用CPU跑差别不大
我这个应该是显存不够自动分配了内存共享,一共是24G显存+20G的内存一起跑的,依然很慢。所以讲真的,本地部署其实对于家用来说,意义真不大。
装陈醋的酱油瓶
发表于 2025-2-9 17:51
chh-carter 发表于 2025-2-9 17:43
我这个应该是显存不够自动分配了内存共享,一共是24G显存+20G的内存一起跑的,依然很慢。所以讲真的,本 ...
试试看Q4 量化的,我一张2080ti 跑32B Q4 很快
70B Q4 量化的用两张2080ti 22G 也有10+ token/s
chh-carter
发表于 2025-2-9 17:57
装陈醋的酱油瓶 发表于 2025-2-9 17:51
试试看Q4 量化的,我一张2080ti 跑32B Q4 很快
70B Q4 量化的用两张2080ti 22G 也有10+ token/s ...
我应该用的就是Q4模型,速度只有0.52
当然这个是RTX TITAN跑出来的,不是3090ti
你说
发表于 2025-2-9 18:38
部署这玩意cpu用什么好? 刚好打算升级电脑,不带显卡控制在1万左右,求推荐配置!显卡打算4090fe或5090fe(区别大吗?)
kuram
发表于 2025-2-9 19:58
70B的效果会比较好 但是怎么弄呢
西人街语_EX
发表于 2025-2-10 14:49
chip_discovery 发表于 2025-2-1 09:33
4090 24G 只能玩32B,70B需要43G显存
PS. 32B 要求显存20G,2080ti 22g 还挺快的
请问32B的时候显存占用有多少呀
chip_discovery
发表于 2025-2-10 15:30
西人街语_EX 发表于 2025-2-10 14:49
请问32B的时候显存占用有多少呀
我没有特别长的那种文本任务,任务管理器显示19.几G
chip_discovery
发表于 2025-2-10 15:34
YsHaNg 发表于 2025-2-1 19:00
那你少了个ollama很强的前端 open webui是御用的 原名叫ollama webui 有前后端打包一键跑
docker run -d...
我用docker 部署过这个open-webui,首字延迟特别大,大概几十秒,直接用cmd输入问题就很快,搞不懂
mkkkno1
发表于 2025-2-10 16:09
西人街语_EX 发表于 2025-2-10 14:49
请问32B的时候显存占用有多少呀
22G的样子
YsHaNg
发表于 2025-2-10 16:35
chip_discovery 发表于 2025-2-10 07:34
我用docker 部署过这个open-webui,首字延迟特别大,大概几十秒,直接用cmd输入问题就很快,搞不懂 ...
gui比cli慢是必然的 你可以关掉promt推荐还有input补全 默认是你当前对话模型去做这些事 如果你选择的模型机器本身跑就很慢那输入延迟也大 也可以换一个小一点的模型处理这些后台事物 在管理员-设置-界面改本地模型
西人街语_EX
发表于 2025-2-10 19:07
chip_discovery 发表于 2025-2-10 15:30
我没有特别长的那种文本任务,任务管理器显示19.几G
感谢,那就放心买张22g的卡玩玩了[狂笑]
zhanming
发表于 2025-2-17 17:07
xjr12000 发表于 2025-2-1 13:03
671B都能跑起来,而且是无蒸馏版
价格不贵,起码比你买5090便宜
看了下,这个居然是用内存跑的,不用显卡
768G DDR5 内存
ifrankly
发表于 2025-2-20 13:48
蒸馏又是什么意思?
eclipser9
发表于 2025-2-20 17:12
AiReason 发表于 2025-2-1 10:41
我最想知道的是这几个蒸馏模型智力的区别有多大
反正1.5b的会抽风