testmepro
发表于 2025-2-13 17:24
秦南瓜 发表于 2025-2-13 17:20
是的。。新手嘛,先玩傻瓜的
我也是刚开始玩.ollama完了几天卸载了..装个ubantu准备玩vllm 玩顺畅了考虑升级家里台式机做个本地大模型推理服务器.[偷笑]
秦南瓜
发表于 2025-2-13 17:25
testmepro 发表于 2025-2-13 17:24
我也是刚开始玩.ollama完了几天卸载了..装个ubantu准备玩vllm 玩顺畅了考虑升级家里台式机做个本地大模型 ...
哈哈,这添置装备的理由很强劲!!
williamqh
发表于 2025-2-13 17:26
uprit 发表于 2025-2-13 12:57
除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s,70B模型大一倍,不太可能到20t/s。
...
我m3max 128g跑r1 q8 32b也才8t/s。m4max快那么多我是不信的。
YsHaNg
发表于 2025-2-13 17:28
威廉第三 发表于 2025-2-13 03:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存,如果能实现张量并行,也许能突破10t/s ...
应该可以提升很多 ollama优化很拉 和它上游llama.cpp差几十个commits 在vllm/transformer面前都是草履虫
YsHaNg
发表于 2025-2-13 17:32
nagashinn 发表于 2025-2-13 03:55
训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬 ...
只做蒸馏还行 https://github.com/huggingface/open-r1 说8 H100 80G GPU takes about 3 hours
YsHaNg
发表于 2025-2-13 17:34
nagashinn 发表于 2025-2-13 03:59
我现在是质疑研发的能力啊
都是开源的框架 脚本都在那 工业流水线生产 只是你卡不够多不够好就只能出来个apple intelligence
YsHaNg
发表于 2025-2-13 18:32
Oxyer 发表于 2025-2-13 05:19
不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢 ...
LM Studio的lms是个大前端 整个js写的 引擎应该默认用的是苹果mlx 别的runtime可以自己下载 llama.cpp甚至rocm
testmepro
发表于 2025-2-27 21:45
感谢楼主无私分享,给我们准备入坑的打了个样