manwomans
发表于 2025-2-18 03:01
满血版没啥折腾的必要
直接申请api用就行了
速度比本地部署的快多了
量化版本还高
1bit的大模型也已经降智的太多了
盐湖
发表于 2025-2-18 09:38
pdvc 发表于 2025-2-17 23:51
涉及到的推理计算过程多一些嘛,输出的token相对也多一些。
好的,谢谢!
guitengyue
发表于 2025-2-18 12:27
一懒众衫小 发表于 2025-2-12 09:13
这是我的参数,希望能帮到你
.\llama-server -m DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --gpu-layers ...
不知道啥情况,我双路epyc,带宽350G/S,最终跑下来成绩惨不忍睹,居然和我e5差不多。。。
fut888
发表于 2025-2-18 13:44
6892731 发表于 2025-2-15 00:36
671B 4bit量化还行,可用;max_new_tokens 4000
这个速度可以啊,什么配置
coolcoolbear
发表于 2025-2-18 18:07
manwomans 发表于 2025-2-18 03:01
满血版没啥折腾的必要
直接申请api用就行了
速度比本地部署的快多了
api有挺多限制,还是本地的用着爽,可以7*24让它干活,活活。
sonicz
发表于 2025-2-18 22:15
guitengyue 发表于 2025-2-18 12:27
不知道啥情况,我双路epyc,带宽350G/S,最终跑下来成绩惨不忍睹,居然和我e5差不多。。。 ...
是不是忘了BIOS里面把NUMA设成0了?
guitengyue
发表于 2025-2-18 22:26
sonicz 发表于 2025-2-18 22:15
是不是忘了BIOS里面把NUMA设成0了?
这个是要设置成0?我看视频教程是设置成4呢。。。
coolcoolbear
发表于 2025-2-18 22:37
一懒众衫小 发表于 2025-2-15 10:00
看到很多测试,llama 70b 的蒸馏还不如 qwen 32b的,不过这个对联都没答对。
昨天又试了下1.58b,居然还 ...
在ollama下的70b, 繁体字都出来了。
下联:四靈龍鳳麟
testmepro
发表于 2025-2-18 22:42
大家讨论这么热闹我觉得是不是可以组个群交流也方便啊
一懒众衫小
发表于 2025-2-19 08:35
coolcoolbear 发表于 2025-2-18 22:37
在ollama下的70b, 繁体字都出来了。
下联:四靈龍鳳麟
llama70b在中文方面还不如qwen32b呢
一懒众衫小
发表于 2025-2-19 08:37
guitengyue 发表于 2025-2-18 22:26
这个是要设置成0?我看视频教程是设置成4呢。。。
我昨天切换到debian上试了llama,速度升到3.7token/s了。。。也不知道KT啥时候能搞定iq1量化系列
6892731
发表于 2025-2-19 23:23
KimmyGLM 发表于 2025-2-15 00:59
啥配置跑的?
9654+512G d5+4090d
6892731
发表于 2025-2-19 23:23
一懒众衫小 发表于 2025-2-15 10:02
你的配置上 KTransformers 有望啊,如果模型大小400g,单个token激活大概是37b,所以单个token需求 37/6 ...
就是kt
6892731
发表于 2025-2-19 23:23
fut888 发表于 2025-2-18 13:44
这个速度可以啊,什么配置
9654+512G d5+4090d
wangbinyh
发表于 2025-2-26 23:01
jihuan 发表于 2025-2-12 12:44
我两块4090跑70b挺快的
两张卡要nvlink么?还是纯从服务中配置就好了?
marcobai
发表于 2025-2-26 23:37
炒显卡的托
postman
发表于 2025-3-3 17:39
5950x+128gb+3090能跑得动1.58bit吗?
一懒众衫小
发表于 2025-3-3 18:45
postman 发表于 2025-3-3 17:39
5950x+128gb+3090能跑得动1.58bit吗?
现在的情况只能勉强运行起来而已。装debian后,128g内存用完,24g显存也用完。上下文最多3800,如果要多轮对话或在提示词长一点,那长度得低于3k。基本就是玩玩而已
postman
发表于 2025-3-4 09:42
一懒众衫小 发表于 2025-3-3 18:45
现在的情况只能勉强运行起来而已。装debian后,128g内存用完,24g显存也用完。上下文最多3800,如果要多 ...
那还是接api用吧
n37fr0g
发表于 2025-3-5 10:37
本帖最后由 n37fr0g 于 2025-3-5 10:38 编辑
有没有大能尝试一下Intel Xeon Max (9480、9470、9468、9460、9462有64G H_B_M2内存 带宽1T)配 DDR5 8g x 12内存配intel persist memory 300 128g x 12 看看deepseek速度能到多少?