5090D用ollama跑deepseek r1 32b的效果。
本帖最后由 lh4357 于 2025-2-16 12:02 编辑更新了一下软件,功耗能跑满了。
-----------------------------------------------
这个tokens/s也不知道是啥水平。
问题太简单,建议换个问题 m4max 32B-4bit mlx:
24.48 tok/sec • 300 tokens • 0.50s to first token
如果context 长的情况下N卡应该会优势很大 30t/s用4090也能跑出来吧
ollama跑的是q几的模型? 缩水版的 都是弱智,有啥用? 7900xtx 不超频,默认有 27 token/s Oxyer 发表于 2025-2-7 11:28
问题太简单,建议换个问题
反正问了好几个问题都是30-40之间,然后功耗只有不到350W。 manwomans 发表于 2025-2-7 11:31
30t/s用4090也能跑出来吧
ollama跑的是q几的模型?
直接运行的应该是q4? 跑32B的话,2080ti 22g大概20tokens ,对比下来5090D会稍微快一点,但是说实话有个20基本上不影响使用了,但如果是个位数的tokens就比较难受。
如果是跑70B的话,2080ti 和5090D 反正两个显存都跑不动;双卡2080ti 22g 跑70B 只有3tokens,
结论就是拿来跑模型其实性价比不高,要不加钱上4090 的魔改48G,要不减钱换个便宜的,5090D游戏卡还是专心打游戏。
实测地址 并发数 = 1 跑不满的,试试用 llama.cpp 跑大batchsize 试试 70B Q4 量化的速度?系统内存是多大? 下面那个测试速度的数据怎么调出来[困惑] lh4357 发表于 2025-2-7 11:40
反正问了好几个问题都是30-40之间,然后功耗只有不到350W。
题目太简单,测不出来,我给你出一道:
如果用标准滤波器来模拟声笼和声障现象 给我一组数据,表示遮挡面积从0%到100%的声音Low pass和High pass对应的频率,每10%遮挡面积给出一个频率值。 psps3 发表于 2025-2-7 12:04
下面那个测试速度的数据怎么调出来
运行的时候加个--verbose参数。 pdvc 发表于 2025-2-7 12:08
题目太简单,测不出来,我给你出一道:
total duration: 1m23.9839825s
load duration: 13.0599ms
prompt eval count: 56 token(s)
prompt eval duration: 39.825ms
prompt eval rate: 1406.15 tokens/s
eval count: 2608 token(s)
eval duration: 1m23.930021s
eval rate: 31.07 tokens/s 感觉32B比起全量的671B 还是个小玩具的水平......
自己本地拿来干一些偏隐私的“调教”还不错,复杂的场景还是webchat吧 KimmyGLM 发表于 2025-2-7 12:51
感觉32B比起全量的671B 还是个小玩具的水平......
自己本地拿来干一些偏隐私的“调教”还不错,复杂的场景 ...
已经有人调教出了deepse/x[偷笑] pdvc 发表于 2025-2-7 12:59
已经有人调教出了deepse/x
果然那什么才是生产力...... 本帖最后由 Technik 于 2025-2-8 13:38 编辑
lh4357 发表于 2025-2-7 12:13
total duration: 1m23.9839825s
load duration: 13.0599ms
prompt eval count: 56 token ...
4090D
total duration: 37.2562216s
load duration: 20.0582ms
prompt eval count: 56 token(s)
prompt eval duration: 303ms
prompt eval rate: 184.82 tokens/s
eval count: 1376 token(s)
eval duration: 36.916s
eval rate: 37.27 tokens/s
Technik 发表于 2025-2-7 13:18
4090D
total duration: 37.2562216s
load duration: 20.0582ms
这么看,4090 4090d 5090d完全拉不开差距 现在ollama后端(llama.cpp => ggml => cuda)应该还不支持fp4加速,fp8跟4090差不多。
第二列是4090,第三列是5090:
chip_discovery 发表于 2025-2-7 11:45
跑32B的话,2080ti 22g大概20tokens ,对比下来5090D会稍微快一点,但是说实话有个20基本上不影响使用了 ...
70B只有3t/s?这肯定有部分进内存了
uprit 发表于 2025-2-7 13:48
70B只有3t/s?这肯定有部分进内存了
不是我测的,我只有一张2080ti 22g, 没法验证,只是搬运一些B站别人的数据,单卡2080ti 20tokens 左右这个我确实测出来了。 Technik 发表于 2025-2-7 13:18
4090D
total duration: 37.2562216s
load duration: 20.0582ms
是同一个问题? lh4357 发表于 2025-2-7 14:59
是同一个问题?
高通低通那个 chip_discovery 发表于 2025-2-7 14:38
不是我测的,我只有一张2080ti 22g, 没法验证,只是搬运一些B站别人的数据,单卡2080ti 20tokens 左右这 ...
进内存了。2080ti22g*2正常是10token/s lh4357 发表于 2025-2-7 14:59
是同一个问题?
7900xtx
total duration: 49.4484531s
load duration: 37.3087ms
prompt eval count: 1852 token(s)
prompt eval duration: 2.371s
prompt eval rate: 781.11 tokens/s
eval count: 1128 token(s)
eval duration: 47.005s
eval rate: 24.00 tokens/s 7b相比于14b会有速度或者智力的区别吗,只下了个7b的,问硬件问题都说错了,而且问两次结果差距很大 我輩樹である 发表于 2025-2-7 05:28
现在ollama后端(llama.cpp => ggml => cuda)应该还不支持fp4加速,fp8跟4090差不多。
第二列是4090,第 ...
ollama拉的很 kv cache12月底才合并 flash attention仅限于有tensor core的卡 gqa都还没有 YsHaNg 发表于 2025-2-7 18:22
ollama拉的很 kv cache12月底才合并 flash attention仅限于有tensor core的卡 gqa都还没有 ...
但它是docker,我喜欢。