lh4357 发表于 2025-2-7 11:17

5090D用ollama跑deepseek r1 32b的效果。

本帖最后由 lh4357 于 2025-2-16 12:02 编辑

更新了一下软件,功耗能跑满了。





-----------------------------------------------










这个tokens/s也不知道是啥水平。

Oxyer 发表于 2025-2-7 11:28

问题太简单,建议换个问题

ter 发表于 2025-2-7 11:31

m4max 32B-4bit mlx:
24.48 tok/sec • 300 tokens • 0.50s to first token

如果context 长的情况下N卡应该会优势很大

manwomans 发表于 2025-2-7 11:31

30t/s用4090也能跑出来吧
ollama跑的是q几的模型?

lbb68 发表于 2025-2-7 11:32

缩水版的 都是弱智,有啥用?

cloudybeyond 发表于 2025-2-7 11:39

7900xtx 不超频,默认有 27 token/s

lh4357 发表于 2025-2-7 11:40

Oxyer 发表于 2025-2-7 11:28
问题太简单,建议换个问题

反正问了好几个问题都是30-40之间,然后功耗只有不到350W。

lh4357 发表于 2025-2-7 11:41

manwomans 发表于 2025-2-7 11:31
30t/s用4090也能跑出来吧
ollama跑的是q几的模型?

直接运行的应该是q4?

chip_discovery 发表于 2025-2-7 11:45

跑32B的话,2080ti 22g大概20tokens ,对比下来5090D会稍微快一点,但是说实话有个20基本上不影响使用了,但如果是个位数的tokens就比较难受。
如果是跑70B的话,2080ti 和5090D 反正两个显存都跑不动;双卡2080ti 22g 跑70B 只有3tokens,

结论就是拿来跑模型其实性价比不高,要不加钱上4090 的魔改48G,要不减钱换个便宜的,5090D游戏卡还是专心打游戏。
实测地址

neavo 发表于 2025-2-7 11:47

并发数 = 1 跑不满的,试试用 llama.cpp 跑大batchsize

Miner 发表于 2025-2-7 11:48

试试 70B Q4 量化的速度?系统内存是多大?

psps3 发表于 2025-2-7 12:04

下面那个测试速度的数据怎么调出来[困惑]

pdvc 发表于 2025-2-7 12:08

lh4357 发表于 2025-2-7 11:40
反正问了好几个问题都是30-40之间,然后功耗只有不到350W。

题目太简单,测不出来,我给你出一道:

如果用标准滤波器来模拟声笼和声障现象 给我一组数据,表示遮挡面积从0%到100%的声音Low pass和High pass对应的频率,每10%遮挡面积给出一个频率值。

lh4357 发表于 2025-2-7 12:10

psps3 发表于 2025-2-7 12:04
下面那个测试速度的数据怎么调出来

运行的时候加个--verbose参数。

lh4357 发表于 2025-2-7 12:13

pdvc 发表于 2025-2-7 12:08
题目太简单,测不出来,我给你出一道:

total duration:       1m23.9839825s
load duration:      13.0599ms
prompt eval count:    56 token(s)
prompt eval duration: 39.825ms
prompt eval rate:   1406.15 tokens/s
eval count:         2608 token(s)
eval duration:      1m23.930021s
eval rate:            31.07 tokens/s

KimmyGLM 发表于 2025-2-7 12:51

感觉32B比起全量的671B 还是个小玩具的水平......
自己本地拿来干一些偏隐私的“调教”还不错,复杂的场景还是webchat吧

pdvc 发表于 2025-2-7 12:59

KimmyGLM 发表于 2025-2-7 12:51
感觉32B比起全量的671B 还是个小玩具的水平......
自己本地拿来干一些偏隐私的“调教”还不错,复杂的场景 ...

已经有人调教出了deepse/x[偷笑]

KimmyGLM 发表于 2025-2-7 13:01

pdvc 发表于 2025-2-7 12:59
已经有人调教出了deepse/x

果然那什么才是生产力......

Technik 发表于 2025-2-7 13:18

本帖最后由 Technik 于 2025-2-8 13:38 编辑

lh4357 发表于 2025-2-7 12:13
total duration:       1m23.9839825s
load duration:      13.0599ms
prompt eval count:    56 token ...

4090D
total duration:       37.2562216s
load duration:      20.0582ms
prompt eval count:    56 token(s)
prompt eval duration: 303ms
prompt eval rate:   184.82 tokens/s
eval count:         1376 token(s)
eval duration:      36.916s
eval rate:            37.27 tokens/s

manwomans 发表于 2025-2-7 13:21

Technik 发表于 2025-2-7 13:18
4090D
total duration:       37.2562216s
load duration:      20.0582ms


这么看,4090 4090d 5090d完全拉不开差距

我輩樹である 发表于 2025-2-7 13:28

现在ollama后端(llama.cpp => ggml => cuda)应该还不支持fp4加速,fp8跟4090差不多。

第二列是4090,第三列是5090:

uprit 发表于 2025-2-7 13:48

chip_discovery 发表于 2025-2-7 11:45
跑32B的话,2080ti 22g大概20tokens ,对比下来5090D会稍微快一点,但是说实话有个20基本上不影响使用了 ...

70B只有3t/s?这肯定有部分进内存了

chip_discovery 发表于 2025-2-7 14:38

uprit 发表于 2025-2-7 13:48
70B只有3t/s?这肯定有部分进内存了

不是我测的,我只有一张2080ti 22g, 没法验证,只是搬运一些B站别人的数据,单卡2080ti 20tokens 左右这个我确实测出来了。

lh4357 发表于 2025-2-7 14:59

Technik 发表于 2025-2-7 13:18
4090D
total duration:       37.2562216s
load duration:      20.0582ms


是同一个问题?

Technik 发表于 2025-2-7 15:07

lh4357 发表于 2025-2-7 14:59
是同一个问题?

高通低通那个

秦南瓜 发表于 2025-2-7 16:21

chip_discovery 发表于 2025-2-7 14:38
不是我测的,我只有一张2080ti 22g, 没法验证,只是搬运一些B站别人的数据,单卡2080ti 20tokens 左右这 ...

进内存了。2080ti22g*2正常是10token/s

Hoshigami 发表于 2025-2-7 16:56

lh4357 发表于 2025-2-7 14:59
是同一个问题?

7900xtx
total duration:       49.4484531s
load duration:      37.3087ms
prompt eval count:    1852 token(s)
prompt eval duration: 2.371s
prompt eval rate:   781.11 tokens/s
eval count:         1128 token(s)
eval duration:      47.005s
eval rate:            24.00 tokens/s

firebase 发表于 2025-2-7 17:01

7b相比于14b会有速度或者智力的区别吗,只下了个7b的,问硬件问题都说错了,而且问两次结果差距很大

YsHaNg 发表于 2025-2-7 18:22

我輩樹である 发表于 2025-2-7 05:28
现在ollama后端(llama.cpp => ggml => cuda)应该还不支持fp4加速,fp8跟4090差不多。

第二列是4090,第 ...

ollama拉的很 kv cache12月底才合并 flash attention仅限于有tensor core的卡 gqa都还没有

我輩樹である 发表于 2025-2-7 19:19

YsHaNg 发表于 2025-2-7 18:22
ollama拉的很 kv cache12月底才合并 flash attention仅限于有tensor core的卡 gqa都还没有 ...

但它是docker,我喜欢。
页: [1] 2 3
查看完整版本: 5090D用ollama跑deepseek r1 32b的效果。