5090D用ollama跑deepseek r1 32b的效果。

lh4357 · 发表于 2025-2-7 11:17

本帖最后由 lh4357 于 2025-2-16 12:02 编辑

更新了一下软件，功耗能跑满了。

-----------------------------------------------

这个tokens/s也不知道是啥水平。

Oxyer · 发表于 2025-2-7 11:28

问题太简单,建议换个问题

ter · 发表于 2025-2-7 11:31

m4max 32B-4bit mlx:
24.48 tok/sec • 300 tokens • 0.50s to first token

如果context 长的情况下N卡应该会优势很大

manwomans · 发表于 2025-2-7 11:31

30t/s用4090也能跑出来吧
ollama跑的是q几的模型？

lbb68 · 发表于 2025-2-7 11:32

缩水版的都是弱智，有啥用？

cloudybeyond · 发表于 2025-2-7 11:39

7900xtx 不超频，默认有 27 token/s

lh4357 · 发表于 2025-2-7 11:40

Oxyer 发表于 2025-2-7 11:28
问题太简单,建议换个问题

反正问了好几个问题都是30-40之间，然后功耗只有不到350W。

lh4357 · 发表于 2025-2-7 11:41

manwomans 发表于 2025-2-7 11:31
30t/s用4090也能跑出来吧
ollama跑的是q几的模型？

直接运行的应该是q4？

chip_discovery · 发表于 2025-2-7 11:45

跑32B的话，2080ti 22g 大概20tokens ，对比下来5090D会稍微快一点，但是说实话有个20基本上不影响使用了，但如果是个位数的tokens就比较难受。
如果是跑70B的话，2080ti 和5090D 反正两个显存都跑不动；双卡2080ti 22g 跑70B 只有3tokens,

结论就是拿来跑模型其实性价比不高，要不加钱上4090 的魔改48G，要不减钱换个便宜的，5090D游戏卡还是专心打游戏。
实测地址

neavo · 发表于 2025-2-7 11:47

并发数 = 1 跑不满的，试试用 llama.cpp 跑大batchsize

Miner · 发表于 2025-2-7 11:48

试试 70B Q4 量化的速度？系统内存是多大？

psps3 · 发表于 2025-2-7 12:04

下面那个测试速度的数据怎么调出来

pdvc · 发表于 2025-2-7 12:08

lh4357 发表于 2025-2-7 11:40
反正问了好几个问题都是30-40之间，然后功耗只有不到350W。

题目太简单，测不出来，我给你出一道：

如果用标准滤波器来模拟声笼和声障现象给我一组数据，表示遮挡面积从0%到100%的声音Low pass和High pass对应的频率，每10%遮挡面积给出一个频率值。

复制代码

lh4357 · 发表于 2025-2-7 12:10

psps3 发表于 2025-2-7 12:04
下面那个测试速度的数据怎么调出来

运行的时候加个--verbose参数。

lh4357 · 发表于 2025-2-7 12:13

pdvc 发表于 2025-2-7 12:08
题目太简单，测不出来，我给你出一道：

total duration:    1m23.9839825s
load duration:       13.0599ms
prompt eval count: 56 token(s)
prompt eval duration: 39.825ms
prompt eval rate:    1406.15 tokens/s
eval count:          2608 token(s)
eval duration:       1m23.930021s
eval rate:          31.07 tokens/s

KimmyGLM · 发表于 2025-2-7 12:51

感觉32B比起全量的671B 还是个小玩具的水平......
自己本地拿来干一些偏隐私的“调教”还不错，复杂的场景还是webchat吧

pdvc · 发表于 2025-2-7 12:59

KimmyGLM 发表于 2025-2-7 12:51
感觉32B比起全量的671B 还是个小玩具的水平......
自己本地拿来干一些偏隐私的“调教”还不错，复杂的场景 ...

已经有人调教出了deepse/x

KimmyGLM · 发表于 2025-2-7 13:01

pdvc 发表于 2025-2-7 12:59
已经有人调教出了deepse/x

果然那什么才是生产力......

Technik · 发表于 2025-2-7 13:18

本帖最后由 Technik 于 2025-2-8 13:38 编辑

lh4357 发表于 2025-2-7 12:13
total duration: 1m23.9839825s
load duration: 13.0599ms
prompt eval count: 56 token ...

4090D
total duration:    37.2562216s
load duration:       20.0582ms
prompt eval count: 56 token(s)
prompt eval duration: 303ms
prompt eval rate:    184.82 tokens/s
eval count:          1376 token(s)
eval duration:       36.916s
eval rate:          37.27 tokens/s

manwomans · 发表于 2025-2-7 13:21

Technik 发表于 2025-2-7 13:18
4090D
total duration: 37.2562216s
load duration: 20.0582ms

这么看，4090 4090d 5090d完全拉不开差距

我輩樹である · 发表于 2025-2-7 13:28

现在ollama后端（llama.cpp => ggml => cuda）应该还不支持fp4加速，fp8跟4090差不多。

第二列是4090，第三列是5090：
截屏2025-02-07 13.26.30.png

uprit · 发表于 2025-2-7 13:48

chip_discovery 发表于 2025-2-7 11:45
跑32B的话，2080ti 22g 大概20tokens ，对比下来5090D会稍微快一点，但是说实话有个20基本上不影响使用了 ...

70B只有3t/s？这肯定有部分进内存了

chip_discovery · 发表于 2025-2-7 14:38

uprit 发表于 2025-2-7 13:48
70B只有3t/s？这肯定有部分进内存了

不是我测的，我只有一张2080ti 22g, 没法验证，只是搬运一些B站别人的数据，单卡2080ti 20tokens 左右这个我确实测出来了。

lh4357 · 发表于 2025-2-7 14:59

Technik 发表于 2025-2-7 13:18
4090D
total duration: 37.2562216s
load duration: 20.0582ms

是同一个问题？

Technik · 发表于 2025-2-7 15:07

lh4357 发表于 2025-2-7 14:59
是同一个问题？

高通低通那个

秦南瓜 · 发表于 2025-2-7 16:21

chip_discovery 发表于 2025-2-7 14:38
不是我测的，我只有一张2080ti 22g, 没法验证，只是搬运一些B站别人的数据，单卡2080ti 20tokens 左右这 ...

进内存了。2080ti22g*2正常是10token/s

Hoshigami · 发表于 2025-2-7 16:56

lh4357 发表于 2025-2-7 14:59
是同一个问题？

7900xtx
total duration:    49.4484531s
load duration:       37.3087ms
prompt eval count: 1852 token(s)
prompt eval duration: 2.371s
prompt eval rate:    781.11 tokens/s
eval count:          1128 token(s)
eval duration:       47.005s
eval rate:          24.00 tokens/s

firebase · 发表于 2025-2-7 17:01

7b相比于14b会有速度或者智力的区别吗，只下了个7b的，问硬件问题都说错了，而且问两次结果差距很大

YsHaNg · 发表于 2025-2-7 18:22

我輩樹である发表于 2025-2-7 05:28
现在ollama后端（llama.cpp => ggml => cuda）应该还不支持fp4加速，fp8跟4090差不多。

第二列是4090，第 ...

ollama拉的很 kv cache12月底才合并 flash attention仅限于有tensor core的卡 gqa都还没有

我輩樹である · 发表于 2025-2-7 19:19

YsHaNg 发表于 2025-2-7 18:22
ollama拉的很 kv cache12月底才合并 flash attention仅限于有tensor core的卡 gqa都还没有 ...

但它是docker，我喜欢。

账号		自动登录	找回密码
密码			加入我们

[显卡] 5090D用ollama跑deepseek r1 32b的效果。

浏览过的版块