找回密码
 加入我们
搜索
      
查看: 14990|回复: 69

[显卡] 5090D用ollama跑deepseek r1 32b的效果。

[复制链接]
发表于 2025-2-7 11:17 | 显示全部楼层 |阅读模式
本帖最后由 lh4357 于 2025-2-16 12:02 编辑

更新了一下软件,功耗能跑满了。

101.png

102.png

-----------------------------------------------


2121.jpg

jlwfwfw.jpg

nf3jhfw.jpg



这个tokens/s也不知道是啥水平。

发表于 2025-2-7 11:28 | 显示全部楼层
问题太简单,建议换个问题
发表于 2025-2-7 11:31 | 显示全部楼层
m4max 32B-4bit mlx:
24.48 tok/sec • 300 tokens • 0.50s to first token

如果context 长的情况下N卡应该会优势很大
发表于 2025-2-7 11:31 | 显示全部楼层
30t/s用4090也能跑出来吧
ollama跑的是q几的模型?
发表于 2025-2-7 11:32 | 显示全部楼层
缩水版的 都是弱智,有啥用?
发表于 2025-2-7 11:39 | 显示全部楼层
7900xtx 不超频,默认有 27 token/s
 楼主| 发表于 2025-2-7 11:40 | 显示全部楼层
Oxyer 发表于 2025-2-7 11:28
问题太简单,建议换个问题

反正问了好几个问题都是30-40之间,然后功耗只有不到350W。
 楼主| 发表于 2025-2-7 11:41 | 显示全部楼层
manwomans 发表于 2025-2-7 11:31
30t/s用4090也能跑出来吧
ollama跑的是q几的模型?

直接运行的应该是q4?
发表于 2025-2-7 11:45 | 显示全部楼层
跑32B的话,2080ti 22g  大概20tokens ,对比下来5090D会稍微快一点,但是说实话有个20基本上不影响使用了,但如果是个位数的tokens就比较难受。
如果是跑70B的话,2080ti 和5090D 反正两个显存都跑不动;双卡2080ti 22g 跑70B 只有3tokens,

结论就是拿来跑模型其实性价比不高,要不加钱上4090 的魔改48G,要不减钱换个便宜的,5090D游戏卡还是专心打游戏。
实测地址
发表于 2025-2-7 11:47 | 显示全部楼层
并发数 = 1 跑不满的,试试用 llama.cpp 跑大batchsize
发表于 2025-2-7 11:48 | 显示全部楼层
试试 70B Q4 量化的速度?系统内存是多大?
发表于 2025-2-7 12:04 来自手机 | 显示全部楼层
下面那个测试速度的数据怎么调出来
发表于 2025-2-7 12:08 | 显示全部楼层
lh4357 发表于 2025-2-7 11:40
反正问了好几个问题都是30-40之间,然后功耗只有不到350W。

题目太简单,测不出来,我给你出一道:

  1. 如果用标准滤波器来模拟声笼和声障现象 给我一组数据,表示遮挡面积从0%到100%的声音Low pass和High pass对应的频率,每10%遮挡面积给出一个频率值。
复制代码
 楼主| 发表于 2025-2-7 12:10 | 显示全部楼层
psps3 发表于 2025-2-7 12:04
下面那个测试速度的数据怎么调出来

运行的时候加个--verbose参数。
 楼主| 发表于 2025-2-7 12:13 | 显示全部楼层
pdvc 发表于 2025-2-7 12:08
题目太简单,测不出来,我给你出一道:

total duration:       1m23.9839825s
load duration:        13.0599ms
prompt eval count:    56 token(s)
prompt eval duration: 39.825ms
prompt eval rate:     1406.15 tokens/s
eval count:           2608 token(s)
eval duration:        1m23.930021s
eval rate:            31.07 tokens/s
发表于 2025-2-7 12:51 | 显示全部楼层
感觉32B比起全量的671B 还是个小玩具的水平......
自己本地拿来干一些偏隐私的“调教”还不错,复杂的场景还是webchat吧
发表于 2025-2-7 12:59 | 显示全部楼层
KimmyGLM 发表于 2025-2-7 12:51
感觉32B比起全量的671B 还是个小玩具的水平......
自己本地拿来干一些偏隐私的“调教”还不错,复杂的场景 ...


已经有人调教出了deepse/x
发表于 2025-2-7 13:01 | 显示全部楼层
pdvc 发表于 2025-2-7 12:59
已经有人调教出了deepse/x

果然那什么才是生产力......
发表于 2025-2-7 13:18 | 显示全部楼层
本帖最后由 Technik 于 2025-2-8 13:38 编辑
lh4357 发表于 2025-2-7 12:13
total duration:       1m23.9839825s
load duration:        13.0599ms
prompt eval count:    56 token ...


4090D
total duration:       37.2562216s
load duration:        20.0582ms
prompt eval count:    56 token(s)
prompt eval duration: 303ms
prompt eval rate:     184.82 tokens/s
eval count:           1376 token(s)
eval duration:        36.916s
eval rate:            37.27 tokens/s
发表于 2025-2-7 13:21 | 显示全部楼层
Technik 发表于 2025-2-7 13:18
4090D
total duration:       37.2562216s
load duration:        20.0582ms

这么看,4090 4090d 5090d完全拉不开差距
发表于 2025-2-7 13:28 | 显示全部楼层
现在ollama后端(llama.cpp => ggml => cuda)应该还不支持fp4加速,fp8跟4090差不多。

第二列是4090,第三列是5090:
截屏2025-02-07 13.26.30.png
发表于 2025-2-7 13:48 | 显示全部楼层
chip_discovery 发表于 2025-2-7 11:45
跑32B的话,2080ti 22g  大概20tokens ,对比下来5090D会稍微快一点,但是说实话有个20基本上不影响使用了 ...

70B只有3t/s?这肯定有部分进内存了

发表于 2025-2-7 14:38 | 显示全部楼层
uprit 发表于 2025-2-7 13:48
70B只有3t/s?这肯定有部分进内存了

不是我测的,我只有一张2080ti 22g, 没法验证,只是搬运一些B站别人的数据,单卡2080ti 20tokens 左右这个我确实测出来了。
 楼主| 发表于 2025-2-7 14:59 | 显示全部楼层
Technik 发表于 2025-2-7 13:18
4090D
total duration:       37.2562216s
load duration:        20.0582ms

是同一个问题?
发表于 2025-2-7 15:07 | 显示全部楼层
lh4357 发表于 2025-2-7 14:59
是同一个问题?

高通低通那个
发表于 2025-2-7 16:21 | 显示全部楼层
chip_discovery 发表于 2025-2-7 14:38
不是我测的,我只有一张2080ti 22g, 没法验证,只是搬运一些B站别人的数据,单卡2080ti 20tokens 左右这 ...

进内存了。2080ti22g*2正常是10token/s
发表于 2025-2-7 16:56 | 显示全部楼层
lh4357 发表于 2025-2-7 14:59
是同一个问题?

7900xtx
total duration:       49.4484531s
load duration:        37.3087ms
prompt eval count:    1852 token(s)
prompt eval duration: 2.371s
prompt eval rate:     781.11 tokens/s
eval count:           1128 token(s)
eval duration:        47.005s
eval rate:            24.00 tokens/s
发表于 2025-2-7 17:01 | 显示全部楼层
7b相比于14b会有速度或者智力的区别吗,只下了个7b的,问硬件问题都说错了,而且问两次结果差距很大
发表于 2025-2-7 18:22 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-2-7 05:28
现在ollama后端(llama.cpp => ggml => cuda)应该还不支持fp4加速,fp8跟4090差不多。

第二列是4090,第 ...

ollama拉的很 kv cache12月底才合并 flash attention仅限于有tensor core的卡 gqa都还没有
发表于 2025-2-7 19:19 | 显示全部楼层
YsHaNg 发表于 2025-2-7 18:22
ollama拉的很 kv cache12月底才合并 flash attention仅限于有tensor core的卡 gqa都还没有 ...

但它是docker,我喜欢。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-21 23:21 , Processed in 0.014558 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表