找回密码
 加入我们
搜索
      
查看: 4925|回复: 13

[显卡] 新显卡,GPU利用率高,功耗低,实际算力远小于标注的算力

[复制链接]
发表于 2023-12-11 20:31 | 显示全部楼层 |阅读模式
本帖最后由 fordatou 于 2023-12-11 20:35 编辑

买的是RTX6000ada,根据测评,吞吐量应该和4090接近,然而我跟云服务器4090对比,速度却基本是4090的一半...

这是什么原因呢?

1.jpg

1.jpg

2.jpg

2.jpg
发表于 2023-12-11 20:52 | 显示全部楼层
我看你这CUDA占用,一上一下这个样子
你是dtype没写对吗,还是说数据没对好
在Windows跑4090不会有这个现象吗
 楼主| 发表于 2023-12-11 21:23 | 显示全部楼层
YoshinoSakura 发表于 2023-12-11 20:52
我看你这CUDA占用,一上一下这个样子
你是dtype没写对吗,还是说数据没对好
在Windows跑4090不会有这个现象 ...

在云平台的4090运行GPU利用率也是这样,不过速度还是挺快的啊....
发表于 2023-12-11 21:52 | 显示全部楼层
楼主的ada多少钱
发表于 2023-12-11 22:42 | 显示全部楼层
fordatou 发表于 2023-12-11 21:23
在云平台的4090运行GPU利用率也是这样,不过速度还是挺快的啊....

云平台确定是Windows是吧
我上面问的时候特意问
在Windows跑4090会不会有这个现象
不该啊,为啥呢
 楼主| 发表于 2023-12-11 23:01 | 显示全部楼层
云平台是Ubuntu,我拿Ubuntu和WIN10都测试了,然而都这样
 楼主| 发表于 2023-12-11 23:02 | 显示全部楼层
碌木 发表于 2023-12-11 21:52
楼主的ada多少钱

不到6W,同学帮忙带的
发表于 2023-12-12 13:24 | 显示全部楼层
你把代码发上来看看。
发表于 2023-12-12 13:37 | 显示全部楼层
本帖最后由 我輩樹である 于 2023-12-12 13:39 编辑

要计算GPU的性能,需要排除掉pcie switch和host device sync的过程,最佳的方式是直接在显存内生成矩阵,然后算矩阵乘法。
chat给的代码。

  1. import torch
  2. import time

  3. # 确保 CUDA 可用
  4. if not torch.cuda.is_available():
  5.     raise SystemError("CUDA is not available. Tensor Cores require a CUDA-enabled GPU.")

  6. # 选择 CUDA 设备
  7. device = torch.device("cuda")

  8. # 显存中创建大型随机矩阵
  9. size = 4096  # 你可以调整这个大小
  10. # cuda core
  11. # a = torch.randn(size, size, device=device)
  12. # b = torch.randn(size, size, device=device)

  13. # tensor core
  14. a = torch.randn(size, size, device=device).half()
  15. b = torch.randn(size, size, device=device).half()

  16. # 热身 GPU
  17. for _ in range(10):
  18.     c = torch.matmul(a, b)

  19. # 开始计时
  20. start = time.time()

  21. for _ in range(5000):
  22.     # 执行矩阵乘法
  23.     c = torch.matmul(a, b)

  24. # 结束计时
  25. elapsed_time = time.time() - start

  26. print(f"Time taken for matrix multiplication: {elapsed_time} seconds")
复制代码
 楼主| 发表于 2023-12-12 15:36 | 显示全部楼层
我輩樹である 发表于 2023-12-12 13:37
要计算GPU的性能,需要排除掉pcie switch和host device sync的过程,最佳的方式是直接在显存内生成矩阵,然 ...

thanks,我试试
 楼主| 发表于 2023-12-12 15:41 | 显示全部楼层
我輩樹である 发表于 2023-12-12 13:37
要计算GPU的性能,需要排除掉pcie switch和host device sync的过程,最佳的方式是直接在显存内生成矩阵,然 ...

我测试了,依旧差了很多
发表于 2023-12-12 15:46 | 显示全部楼层
fordatou 发表于 2023-12-12 15:41
我测试了,依旧差了很多

写个简短的测试发出来看看?
发表于 2023-12-12 15:50 | 显示全部楼层
本帖最后由 我輩樹である 于 2023-12-12 15:54 编辑

rtx6000ada跑的时候只有不到100w,我给的那段代码是可以跑满显卡功耗的。显卡屁股上的那个eps8pin接的是cpu的供电还是转接的?

开一下持久模式试试:
sudo nvidia-smi -pm 1
发表于 2023-12-12 15:53 | 显示全部楼层
我感觉像是功耗限制问题?

可以跑CUDA自带的测试
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-11-13 14:01 , Processed in 0.011233 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表