现在衡量显卡的负载是否要分成和cuda core和tensor core两部分来看待更加合理?
随着老黄越来越推各种ai功能,tensor core的压力越来越大。现在衡量显卡的负载是否要分成和cuda core和tensor core两部分来看待更加合理?对于常规的基准测试tensor core几乎闲置的,显卡并没有真的完全吃满,导致出现了超频后压力测试能过,实际游戏却崩了的情况。不过我还没发现观察tensor core负载情况的工具。 Tensor core 一般要专门编译,比如在AI绘画模型Stablediffusion或者Flux模型的优化上需要主动编译Tensor RT来加速,否则Tensor基本不会动 喜欢整天研究GPU哪里瓶颈的去下个nsight看看负载占用比吹水更能了解GPU,实际跟你想的都不一样
https://developer.nvidia.com/nsight-graphics 最简单的tensor稳定性测试,跑RIFE的TRT版,4K补帧[偷笑]
页:
[1]