找回密码
 加入我们
搜索
      
查看: 13197|回复: 32

[显卡] dlss3光流估计的paper找到了

[复制链接]
发表于 2022-9-24 12:23 | 显示全部楼层 |阅读模式
本帖最后由 我輩樹である 于 2022-9-24 14:16 编辑

https://drinkingcoder.github.io/publication/flowformer/

发表于ECCV2022。B站推送给我的 ,当然只是推测。

光流估计是很经典的任务,也有很经典的算法,始于上世纪88年。

但这次nv结合了transformer这个明星注意力模型,所以这也是为什么ada lovelace也有(adaptive)transformer engine的原因吧。

另外,其他光流估计算法的排名:

https://paperswithcode.com/task/optical-flow-estimation

第二名的GMA,也是性能比较好(且同时需要矩阵加速的)。

nvidia的线上会议也有讲这个的部分(6分30秒开始):

https://register.nvidia.cn/flow/ ... 6560928238830016cx4

-----------------------------------------------------------

关于光流估计是否40独占,nv的回应:

Building upon DLSS Super Resolution, DLSS 3 adds Frame Generation to create entirely new frames, and integrates NVIDIA Reflex low latency technology for optimal responsiveness.

DLSS Frame Generation is supported on GeForce RTX 40 Series GPUs. The AI network uses the RTX 40 Series high-speed Optical Flow Accelerator to calculate the motion flow to input into the AI network, then executes the network on 4th Generation Tensor Cores.

评分

参与人数 1邪恶指数 +10 收起 理由
醉酒棕熊 + 10

查看全部评分

发表于 2022-9-24 12:27 来自手机 | 显示全部楼层
膜拜大佬
发表于 2022-9-24 12:27 | 显示全部楼层
能详细的科普(扫盲)一下吗?谢谢了。
 楼主| 发表于 2022-9-24 12:34 | 显示全部楼层
本帖最后由 我輩樹である 于 2022-9-24 12:46 编辑
dyr 发表于 2022-9-24 12:27
能详细的科普(扫盲)一下吗?谢谢了。


https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/126672383

可以看看别人的解读。如果不是这方面的专业,很难通过科普说明白。

我唯一能说的就是,transformer是这几年的热门模型。做序列预测的时候,一个确定的事实是:参考的上下文越多性能越好(例如我们人类的大脑就有极强的上下文理解能力),同时,对计算能力的消耗也就越高,那么transformer就是一种可以解决这个权衡的模型之一。

当然了,这个论文里面的flowformer还有很多其他的创新,不可忽视。
发表于 2022-9-24 13:39 | 显示全部楼层
本帖最后由 evangelion_air 于 2022-9-24 13:41 编辑

还没看论文

单纯从DLSS3.0宣传页面内容的描述情况来看,光流法只是用在不存在运动向量的部分,例如影子这部分的分辨率提升
让DLSS3.0帧数大幅提升的主要原因应当不是单纯加入光流法实现的,光流法更像是解决错误超分辨率的计算

同时公开信息表示的渲染1/8重建7/8的表述,DLSS3.0实际上是“凭空”造了一帧出来,我觉得这个才是大幅提升帧数的主要原因
发表于 2022-9-24 13:42 | 显示全部楼层
20 30 也有光流计算单元
 楼主| 发表于 2022-9-24 13:44 | 显示全部楼层
本帖最后由 我輩樹である 于 2022-9-24 13:54 编辑
PolyMorph 发表于 2022-9-24 13:42
20 30 也有光流计算单元


不是光流加速器。这个应该是要么集成在tensor core内部,要么是tensor core的附件,共享tensor core的缓存。

之前的光流单元也进化了三代了,主要还是处理内容创造领域的离线资源。速度不用很快,规模不用很大,延迟也完全不用考虑。现在是处理内容消费端的在线资源了。
发表于 2022-9-24 13:44 | 显示全部楼层
PolyMorph 发表于 2022-9-24 13:42
20 30 也有光流计算单元

但30系的只有40%性能。
发表于 2022-9-24 13:45 | 显示全部楼层
也就是说用上了发布会上说的"Hopper FP8 xxxxxx"?
发表于 2022-9-24 13:53 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2022-9-24 13:53 | 显示全部楼层
埃律西昂 发表于 2022-9-24 13:45
也就是说用上了发布会上说的"Hopper FP8 xxxxxx"?

是啊,hopper下放的。
 楼主| 发表于 2022-9-24 13:54 | 显示全部楼层
psps3 发表于 2022-9-24 13:53
比较好奇,这个以后能给电影插帧么

理论上肯定可以。
 楼主| 发表于 2022-9-24 14:00 | 显示全部楼层
本帖最后由 我輩樹である 于 2022-9-24 14:46 编辑
evangelion_air 发表于 2022-9-24 13:39
还没看论文

单纯从DLSS3.0宣传页面内容的描述情况来看,光流法只是用在不存在运动向量的部分,例如影子这 ...


不是超分,就是生成新的帧数,输入就是4K。

当然了,它只是提供一个像素运动向量的矩阵,并不能直接生成帧数。

可以看这个:
https://developer.nvidia.com/blo ... d-rtx-path-tracing/

现在dlss2.0开始,它的超分流程也是应用时域数据的预测了,和光流估计利用序列数据上的解决思路上是类似的。

线上会议说的蛮清楚的,超分在进入光流加速器前就结束了,它只用于生成新帧:

1.png

重建帧之前,motion vector和optical flow field做了个加权。解决了鬼影问题。

2.png
发表于 2022-9-24 14:34 | 显示全部楼层
不懂,举个例子,是不是类似 某个点的运动轨迹,在第一帧处于点1,第二帧处于点3,显卡通过点1点3的位置计算出点2的位置,把点2插到第一帧和第二帧之间?
 楼主| 发表于 2022-9-24 14:36 | 显示全部楼层
lmbh 发表于 2022-9-24 14:34
不懂,举个例子,是不是类似 某个点的运动轨迹,在第一帧处于点1,第二帧处于点3,显卡通过点1点3的位置计 ...

离线资源(比如视频)是这么插的,T-1,T+1预测T。

在线(比如游戏)就是T-2,T-1,预测T。

3.png
发表于 2022-9-24 15:03 | 显示全部楼层
我輩樹である 发表于 2022-9-24 14:00
不是超分,就是生成新的帧数,输入就是4K。

当然了,它只是提供一个像素运动向量的矩阵,并不能直接生成 ...

据我所知光流法只能保证像素在时域上的连续性,在空间上是无法保证的,比较直观的一点就是对于发生运动的场景必然出现视差问题,导致后续帧画面出现先前帧不存在的物体,此时光流法就直接寄了,不知道DLSS3.0靠光流插帧的做法效果会怎么样,还是说对于游戏画面这种artificial的场景,内容是可以靠深度学习正确(近似)补偿出来的,然而关于结合深度学习的光流法插帧,这部分在线上会议貌似没有明确说明原理,估计是你发的论文里有相关线索了
发表于 2022-9-24 15:13 | 显示全部楼层
感觉GTC 2020讲DLSS2.0原理的部分就很不错,虽然也是很简化没说详细细节,但是比这次说DLSS3.0的实现过程要详细多了

当时的会议是国人刘诗秋做的报告,还有知乎账号的加成,感觉理解起来比看paper快多了(
 楼主| 发表于 2022-9-24 15:13 | 显示全部楼层
本帖最后由 我輩樹である 于 2022-9-24 15:16 编辑
evangelion_air 发表于 2022-9-24 15:03
据我所知光流法只能保证像素在时域上的连续性,在空间上是无法保证的,比较直观的一点就是对于发生运动的 ...


从演讲上看,其实还是在原来dlss的运动矩阵上加权,权重应该是来自于不同管线阶段,比如rt core的部分会在光流场矩阵上有更高的权重,其他部分则是motion vector的权重更高。

其实就像你说的,修正了motion vector的错误。

另外现在的光流估计都是结合深度学习技术,你说的视差问题,不知道是不是指的传统光流法。

当然了只要是向量估计,肯定会有视差问题,就是控制到什么程度的能力了,这个世界是概率的。
发表于 2022-9-28 15:40 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2022-9-28 15:50 | 显示全部楼层
本帖最后由 风车车 于 2022-9-28 16:25 编辑

额,Jifeng组这个工作不就是把RAFT前面的correlation的点乘换成了attention,backbone用的还是Twins,后面decoder好像还是三层的GruConv



效果肯定好,毕竟参数是RAFT三倍,要是和RAFT-S比,十几倍的参数



我不认为在volume上搞attention算什么强contribution,3D learning领域用的不少,flow无非是估计per pixel的affine变换也就是2D变换,MVS也就是知道3D的变换卷出来depth,肯定是有contribution,但没有RAFT当年那么大。



这个工作,你让他基于这个去弄一个SLAM,就搞不出来。



Zhaoyang Huang是Xiaowei Zhou的学生来着我记得,他们组挺多人〇



结论:想发三大会就要〇
发表于 2022-9-28 16:09 | 显示全部楼层
风车车 发表于 2022-9-28 15:50
额,Jifeng组这个工作不就是把RAFT前面的correlation的点乘换成了attention,backbone用的还是Twins,后面d ...

传下去,风车车是〇
 楼主| 发表于 2022-9-28 16:11 来自手机 | 显示全部楼层
徐俊平 发表于 2022-9-28 15:40
Nv的回应:
在DLSS超级分辨率的基础上,DLSS 3增加了帧生成功能,以创建全新的帧,并集成了NVIDIA Reflex低 ...

nv reflex减的是光栅流程里面的延迟,40还有个硬件编排器,所以可能30和40也不一样。
 楼主| 发表于 2022-9-28 16:18 来自手机 | 显示全部楼层
风车车 发表于 2022-9-28 15:50
额,Jifeng组这个工作不就是把RAFT前面的correlation的点乘换成了attention,backbone用的还是Twins,后面d ...

不明觉厉。我觉得挺厉害的。现在大家都在换注意力模型,效果好能发顶会顶刊就行,要搞出attention级别的理论创新才算强贡献么?太苛刻。

transformer本来就是一个框架,只要你用了多头注意力,就可以叫xxformer。
发表于 2022-9-28 16:25 | 显示全部楼层
本帖最后由 风车车 于 2022-9-28 16:30 编辑

发错编辑了
发表于 2022-9-28 16:43 | 显示全部楼层
风车车 发表于 2022-9-28 07:50
额,Jifeng组这个工作不就是把RAFT前面的correlation的点乘换成了attention,backbone用的还是Twins,后面d ...

要这么说Conor组人更多 RAPIDS还更赚钱
发表于 2022-9-28 16:52 | 显示全部楼层
单看这个paper真没啥
主要还是工程上的contribution大
发表于 2022-10-18 10:33 | 显示全部楼层

理论上是不是以后要变成N卡插帧视频了。。。不过目前好像没人做这个插件
 楼主| 发表于 2022-10-18 10:37 | 显示全部楼层
本帖最后由 我輩樹である 于 2022-10-18 10:42 编辑
Illidan2004 发表于 2022-10-18 10:33
理论上是不是以后要变成N卡插帧视频了。。。不过目前好像没人做这个插件 ...


老黄的optical flow sdk自带了。svp pro可以选,就是不知道从30到40是不是无缝切换的。

查了下,马上要出了:
https://developer.nvidia.com/blo ... a-ada-architecture/

The NVIDIA Ada Lovelace Architecture has a new optical flow accelerator, NVOFA, that is 2.5x more performant than the NVIDIA Ampere Architecture NVOFA. It provides a 15% quality improvement on popular benchmarks including KITTI and MPI Sintel.

2.5倍性能,15%质量。
发表于 2022-10-18 10:42 | 显示全部楼层
我輩樹である 发表于 2022-10-18 10:37
老黄的optical flow sdk自带了。svp pro可以选,就是不知道从30到40是不是无缝切换的。

查了下,马上要 ...

那SVP以后能提高很多效率了? 不过就是SVP的玩意 的确是画面变化大的时候瑕疵很多  
AFM这种偏保守的做的很好  取舍非常纠结的  目前还是用了一张560插帧  但是毕竟占一个槽
 楼主| 发表于 2022-10-18 10:46 | 显示全部楼层
本帖最后由 我輩樹である 于 2022-10-18 10:52 编辑
Illidan2004 发表于 2022-10-18 10:42
那SVP以后能提高很多效率了? 不过就是SVP的玩意 的确是画面变化大的时候瑕疵很多  
AFM这种偏保守的做的 ...


画面变化大的时候谁都不好使吧,除了在论文里面。
https://twitter.com/omarsar0/status/1580922597566730240
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-9-22 23:37 , Processed in 0.014368 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表