同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读

2022年06月30日17:37:21 科学 1460

机器之心发布

作者:陈涵晟(同济大学研究生、阿里达摩院研究型实习生)

距离 CVPR 2022 各大奖项公布没多久,来自同济大学研究生、阿里达摩院研究型实习生陈涵晟为我们解读最佳学生论文奖。

本文解读我们获得 CVPR 2022 最佳学生论文奖的工作《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》。论文研究的问题是基于单张图像估计物体在 3D 空间中的位姿。

现有方法中,基于 PnP 几何优化的位姿估计方法往往通过深度网络提取 2D-3D 关联点,然而因为位姿最优解在反向传播时存在不可导的问题,难以实现以位姿误差作为损失对网络进行稳定的端到端训练,此时 2D-3D 关联点依赖其他代理损失的监督,这对于位姿估计而言不是最佳的训练目标。为解决这一问题,我们从理论出发,提出了 EPro-PnP 模块,其输出位姿的概率密度分布而非单一的位姿最优解,从而将不可导的最优位姿替换为了可导的概率密度,实现了稳定的端到端训练。EPro-PnP 通用性强,适用于各类具体任务和数据,可以用于改进现有的基于 PnP 的位姿估计方法,也可以借助其灵活性训练全新的网络。从更一般的意义来说,EPro-PnP 本质是将常见的分类 softmax 带入到了连续域,理论上可以推广至训练一般的嵌套了优化层的模型。

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻


  • 论文链接:https://arxiv.org/abs/2203.13254
  • 代码链接:https://github.com/tjiiv-cprg/EPro-PnP

一、前言

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

我们研究的是 3D 视觉中的一个经典问题:基于单张 RGB 图像定位其中的 3D 物体。具体而言,给定一张含有 3D 物体投影的图像,我们的目标是确定物体坐标系到相机坐标系的刚体变换。这一刚体变换被称为物体的位姿,记作 y,其包含两部分:1)位置(position)分量,可用 3x1 的位移向量 t 表示,2)朝向(orientation)分量,可用 3x3 的旋转矩阵 R 表示。

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

针对这一问题,现有方法可以分为显式和隐式两大类。显式方法也可称作直接位姿预测,即使用前馈神经网络(FFN)直接输出物体位姿的各个分量,通常是:1)预测物体的深度,2)找出物体中心点在图像上的 2D 投影位置,3)预测物体的朝向(朝向的具体处理方法可能比较复杂)。利用标有物体真实位姿的图像数据,可以设计损失函数直接监督位姿预测结果,轻松地实现网络的端到端训练。然而,这样的网络缺乏可解释性,在规模较小的数据集上易于过拟合。在 3D 目标检测任务中,显式方法占据主流,尤其是对于规模较大的数据集(例如 nuScenes)。

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

隐式方法则是基于几何优化的位姿估计方法,最典型的代表是基于 PnP 的位姿估计方法。这类方法中,首先需要在图像坐标系中找出 N 个 2D 点(第 i 点 2D 坐标记作

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

),同时在物体坐标系中找出与之相关联的 N 个 3D 点(第 i 点 3D 坐标记作

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

),有时还需要获取各对点的关联权重(第 i 对点的关联权重记作

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

)。根据透视投影约束,这 N 对 2D-3D 加权关联点隐式地定义了物体的最优位姿。具体而言,我们可以找出使重投影误差最小的物体位姿

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻


同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻


其中

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

,表示加权重投影误差,是位姿的

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

函数。

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

表示含有内参的相机投影函数,

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

表示元素乘积。PnP 方法常见于物体几何形状已知的 6 自由度位姿估计任务中


同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻


基于 PnP 的方法也需要前馈网络去预测 2D-3D 关联点集

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

。相比于直接位姿预测,这一深度学习结合传统几何视觉算法的模型有非常好的可解释性,其泛化性能较为稳定,但在以往的工作中模型的训练方法存在缺陷。很多方法通过构建代理损失函数,去监督 X 这一中间结果,这对于位姿而言不是最优的目标。例如,已知物体形状的前提下,可以预先选取出物体的 3D 关键点,然后训练网络去找出对应的 2D 投影点位置。这也意味着代理损失只能学习 X 中的部分变量,因此不够灵活。如果我们不知道训练集中物体的形状,需要从零开始学习 X 中的全部内容该怎么办?

显示和隐式方法的优势互补,如果能够通过监督 PnP 输出的位姿结果,端到端地训练网络去学习关联点集 X ,则可以将二者优势结合。为实现这一目标,一些近期研究利用隐函数求导实现了 PnP 层的反向传播。然而,PnP 中的 argmin 函数在某些点是不连续不可导的,使得反向传播并不稳定,直接训练难以收敛。

二、EPro-PnP 方法介绍

1、EPro-PnP 模块

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

为了实现稳定的端到端训练,我们提出了端到端概率 PnP(end-to-end probabilistic PnP),即 EPro-PnP。其基本思想是将隐式位姿视作一个概率分布,则其概率密度

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

对于 X 是可导的。首先基于重投影误差定义位姿的似然函数:

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

若使用无信息先验,则位姿的后验概率密度为似然函数的归一化结果:


同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

可以注意到,以上公式与常用的分类 softmax 公式

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

分接近,其实 EPro-PnP 的本质就是将softmax从离散阈搬到了连续阈,把求和

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

换成了积分

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

2、KL 散度损失

在训练模型的过程中,已知物体真实位姿

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

,则可以定义目标位姿分布

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

。此时可以计算 KL 散度

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

作为训练网络所用的损失函数(因

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

固定,也可以理解为交叉熵损失函数)。在目标

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

趋近于 Dirac 函数的情况下,基于 KL 散度的损失函数可以简化为以下形式:


同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

如对其求导则有:

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻


可见,该损失函数由两项构成,第一项(记作

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

)试图降低位姿真值

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

的重投影误差,第二项(记作

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

)试图增大预测位姿

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

各处的重投影误差。二者方向相反,效果如下图(左)所示。作为类比,右边就是我们在训练分类网络时常用的分类交叉熵损失。

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

3、蒙特卡洛位姿损失

需要注意到,KL 损失中的第二项

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

中含有积分,这一积分没有解析解,因此必须通过数值方法进行近似。综合考虑通用性,精确度和计算效率,我们采用蒙特卡洛方法,通过采样来模拟位姿分布。

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

具体而言,我们采用了一种重要性采样算法——Adaptive Multiple Importance Sampling(AMIS),计算出K个带有权重

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

的位姿样本

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

,我们将这一过程称作蒙特卡洛 PnP:

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

据此,第二项

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

可以近似为关于权重

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

的函数,且

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

可以反向传播:


同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻


位姿采样的可视化效果如下图所示:

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻


4、针对 PnP 求解器的导数正则化

尽管蒙特卡洛 PnP 损失可以用于训练网络得到高质量的位姿分布,但在推理阶段,还是需要通过 PnP 优化求解器来得到最优位姿解

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

。常用的高斯 - 牛顿及其衍生算法通过迭代优化求解

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

,其迭代增量是由代价函数

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

的一阶和二阶导数决定的。为使 PnP 的解

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

更接近真值

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

,可以对代价函数的导数进行正则化。设计正则化损失函数如下:


同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻


其中,

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

为高斯 - 牛顿迭代增量,与代价函数的一阶和二阶导数有关,且可以反向传播,

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

表示距离度量,对于位置使用 smooth L1,对于朝向使用 cosine similarity。在

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

不一致时,该损失函数促使迭代增量

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

指向实际真值。

三、基于 EPro-PnP 的位姿估计网络

我们在 6 自由度位姿估计和 3D 目标检测两个子任务上分别使用了不同的网络。其中,对于 6 自由度位姿估计,在 ICCV 2019 的 CDPN 网络的基础上稍加修改并用 EPro-PnP 训练,用来进行 ablation studies;对于 3D 目标检测,在 ICCVW 2021 的 FCOS3D 基础上设计了全新的变形关联(deformable correspondence)检测头,以证明 EPro-PnP 可以训练网络在没有物体形状知识的情况下直接学出所有 2D-3D 点和关联权重,从而展现 EPro-PnP 在应用方面的灵活性。

1、用于 6 自由度位姿估计的稠密关联网络

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

网络结构如上图所示,只是在原版 CDPN 的基础上修改了输出层。原版 CDPN 使用已经检测到的物体 2D 框裁剪出区域图像,输入到 ResNet34 backbone 中。原版 CDPN 将位置与朝向解耦为两个分支,位置分支使用直接预测的显式方法,而朝向分支使用稠密关联和 PnP 的隐式方法。为了研究 EPro-PnP,改动后的网络只保留了稠密关联分支,其输出为 3 通道的 3D 坐标图,以及 2 通道关联权重,其中关联权重经过了 spatial softmax 和 global weight scaling。增加 spatial softmax 目的是对权重

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

进行归一化,使其具有类似 attention map 的性质,可以关注相对重要的区域,实验证明权重归一化也是稳定收敛的关键。Global weight scaling 反映了位姿分布

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

的集中程度。该网络仅需 EPro-PnP 的蒙特卡洛位姿损失就可以训练,此外可以增加导数正则化,以及在物体形状已知的情况下增加额外的 3D 坐标回归损失。


2、用于 3D 目标检测的变形关联网络


同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻


网络结构如上图所示。总体而言是基于 FCOS3D 检测器,参考 deformable DETR 设计的网络结构。在 FCOS3D 的基础上,保留其 centerness 和 classification 层,而将其原有的位姿预测层替换为 object embedding 和 reference point 层,用于生成 object query。参考 deformable DETR,我们通过预测相对于 reference point 的偏移量得到 2D 采样位置(也就得到了

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

)。采样后的 feature 经由 attention 操作聚合为 object feature,用于预测物体级别的结果(3D score,weight scale,3D box size 等)。此外,采样后各点的 feature 在加入 object embedding 并经由 self attention 处理后输出各点所对应的的 3D 坐标

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

和关联权重

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

。所预测的

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

全部可由 EPro-PnP 的蒙特卡洛位姿损失训练得到,不需要额外正则化就可以收敛并有较高的精度。在此基础上,可以增加导数正则化损失和辅助损失进一步提升精度。

四、实验结果

1、6 自由度位姿估计任务

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

使用 LineMOD 数据集实验,并严格与 CDPN baseline 进行比对,主要结果如上。可见,增加 EPro-PnP 损失进行端到端训练,精度显著提升(+12.70)。继续增加导数正则化损失,精度进一步提升。在此基础上,使用原版 CDPN 的训练结果初始化并增加 epoch(保持总 epoch 数与原版 CDPN 的完整三阶段训练一致)可以使精度进一步提升,其中预训练 CDPN 的优势部分来源于 CDPN 训练时有额外的 mask 监督。

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

上图是 EPro-PnP 与各种领先方法的比较。由较落后的 CDPN 改进而来的 EPro-PnP 在精度上接近 SOTA,并且 EPro-PnP 的架构简洁,完全基于 PnP 进行位姿估计,不需要额外进行显式深度估计或位姿精修,因此在效率上也有优势。

2、3D 目标检测任务

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

使用 nuScenes 数据集实验,与其他方法对比结果如上图所示。EPro-PnP 不仅相对 FCOS3D 有了明显提升,还超越了当时的 SOTA、FCOS3D 的另一个改进版本 PGD。更重要的是,EPro-PnP 目前是唯一在 nuScenes 数据集上使用几何优化方法估计位姿的。因 nuScenes 数据集规模较大,端到端训练的直接位姿估计网络已具有较好性能,而我们的结果说明了端到端地训练基于几何优化的模型能做到在大数据集上取得更加优异的性能。

3、可视化分析

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

上图显示了用 EPro-PnP 训练的稠密关联网络的预测结果。其中,关联权重图

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

对图像中的重要区域进行了高光,类似于 attention 机制。由损失函数分析可知,高光区域对应的是重投影不确定性较低以及对位姿变动较为敏感的区域。

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

3D 目标检测的结果如上图所示。其中左上视图显示了变形关联网络采样出的 2D 点位置,红色表示

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

水平 X 分量较高的带你,绿色表示

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

垂直 Y 分量较高的点。绿色点一般位于物体上下两端,其主要作用是通过物体高度来推算物体的距离,这一特性并非人为指定,完全是自由训练的结果。右图显示了俯视图上的检测结果,其中蓝色云图表示物体中心点位置的分布密度,反映了物体定位的不确定性。一般远处的物体定位不确定性大于近处的物体。

同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读 - 天天要闻

EPro-PnP 的另一重要优势在于,能够通过预测复杂的多峰分布来表示朝向的模糊性。如上图所示,Barrier 由于物体本身旋转对称,朝向经常出现相差 180° 的两个峰值;Cone 本身没有特定的朝向,因此预测结果在各个方向均有分布;Pedestrian 虽不完全旋转对称,但因图像不清晰,不易判断正面和背面,有时也会出现两个峰值。这一概率特性使得 EPro-PnP 对于对称物体不需要在损失函数上做任何特殊处理。

五、总结

EPro-PnP 将原本不可导的最优位姿转变为可导的位姿概率密度,使得基于 PnP 几何优化的位姿估计网络可实现稳定且灵活的端到端训练。EPro-PnP 可应用于一般的 3D 物体位姿估计问题,即使在未知 3D 物体几何形状的情况下,也可以通过端到端训练学习得到物体的 2D-3D 关联点。因此,EPro-PnP 拓宽了网络设计的可能性,例如我们提出的变形关联网络,这在以往是不可能训练的。此外,EPro-PnP 也可以直接被用于改进现有的基于 PnP 的位姿估计方法,通过端到端训练释放现有网络的潜力,提升位姿估计精度。从更一般的意义来说,EPro-PnP 本质是将常见的分类 softmax 带入到了连续域,不仅可用于其他基于几何优化的 3D 视觉问题,理论上还可以推广至训练一般的嵌套了优化层的模型。

科学分类资讯推荐

雄安安全应急创新技术应用大赛作品与多地资源“无缝对接” - 天天要闻

雄安安全应急创新技术应用大赛作品与多地资源“无缝对接”

雄安安全应急创新技术应用大赛作品与多地资源“无缝对接”赛场内外,科技创新项目很抢手航拍的雄安未来之城场景汇科创园。(河北日报资料片)“我们的设备能使受灾者在第一时间得到有效的健康评估。公司落地后需要一个500平方米左右的展示区。
西安建大新型高压辊式立磨技术落地包头 将打造百万吨级工业固废资源化示范工程 - 天天要闻

西安建大新型高压辊式立磨技术落地包头 将打造百万吨级工业固废资源化示范工程

7月2日,西安建筑科技大学与内蒙古波普和丰环保有限公司在西安签署EPC总承包合同,标志着国内首条采用“新型高压辊式立磨及其智能化技术与装备”的工业固废资源化生产线正式落地内蒙古包头。该项目合同额达1.0898亿元,建成后年消纳工业废渣120万吨,年产低碳胶凝材料120万吨,将成为我国大宗固废综合利用领域的重要示范工...
Nature重磅:首次从木乃伊中提取完整人类基因组序列 - 天天要闻

Nature重磅:首次从木乃伊中提取完整人类基因组序列

撰文丨王聪编辑丨王多鱼排版丨水成文古埃及文明曾繁荣了数千年,在其鼎盛时期,古埃及建造了众多叹为观止的金字塔,此外,他们还曾流行制作木乃伊,其中,许多数千年前的木乃伊保存至今,科学家们一直希望从中提取古 DNA。然而,木乃伊的制作过程以及炎热的气候条件加速了 DNA 分解,导致其中的 DNA 保存状况不佳。直到 19...
一个月内两次被掩,这颗恒星为啥频繁“躲猫猫”? - 天天要闻

一个月内两次被掩,这颗恒星为啥频繁“躲猫猫”?

7月4日、31日,夜空将上演两次月球遮掩室女座最亮恒星——角宿一的奇妙天象。南半球部分区域的公众将有机会看见这一天象,其他地区的公众可以看到月亮与角宿一近距离相伴的景象。月掩角宿一指的是什么?为啥一个月内会两次发生月掩角宿一?天文科普专家为
新国标落地 女性健康被阳光照见丨中听 - 天天要闻

新国标落地 女性健康被阳光照见丨中听

评论员 王晓娜7月1日,一项关乎所有女性(和部分男性)日常生活的强制性国标正式落地!《一次性使用卫生用品卫生要求》不仅把卫生巾、护垫、成人纸尿裤等产品划进“重点监管区”,还新增了pH值、荧光剂检测等硬核指标。简单来说,以后厂家再想用“毒卫生
生态头条 | 四川贡嘎山国家级自然保护区发现物种新记录 - 天天要闻

生态头条 | 四川贡嘎山国家级自然保护区发现物种新记录

记者7月2日从四川贡嘎山国家级自然保护区管理局获悉,该局与中国科学院植物研究所联合组织的贡嘎山植物多样性综合科学考察活动顺利收官。科考团队在此次野外调查中,发现大量国家重点保护物种及珍稀濒危植物,也收获了多项物种新记录,为保护区生态保护与科
用TEM您能看到什么? - 天天要闻

用TEM您能看到什么?

透射电子显微镜(Transmission Electron Microscope, TEM)是一种功能强大的分析工具,利用高能电子束穿透超薄样品,通过收集透射电子和相互作用产生的信号,能获得极其丰富的信息,分辨率可达原子级别(亚埃级)。