bet9九州ts长远目标检测新范式!港大同济伯克利明确提出提出Sparse R-CNN,代码已开源

  • 时间:
  • 浏览:9

来源:新智元

具有可学习建议的稀疏端到端目标检测

稀疏R-Cbet9九州tsNN根据目标检测领域的稠密和从稠密到稀疏的框架bet9九州ts,建立了一个彻底的稀疏框架,脱离了锚箱、参考点和区域建议网络(RPN)的概念,在没有非最大抑制(NMS)后处理的情况下,在标准COCO基准上使用ResNet-50 FPN单模型,在标准3x训练调度上达到44.5 AP和22 FPSbet9九州ts。动机

首先,bet9九州ts我们简要回顾了目标检测领域的两种主要方法。

第一类是非深度时代以来广泛使用的密集探测器,如DPM、YOLO、视网膜、FCOS。在密集检测器中,有大量的候选对象,如滑动窗口、定位框、参考点等。预先预设在图像网格或特征图形网格上,然后直接预测从这些候选到gt的缩放/关闭和对象类别。

第二类是稠密到稀疏检测器,比如R-CNN家族。这种方法的特点是对来自密集检测器的一组稀疏候选进行预测、回归和分类。

这两个框架促进了整个领域的学术研究和工业应用。目标检测的领域似乎已经饱和,但是密集属性的一些固有限制总是不能令人满意:

NMS后处理

多对一正负样本分布

优先候选人的设计

所以,一个自然的思考方向是:能不能设计一个彻底的稀疏框架?最近,DETR给出了一个稀疏的设计方案。

候选是一组稀疏的可学习对象查询,正负样本的分布是一对一的最优二分匹配,直接输出最终的检测结果,无需nms。

然而,DETR的每一个对象查询都与全局特征图进行交互并引起注意,这本质上是密集的。

我们认为,稀疏的检测框架应该体现在两个方面:稀疏候选和稀疏特征交互。因此,我们提出了稀疏R-CNN。

稀疏R-CNN抛弃了锚盒或参考点等密集的概念,直接从一组稀疏的可学习的提议开始。没有NMS后处理,整个网络极其干净简洁,可以算是一个全新的检测范式。

美国有线电视新闻网

稀疏R-CNN的候选对象是一组可学习的参数,N*4,N表示候选对象的个数,一般为100 ~ 300,4表示对象帧的四个边界。

这组参数与整个网络中的其他参数一起被训练和优化。就是这样,密集检测器里根本没有上千个枚举。

稀疏对象候选被用作提议框来提取感兴趣区域(RoI),预测回归和分类。

学习到的建议盒可以理解为物体在图像中可能位置的统计值,因此通过粗略表示提取的RoI特征显然不足以准确定位和分类物体。

因此,我们引入一个候选项,建议特征,它也是一组可学习的参数。N*d表示候选对象的数量,与建议框一一对应,d表示特征的维度,一般为256。

这组提议特征与从提议框中提取的ROI特征一一交互,使得ROI特征的特征更有利于对象的定位和分类。

与原来的2-fc头相比,我们的设计被称为动态实例交互头。

稀疏表示的两个显著特征是稀疏对象候选和稀疏特征交互。既没有数以千计的稠密候选,也没有稠密的全局特征交互。

稀疏R-CNN可以看作是目标检测框架从密集到密集再到稀疏再到稀疏的延伸。

建筑设计

稀疏R-CNN网络设计的原型是R-CNN家族。

主干是基于ResNet的FPN。

bet9九州tshead是一组迭代的动态实例交互head,前一个Head的输出特征和输出框作为下一个Head的建议特征和建议框。提案功能在与RoI功能交互之前会自我关注。

训练的损失函数是基于最优二分匹配的集合预测损失。

从更快的R-CNN(40.2 AP)开始,RPN直接被一组稀疏的可学习的提议框代替,AP降为18.5;引入迭代结构,将AP升级到32.2;引入动态实例交互,最终升级到42.3 AP.

表演

我们使用了Detector 2的3x训练时间表,所以我们比较了稀疏R-CNN和Detectorn2中的检测器(很多方法没有报告3x的性能,所以没有列出)。

同时我们还列出了DETR和变形DETR的表现,不需要NMS后期处理。稀疏R-CNN在检测精度、推理时间和训练收敛速度方面表现出相当有竞争力的性能。

结论

在R-CNN和快速R-CNN出现后的一段时间内,目标检测领域的一个重要研究方向是提出一种更高效的区域建议生成器。

更快的R-CNN和RPN作为其中的佼佼者,展现出广泛而持久的影响力。

稀疏的R-CNN首次证明了一组简单的可学习参数可以获得与提议框相当的性能。

希望我们的工作能给你一些关于端到端物体检测的启发。

代码:https://github.com/PeizeSun/SparseR-CNN

纸张链接:

https://MSC . Berkeley . edu/research/autonomy-vehicle/sparse _ rcnn . pdf