Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

作者：Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun

摘要

Introduction 介绍

RELATED WORK 相关工作

RPN网络过程

RPN的平移不变性

在计算机视觉中的一个挑战就是平移不变性:比如人脸识别任务中，小的人脸(24*24的分辨率)和大的人脸(1080*720)如何在同一个训练好权值的网络中都能正确识别。若是平移了图像中的目标，则建议框也应该平移，也应该能用同样的函数预测建议框。
传统有两种主流的解决方式：
第一、对图像或feature map层进行尺度\宽高的采样;
第二、对滤波器进行尺度\宽高的采样(或可以认为是滑动窗口).
但Faster R-CNN解决该问题的具体实现是：通过卷积核中心(用来生成推荐窗口的Anchor)进行尺度、宽高比的采样，使用3种尺度和3种比例来产生9种anchor。

窗口分类和位置修正

分类层（cls_score）输出每一个位置上，9个anchor属于前景和背景的概率。
窗口回归层（bbox_pred）输出每一个位置上，9个anchor对应窗口应该平移缩放的参数（x,y,w,h）。
对于每一个位置来说，分类层从256维特征中输出属于前景和背景的概率；窗口回归层从256维特征中输出4个平移缩放参数。

损失函数

为了训练RPN，我们给每个anchor分配一个二进制的标签。我们分配正标签给两类anchor：
（i）与某个ground truth（GT）包围盒有最高的IoU（Intersection-over-Union，交集并集之比）重叠的anchor（也许不到0.7）
（ii）与任意GT包围盒有大于0.7的IoU交叠的anchor。注意到一个GT包围盒可能分配正标签给多个anchor。我们分配负标签给与所有GT包围盒的IoU比率都低于0.3的anchor。非正非负的anchor对训练目标没有任何作用。
有了这些定义，我们遵循Fast R-CNN[5]中的多任务损失，最小化目标函数。我们对一个图像的损失函数定义为

这里，i是一个mini-batch中anchor的索引，Pi是anchor i是目标的预测概率。如果anchor为正，GT标签Pi* 就是1，如果anchor为负，Pi* 就是0。ti是一个向量，表示预测的包围盒的4个参数化坐标，ti* 是与正anchor对应的GT包围盒的坐标向量。分类损失*Lcls是两个类别的对数损失
对于回归损失*，我们用来计算，其中R是[5]中定义的鲁棒的损失函数（smooth L1）

Pi* Lreg这一项意味着只有正anchor（Pi* =1）才有回归损失，其他情况就没有（Pi* =0）。cls层和reg层的输出分别由{pi}和{ti}组成，这两项分别由Ncls和Nreg以及一个平衡权重λ归一化（早期实现及公开的代码中，λ=10，cls项的归一化值为mini-batch的大小，即Ncls=256，reg项的归一化值为anchor位置的数量，即Nreg~2,400，这样cls和reg项差不多是等权重的。
对于回归，我们学习[6]采用4个坐标：

x，y，w，h指的是包围盒中心的（x, y）坐标、宽、高。变量x，xa，x*分别指预测的包围盒、anchor的包围盒、GT的包围盒（对y，w，h也是一样）的x坐标。可以理解为从anchor包围盒到附近的GT包围盒的包围盒回归。

实验结果

与Selective Search方法（黑）相比，当每张图生成的候选区域从2000减少到300时，本文RPN方法（红蓝）的召回率下降不大。说明RPN方法的目的性更明确。
使用更大的Microsoft COCO训练，直接在PASCAL VOC上测试，准确率提升6%。说明faster RCNN迁移性良好，没有over fitting。

参考文章：

https://blog.csdn.net/qq_17448289/article/details/52871461
https://blog.csdn.net/shenxiaolu1984/article/details/51152614
https://blog.csdn.net/xinzhi8/article/details/77427345

Faster R-CNN 论文解读

论文原文：https://arxiv.org/pdf/1506.01497.pdf

项目代码在论文中有地址