目标检测算法经典论文回顾（一）

论文名称：Rich feature hierarchies for accurate object detection and semantic segmentation

提出时间：2014年

论文地址：blogs.com/zjutzz/p/8232740.html

论文题目：AttentionNet: AggregatingWeak Directions for Accurate Object Detection

提出时间：2015年ICCV

论文地址：/content/pdf/10.1007/978-3-319-10578-9_23.pdf

针对问题：

如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络，在处理过程中就造成了图像块信息的损失。在实际的场景中，输入网络的目标尺寸很难统一，而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。

创新点：

作者提出的SPPnet中，通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸，在训练的时候，池化的操作还是通过滑动窗口完成的，池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。

参考博客：/content_iccv_2015/papers/Gidaris_Object_Detection_via_ICCV_2015_paper.pdf

针对问题：

既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位，本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。

创新点：

作者通过对输入网络的region进行一定的处理（通过数据增强，使得网络利用目标周围的上下文信息得到更精准的目标框）来增加网络对目标回归框的精度。具体的处理方式包括：扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置，使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性，从而提高了回归框的精度。

参考博客：/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf

针对问题：

RCNN中的CNN每输入一个图像块就要执行一次前向计算，这显然是非常耗时的，那么如何优化这部分呢？

创新点：

作者参考了SPPNet（第六篇论文），在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸，从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图，再将原图上用Selective Search算法得到的目标框映射到特征图上，避免了特征的重复提取。

参考博客：/content_iccv_2015/papers/Ghodrati_DeepProposal_Hunting_Objects_ICCV_2015_paper.pdf

主要针对的问题：

本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文，作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。

创新点：

作者在不同的激活层上以滑动窗口的方式生成了假设，并表明最终的卷积层可以以较高的查全率找到感兴趣的对象，但是由于特征图的粗糙性，定位性很差。相反，网络的第一层可以更好地定位感兴趣的对象，但召回率降低。

论文题目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

提出时间：2015年NIPS

论文地址：/p/31426458