物体定位

  • 图像分类,带定位的图像分类与物体检测
  • 带定位的图像分类

    这里 <nobr> bx,by </nobr>分别表示物体中心点在图像中的比例, <nobr> bw,bh </nobr>表示物体的宽度和高度占图像宽高的比例。由 <nobr> bx,by,bw,bh </nobr>可以确定出物体的轮框,叫做bouding box
  • label定义

特征点检测

物体检测

滑窗法


在每个窗口内用CNN判断是否存在物体,计算代价大。使用较大的kernel和stride可以减少计算代价。

使用卷积实现滑窗

  • 全连接层转为卷积层
  • 卷积实现

    假设边界框大小为14*14,使用传统滑窗法在16*16大小的图像中进行检测时,需要进行4次运算,而每次运算中有大量的计算是重复的。
    提出在16*16大小的图像中整体做检测运算,最后结果恰好为2*2*4,对应了传统方法中分别4次运算的结果。这种方法极大低降低了而计算代价。
  • 卷积实现物体检测的例子

Sermanet et al.,2014, OverFeat:Integrated recognition,localization and detection using convolutional networks

YOLO

Bounding Box(边界框)预测



在卷积滑窗法中,边界框不一定能够准确框住物体。
YOLO算法将目标图片分成若干网格,在检测过程中,若物体的中心点落在网格中,则判定网格存在物体。然后根据 <nobr> bx,by,bw,bh </nobr>计算出准确的边界框。

IOU交并比


用来评估定位的效果。

Nonmax suppresion非极大抑制

Anchor boxes 锚箱


锚箱可以用来检测同一个网格中存在多个物体的情况。

总结


Redmon et al.,2015 You Only Look Once: Unified real-time object detection

Region Proposals


参考资料

《深度学习》 deeplearning.ai