物体定位
- 图像分类,带定位的图像分类与物体检测
- 带定位的图像分类
这里 <nobr> bx,by </nobr>分别表示物体中心点在图像中的比例, <nobr> bw,bh </nobr>表示物体的宽度和高度占图像宽高的比例。由 <nobr> bx,by,bw,bh </nobr>可以确定出物体的轮框,叫做bouding box。 - label定义
特征点检测
物体检测
滑窗法
在每个窗口内用CNN判断是否存在物体,计算代价大。使用较大的kernel和stride可以减少计算代价。
使用卷积实现滑窗
- 全连接层转为卷积层
- 卷积实现
假设边界框大小为14*14,使用传统滑窗法在16*16大小的图像中进行检测时,需要进行4次运算,而每次运算中有大量的计算是重复的。
提出在16*16大小的图像中整体做检测运算,最后结果恰好为2*2*4,对应了传统方法中分别4次运算的结果。这种方法极大低降低了而计算代价。 - 卷积实现物体检测的例子
Sermanet et al.,2014, OverFeat:Integrated recognition,localization and detection using convolutional networks
YOLO
Bounding Box(边界框)预测
在卷积滑窗法中,边界框不一定能够准确框住物体。
YOLO算法将目标图片分成若干网格,在检测过程中,若物体的中心点落在网格中,则判定网格存在物体。然后根据 <nobr> bx,by,bw,bh </nobr>计算出准确的边界框。
IOU交并比
用来评估定位的效果。
Nonmax suppresion非极大抑制
Anchor boxes 锚箱
锚箱可以用来检测同一个网格中存在多个物体的情况。
总结
Redmon et al.,2015 You Only Look Once: Unified real-time object detection
Region Proposals
参考资料
《深度学习》 deeplearning.ai