一、介绍

使用基本的卡尔曼滤波和匈牙利算法进行追踪的基础上，只单单替换一个检测器就可以提升18.9%的追踪效果，达到SOTA。

本方法是一个online方法，认为以对象重新识别的形式合并复杂性会给跟踪框架带来巨大的开销，潜在地限制其在实时应用中的使用，所以在跟踪中忽略检测组件之外的外观特征，只使用包围盒的位置和大小来进行运动估计和数据关联，并且为了不会引入不必要的复杂度，忽视了长短程遮挡问题。

本方法主要为了高效可靠的处理帧到帧之间的关联，我们没有以对检测误差的鲁棒性为目标，而是利用视觉目标检测的最新进展来直接解决检测问题。这种最小的跟踪形式提高了在线跟踪的效率和可靠性，见图1。

主要贡献：

在MOT上下文使用了基于CNN的强力检测。
使用卡尔曼滤波和匈牙利算法的务实检测器，评估于最近的MOT标准。
代码将是开源的，以帮助建立一个基线方法，用于研究实验和在避免视觉的应用中使用。

二、方法

1. 检测

利用基于CNN检测器的快速发展，使用Faster Region CNN (FrRCNN)作为检测器框架，FrRCNN是一个端到端的包含两步骤的框架。第一步是为第二步提取特征相应的可能的区域，第二步是在可能的区域分类目标。优点是两步骤参数共享，实现一个有效的检测。此外，网络结构本身可以交换到任何设计，使不同的结构快速实验，以提高检测性能。

实验中比较了FrRCNN提供的两种网络架构（FrRCNN(ZF)和FrRCNN(VGG16)）。使用默认参数学习PASCAL VOC challenge超过了百分之50的追踪框架。

对比FrRCNN和ACF发现，检测器的质量对追踪效果有很大的影响。

2. 评估模型

我们用一个不依赖于其他物体和摄像机运动的线性等速模型来近似每个物体的帧间位移。每个目标状态建模为： $[u,v,s,r,\dot u,\dot v,\dot s]^T$

$u$ ， $v$ 代表目标中心的水平和垂直像素坐标，比例 $s$ 和 $r$ 分别代表目标边界框的比例(面积)和长宽比，剩下的分别代表他们的速度分量。长宽比应该是定值。当检测关联到目标，检测的边界框用于更新目标状态，通过卡尔曼滤波框架最优地解决速度分量。如果没有检测与目标相关联，它的状态是简单的预测而不修正使用线速度模型。

3. 数据关联

将检测结果分配给目标的过程中，通过预测目标在当前帧中的新位置来估计目标的边界盒几何形状，分配代价矩阵由每个和所有已存在目标的预测边界框的IoU距离计算得出，使用匈牙利算法来匹配，对于IoU小于阈值的拒绝进行匹配，可以有效的解决短程遮挡。

4. 创建和删除追踪ID

IoU小于阈值的目标使用当前的边界框创建新的轨迹ID，且初始速度设置为0。此外，新的***将经历一个试用阶段，目标需要与检测数据相关联，以积累足够的证据，以防止跟踪误报。

当轨迹T_loss帧未出现，这终止这个轨迹。本实验设置为1或2。因为匀速模型相较于动态变化不可靠，并且我们主要针对帧间追踪，目标重识别超出了本实验范围。此外，早期删除失去的目标有助于提高效率。如果一个对象重新出现，跟踪将隐式地在一个新的身份下恢复。

三、总结

本文提出了一种基于帧间预测和关联的在线跟踪框架。我们表明，跟踪质量高度依赖于检测性能，利用最近的检测的发展，只是使用经典的追踪就可以实现SOTA。提出的框架的简单性使它很适合作为基线，允许新的方法集中在对象重新识别处理长期遮挡。

阅读心得：SORT：Simple online and realtime tracking

Simple online and realtime tracking