论文出处：Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking

一、创新

提出了一个在线的端到端MOT模型，同时优化目标检测，特征提取和数据关联。这个网络是第一个将数据关联问题转化为成对目标检测问题。
设计了一个联合注意模块来为框对特征进行强化，进一步提高了CTracker的性能。

二、介绍

以往的任务大多将MOT分类三个部分，难以同时优化，从而会导致次优化，并且分离的三部分相较于端到端的MOT网络，计算量太大。并且最后数据关联的阶段也会受到前面的检测的阶段的影响（传统的检测没有考虑相邻帧之间的时间关系）。

后来为了提升精度，部分网络加入了ReID分支和注意力机制，ReID更有利于提取强壮的外貌特征来进行数据关联，注意力机制有助于集中关注那些主要特征，从而区别于复杂的背景。尽管有效，但是耗费算例大，增加模型复杂度。

为了解决以上问题，本论文提出了一个新颖的Online方法：Chained-Tracker（CTracker），联合MOT三步骤形成一个端到端的模型。它以两个相邻帧对为输入，在一个单一的回归模型中进行联合检测和跟踪，同时对相邻两帧对中同时出现的成对边界框进行回归。

为了进一步提高CTracker的性能，引入一个联合注意力模块来预测置信度映射。它使用两个分支模型来指导成对边界框回归分支关注空间区域信息。一个是目标分类分支，用于预测边界框对中的第一个框的是否为前景的置信度得分。另一个是ID验证分支，其评估边界框对中的目标是否为相同目标，从而促进回归分支的精度。最后边界框对根据分类分支置信度进行过滤，然后在两个相邻帧对中的公共帧中生成的边界框对使用IoU进行匹配关联。如此，追踪过程就可以通过链接所有的相邻帧对实现。

三、相关工作

不同于基于检测的追踪(TBD)模式，我们的方法只需要一个简单且高效的整合模型来实现检测和追踪。

也不同于一般的one-shot方法（局部端到端），我们的方法完全的联合了检测和追踪，将目标检测，特征提取和数据关联整合进一个简单的模型。

在使用注意力辅助方法方面，不同于其他网络使用复杂的注意力模型进行局部的边界框的数据关联优化，本网络使用一个更高效的简单的全图层次的目标注意力和身份注意力来同时提升检测和追踪表现。

四、方法

1. 问题设置

给予一个 $N$ 帧的图片序列 ${F_t\}_{t=1}^N$ ，MOT任务是要输出所有的在序列中出现的目标的边界框 ${G_t\}_{t=1}^N$ 和对应的身份标签 ${Y_t^{GT}\}_{t=1}^{N}$ 。
其中 $F_t \in R^{c×w×h}$ 代表第 $t$ 帧， $G_t \in R^4$ 代表第 $t$ 帧中的 $K_t$ 个目标的真实边界框。 $Y_t^{GT} \in Z$ 代表他们的身份ID标签。

之前的模型都是将MOT任务分为多个部分，数据关联的可信程度依赖于检测的结果的准确性。为了更好的使用数据关联，我们提出了一个新颖的CTracker，使用一个单一的网络来同时获得目标检测、特征提取和数据关联。

2. Pipeline

基本框架

使用两个相邻帧对作为输入，每一对相邻帧称之为节点。第一个节点 $F_1, F_2)$ 最后一个（第 $N$ 个）节点是 $F_N, F_{N+1})$ 。 $F_N$ 是最后一帧，所以 $F_(N+1)$ 直接使用 $F_N$ 信息。

输入节点 $F_{t-1}, F_t)$ ， CTracker可以对两帧中都出现的相同的目标生成边界框对 $\{D_{t-1}^i,\hat D_t^i \}_{i=1}^{n_{t-1}}$ 。 $n_{t-1}$ 代表一共存在的相同目标对数， $D_{t-1}^i∈D_{t-1}\in R^4$ ， $\hat D_t^i∈D_t∈R^4$ 代表这个节点的前后帧中对应的边界框。类似地获得下一节点 $F_t, F_{t+1})$ 中的边界框信息 $\{D_t^j,\hat D_{t+1}^j \}_{j=1}^{n_t }$ （见上图2）。

$\hat D_t^i$ 和 $D_t^j$ 代表在这两个节点的共同帧上的检测结果，这两个框应该只有微小的差别。然后使用一个简单的匹配策略去连接着两个框（并非使用复杂的外貌特征策略）。通过在给定的序列上串联所有节点，我们可以得到所有被检测目标的长轨迹。

节点链接

下面简单使用 $\{D_{t-1},\hat D_t\}$ 代替 $\{D_{t-1}^i,\hat D_t^i\}_{i=1}^{n_{t-1}}$ 。

首先，在节点内， $D_1$ 中的检测的边界框 $D_1^i$ 会直接初始化一个轨迹，并随机分配一个ID。

然后，对于其他节点 $t$ ，通过计算 $\hat D_t$ 和 $D_t$ 中边界框的IoU来实现链接 $F_{t-1}, F_t)$ 和 $F_t, F_{t+1})$ ， $\hat D_t$ 是前一节点的后帧检测， $D_t$ 是当前节点的前帧检测。获得的IoU关系后， $\hat D_t$ 和 $D_t$ 通过KM算法（匈牙利匹配算法）相互匹配。对于每个匹配上的 $\hat D_t^i$ 和 $D_t^j$ ， $\hat D_t^i$ 所在的轨迹通过直接增加 $D_t^j$ 来进行拓展更新。任何未匹配到的 $D_t^k$ 初始化为新的轨迹，分配新的身份。通过连续链接所有的相邻结点，建立每个目标的轨迹。

鲁棒性增强（尤其遮挡对抗）

为了增强模型对各种遮挡（可能会导致中间帧的检测失败）和短期消失（后快速出现）鲁棒性，我们保留终止的轨迹和对应的ID $σ$ 帧，在这 $σ$ 帧中持续使用一个简单的持续速度预测模型来进行运动估计，寻找他们的匹配目标。

例如：假设目标 $(D_{t-1}^l,\hat D_t^l)$ 在 $t$ 节点无法找到他的匹配目标（即在 $t$ 节点的前帧检测中，目标 $l$ 的边界框不存在）。我们根据 $D_{t-1}^l$ （ $\hat D_t^l$ 可能存在遮挡或者其他原因不可靠），使用持续速度预测模型来预测他在 $t + τ$ 帧上的边界框 $P_{t + τ}^l{(1 <= τ <= σ)}$ 。当我们使用 $\{D_{t + τ-1},\hat D_{t + τ}\}$ 和 $\{D_{t + τ},\hat D_{t + τ+1}\}$ 链接节点 $t + τ - 1$ 和 $t + τ$ 时，将当前所有的保留的所有目标的预测框 $P_{t + τ}$ 加入到 $\hat D_{t + τ}$ 中，和 $D_{t + τ}$ 进行匹配，如果 $P_{t + τ}^i$ 匹配成功，则轨迹就会连接到这个新的目标框上进行拓展。

有效性和局限性

有效性：
目标在 $t$ 帧出现，但是在 $t - 1$ 帧未出现，那么链节点 $F_{t-1},F_t)$ 中可能不存在这个节点的边界框对，但是只要目标在 $t + 1$ 帧中出现了，那么他在下一个链节点 $F_{t},F_{t+1})$ 就会存在边界框对，那么就会给他分配一个新的轨迹和ID。同理目标在 $t - 1$ 帧出现，但是在 $t$ 帧未出现，那么他在节点 $F_t,F_{t+1})$ 上也不会存在边界框对，则他的轨迹就会终结。
局限性：
由于链接过程中并非完全参数化的，使用了IoU，所以无法整体进行回归优化，但是回归模型占据了主要的任务，也不需要从链接操作中获得反馈，所以我们仍然认为他是端到端。当然，如果是纯粹的端到端，那么IoU操作需要做出改变。

3. 网络结构

总览

网络使用两个相邻帧（一个节点）作为输入，回归相同目标的边界框。使用ResNet-50 作为backbone提取高层语义特征。然后集成FPN生成多尺度特征表征，用于后续的预测。为了相邻帧的目标关联，每个独立帧的不同尺度级特征图应该首先连接到一起，然后喂入预测网络对边界框对进行回归。见图3，成对边界框回归分支为每个目标返回一个边界框对， 目标分类分支预测一个目标是前景的置信度得分。目标分类和ID确认分支都是用来引导注意力的，从而避免无关混乱信息的干扰。
补充：
如下图1，使用ResNet50和FPN构建5个等级的多尺度特征表征，记为{P2, P3, P4, P5, P6}，然后我们在每个尺度上结合两个相邻帧的特征来进行后续的预测，图下2。（代码中直接将两个图片同时通过上面共享的backbone训练，提取不同尺寸的特征，每种尺度的特征都会进行预测，然后通过soft-nms进行后处理）。

组合的特征使用两个平行的分支来进行目标分类和ID确认。两分支使用4个连续的3x3卷积和relu激活层交错进行特征学习，最后使用一个3x3的卷积加sigmoid激活函数进行预测置信度。

最后，我们将上述两种预测相乘得到联合注意映射。注意力映射和组合特征空间大小相同，但是只有一个通道，所以首先在注意映射上使用广播机制，以便获得可适应的形状。然后使用元素相乘来作为注意力指导获得注意力特征，然后使用带有四个卷积层的成对框回归分支来为感兴趣的目标生成成对的边界框。从5种不同尺度特征生成的边界框都使用soft-nms进行后处理。

成对边界框回归

我们为成对框回归分支提出链锚，以同时回归两个框。链锚作为一种目标检测方向锚的新颖推广，密集的放在空间网格中，每个链锚需要预测统一目标实体在一个相邻帧（节点）的两个边界框。（我看代码中他的锚是在根据物种FPN特征大小存在物种不同的尺度的锚框，然后一口气将这五种锚框全部找到，一锚框位置，这一个联合特征图中两张特征图共享，然后锚用于后面的focal loss 计算）。

在数据集上的所有真实框上使用K-means聚类来解决和现实场景的大尺度变化，从而获得链锚的尺度。每个聚类被分配到相应的FPN级别，以便以后进行尺度的具体预测。检测到的边界框对中，首先对每对框中的第一个框进行soft-NMS进行后处理，然后基于分类分支的置信度得分进行过滤。最终，配对剩余的检测框对按照之前说的处理，给予新ID和轨迹还是终止。分类分支和成对边界框回归分支只堆积了四个3X3卷积层+relu激活层，保证模型轻量。

补充：
为了确定链锚的尺度，我们对数据集中所有的真实边界框运行k-means聚类，然后选取5个聚类中心作为FPN不同级别下链锚点的尺度。在我们的实验中，对于{P2, P3, P4, P5, P6}，我们分别使用{38,86,112,156,328}像素区域块，所有尺度的链锚采用相同的2.9的比例扫描。

联合注意力模型（JAM）

用于在回归分支前的组合特征中来强调局部信息区域。见上图3的右边，ID 确认分支引入获得检测对中两个框是同一目标的置信度得分。ID确认分支和目标分类分支预测的置信度得分用作注意力映射，这两个是互补的。

特征重利用（MSM机制）

输入的是两个相邻帧，他们包括一个共同的中间帧，被使用了两次，为了推导时避免双倍的计算和存储，提出一个存储共享机制（MSM），直到下帧处理完毕前，用于暂时保存当前帧提取的特征以便重利用（下图4）。对于最后的推导， $N + 1$ 帧特征直接复制N帧。使用MSM大概节省了一般的计算量和时间消耗。

4. 标签分配和损失设计

对于任意节点 $F_t, F_{t+1})$ ，让 $A_t^i=(x_a^{t,i},y_a^{t,i},w_a^{t,i},h_a^{t,i})$ 表示他第i个链锚（ $x_a^{t,i}$ ， $y_a^{t,i}$ 表示其中心坐标， $w_a^{t,i}$ ， $h_a^{t,i}$ 表示相应的锚宽高）。使用类似于SSD的真实框匹配策略，使用一个额外的矩阵 $M$ 表示匹配的结果。 $G_t^j$ 是 $A_t^i$ 在 $F_t$ 帧中相应的真实框（通过IoU高于阈值 $T_p$ 来判断），则 $M_{ij}=1$ ，相反低于小的阈值 $T_n$ ，则 $M_{ij}=0$ 。基于 $M$ ，为 $A_t^i$ ，将真实标签 $c_{cls}^i$ 分配给Ctracker的分类分支：
$c_{\mathrm{cls}}^{i}=\left\{\begin{array}{l} 1, \text { if } \Sigma_{j=1}^{K_{t}} M_{i j}=1 \\ 0, \text { if } \Sigma_{j=1}^{K_{t}} M_{i j}=0 \end{array}\right. \tag{1}$
$K_t$ 表示 $F_t$ 帧总共的真实边界框数。公式表示，如果链锚和真实框IoU大于 $T_p$ ，则存在前景目标进行匹配，即为前景，标签为1。反之为0。

对于 $A_t^i$ ，假设预测的边界框 $（D_t^i,\hat D_{t+1}^i）$ ，相应的真实边界框为 $G_t^j，G_{t+1}^k）$ ，若为同一目标即都存在且为前景，则ID确认分支的真实标记记为1：
$c_{\mathrm{id}}^{i}=\left\{\begin{array}{l} 1, \text { if } c_{\mathrm{cls}}^{i}=1 \text { and } \mathcal{I}\left[G_{t}^{j}\right]=\mathcal{I}\left[G_{t+1}^{k}\right] \\ 0, & \text { otherwise } \end{array}\right.\tag{2}$
$\mathcal{I}[G_t^j ]$ 代表边界框 $G_t^j$ 对应的ID标签。

依据Faster R-CNN思想来回归 $(D_t^i,\hat D_{t+1}^i)$ 相对于 $A_t^i$ 的偏移，其中 $D_t^i=(x_d^{t,i},y_d^{t,i},w_d^{t,i},h_d^{t,i})$ ,使用 $(Δ_d^{t,i},Δ_{\hat d}^{t+1,i})$ 代表偏移量， $Δ_g^{t,j},Δ_{g}^{t+1,k})$ 代表真实偏移量。则 $Δ_d^{t,i}=(Δ_{d,x}^{t,i},Δ_{d,y}^{t,i},Δ_{d,w}^{t,i},Δ_{d,h}^{t,i})$ ，其中：
$\begin{aligned} \Delta_{d, x}^{t, i}=\left(x_{d}^{t, i}-x_{a}^{t, i}\right) / w_{a}^{t, i}, & \Delta_{d, y}^{t, i}=\left(y_{d}^{t, i}-y_{a}^{t, i}\right) / h_{a}^{t, i} \end{aligned}$

$\begin{aligned} \Delta_{d, w}^{t, i} &=\log \left(w_{d}^{t, i} / w_{a}^{t, i}\right), \Delta_{d, h}^{t, i}=\log \left(h_{d}^{t, i} / h_{a}^{t, i}\right) \end{aligned}$
其余偏移类似计算。

则成对边界框回归分支的损失函数定义为两个检测偏移量的损失合：
$\begin{array}{l} L_{r e g}\left(\Delta_{d}^{t, i}, \Delta_{\hat{d}}^{t+1, i}, \Delta_{g}^{t, j}, \Delta_{g}^{t+1, k}\right) \\ =\sum_{l \in\{x, y, w, h\}}\left[\operatorname{smooth}_{L_{1}}\left(\Delta_{d, l}^{t, i}-\Delta_{g, l}^{t, j}\right)+\operatorname{smooth}_{L_{1}}\left(\Delta_{\hat{d}, l}^{t+1, i}-\Delta_{g, l}^{t+1, k}\right)\right] / 8 \end{array}\tag{3}$
$smooth_{L_1 }$ 是 $L_1$ loss。

CTracker的总共损失为：
$L_{a l l}=\sum_{t, i}\left[L_{r e g}\left(\Delta_{d}^{t, i}, \Delta_{\hat{d}}^{t+1, i}, \Delta_{g}^{t, j}, \Delta_{g}^{t+1, k}\right)+\alpha \mathcal{F}\left(p_{c l s}^{i}, c_{c l s}^{i}\right)+\beta \mathcal{F}\left(p_{i d}^{i}, c_{i d}^{i}\right)\right]\tag{4}$
$F(p_{cls}^i,c_{cls}^i )$ 和 $F(p_{id}^i,c_{id}^i )$ 为分类分支和ID确认分支的focal loss， $p_{cls}^i$ 和 $p_{id}^i$ 代表分支的预测（置信度得分），α和β为权重参数。

五、实验对比

六、总结

设计了一个新颖的联合多目标检测和追踪框架Chained-Tracker，第一个端到端的模型。不同于其他的网络使用单帧图片进行输入，我们直接使用相邻帧对进行输入。使用一个联合注意力模块对相邻两帧中同一目标的一对边界框进行回归。使用简单的IoU信息，将两个连续帧通过共同帧上的点进行迭代链接。通过实验证明了本模型的可行性以及高效。

七、补充

数据增强

随机应用一些SSD中引入的光度畸变。
通过在[0.3,0.8]区间内随机裁剪一个乘以一个随机因子大小的patch。只保留那些与裁剪斑块的IoMs(最小面积上的交集)大于0.2的真实框。
以20%的概率，使用一个范围为[1,3]的随机因子，通过填充ImageNet的平均像素值来扩展裁剪后的patch。
将扩展后的patch随机翻转，并将其调整为一个正方形的patch，其大小相当于原始图像短边的一半。

外貌特征实验

本实验抛弃了使用检测框的补丁级ReID特征来增强帧间的数据关联。但是后面又做了一个加入外貌特征的实验，在点链接的模型中，除了IoU，还通过增加一个外貌特征来计算外貌相似度，在MOT16上MOTA从67.6涨到68.5，IDF1从57.2涨到61.8，IDS从1897下降到983，追踪速度也从34.4fps下降到29.2fps。虽然速度下降了但是追踪表现更好了，证明本网络具有很好的扩展性。

阅读心得：Chained-Tracker