介绍和相关工作

传统的基于ReID特征的MOT方法，难以应对复杂的环境，并且作者认为轨迹之间的关联，不一定非要通过ReID特征，将不同帧的相同目标进行关联。

SOT和MOT相似的是都是时序任务，旨在视频序列中，在面对遮挡等问题的情况下，顺利评估目标对象的轨迹信息。也就是，MOT任务可以被多个SOT的组合实现。MOT的关键步骤被认为是目标关联，如果在MOT任务中，目标类已知，且检测器在目标搜索的区域中具有较高召回率，SOT就可以被认为是一个proposal的关联问题，因此SOT中的一些技术也可以被运用到MOT中来提高关联鲁棒性。

如果如图2(a)，直接将MOT中的每个目标对象的坐标看作是一个SOT任务，并且使用一个SOT模型来进行直接追踪，则会存在以下问题：

不恰当的辨别性：对于SOT而言，需要的是获得将目标从其背景出辨别出的能力，即泛化辨别性，而MOT任务由于背景信息可以被检测器所过滤，所以一般需要更多的是将目标和其周围目标进行区分，即具体辨别性。
尽管先进的SOT方法可以高速运行（40FPS），但是相同时间内使用SOT追踪MOT中的数十个目标还是很耗时的。

为了解决以上问题，作者提出了一个新颖的端到端的MOT训练结构，使得MOT任务可以受益于SOT的强大辨别能力，如图1。通过拓展CenterNet检测器，在其基础上增加一个SOT分支，和已存在结构并存。为了获得具体的辨别性，不同于传统SOT方法，增加的SOT分支对每个目标在线训练一个单独的SOT模型，来从当前帧中从周围目标中区分出该目标（图2b）。

训练完毕的SOT用于后续帧的目标关联，如此，MOT任务就拥有了强大的辨别能力和在线学习和追踪（关联）能力。如同检测分支相同，SOT分支将目标看为点，目标有特征向量表示，如此SOT可以效率的同时追踪数十个目标。

离线训练时，网络保存两帧图片作为输入，SOT分支中，SOT模型使用一张图片训练，另一张图片测试。在线追踪时，不同于CenterTrack利用ReID特征进行追踪，而是基于SOT模型进行追踪。

SOTMOT

SOTMOT,基于CenterNet检测器基础上构建。在原本CenterNet三个分支的基础上增加了一个SOT分支，构建了SOTMOT网络。SOT分支每一帧单独为每个目标训练一个单独的SOT模型用于另一帧的定位，和其他分支一样，SOT分支将目标看为点，结构如下图。

Backbone网络

采用FairMOT的变体DLA-34作为Backbone，拥有更多的跳跃连接以及可变卷积。输出尺寸为输入图像的1/4大小。

CenterNet这里就不介绍了，CenterNet检测网络主要有三个分支输出，用于定位的Heatmap，用于矫正的偏移Offset以及目标框大小Size。

SOT Branch

基于Center的特征提取
对于一个输入图片的Backbone特征图，将其传入到三个卷积网络层中获得SOT特征图 $F\in R^{C_{sot}\times H \times W}$ ，卷积核为3x3，stride为1x1，紧跟BN和Relu层。进一步，对于目标中心点 $c = \{x^c,y^c\}$ 对应于特征图，其可以通过特征向量表示为 $x = F (c)$ ，直接在特征图中提取，不需要其他操作，即 $\in R^{C_{sot}}$ 。如此提取数十个目标的特征不会浪费太多时间。

SOT模型训练
给定一张训练图片，和目标中心集合 $\{(x_i^c,y_i^c)\}^N_{i=1}$ ，所有目标的提取的特征向量为 $[x_1^T;...;X_N^T] \in R^{N \times C_{sot}}$ 。进一步，一个领接矩阵 $A\in \{0,1\}^{N\times N}$ ，表示是否中心集合 $N$ 中两个中心是否相邻： $\mathbf{A}_{i, j}=\left\{\begin{array}{lc} 1 & \text { if } \min \left(\left|x_{i}^{c}-x_{j}^{c}\right|,\left|y_{i}^{c}-y_{j}^{c}\right|\right) \leqslant r \\ 0 & \text { otherwise } \end{array}\right. \tag{1}$

$r$ 为距离阈值。

对于每个目标对象 $x_i$ ，其相邻采样矩阵 $X_i$ 和标签向量 $y_i$ 被构建， $X_i$ 由目标中心 $x_i^c,y_i^c)$ 的相邻节点的特征向量组成， ${x_j | ∀_j : A_{i,j} = 1\}$ 。 $y_i$ 标签除了 $x_i$ 处为1,外全为0。训练基于回归的判别模型 $w^*_i$ 来从其邻居目标中区分目标 $x_i$ ，具体点： $\min _{\mathbf{w}_{i}}\left\|\mathbf{X}_{i} \mathbf{w}_{i}-\mathbf{y}_{i}\right\|_{2}^{2}+\lambda\left\|\mathbf{w}_{i}\right\|_{2}^{2} \tag{2}$
$λ$ 是规则化参数，公式(2)的优化可以表示为： $\mathbf{w}_{i}^{*}=\left(\mathbf{X}_{i}^{\top} \mathbf{X}_{i}+\lambda \mathbf{I}\right)^{-1} \mathbf{X}_{i}^{\top} \mathbf{y}_{i} \tag{3}$

值得注意的是， $X_i$ 的行数依赖于中心点的邻居数， $\sum_jA_{i,j}$ ，不论 $\sum_jA_{i,j}$ 多大， $X_i^TX_i$ 和 $X_i^Ty_i$ 一直属于 $R^{C_{sot}\times C_{sot}}$ 和 $R^{C_{sot}\times 1}$ ，给定 $X_i^TX_i)s,(X_i^Ty_i)s$ ， $w^*s$ 就可以被同时注册。

离线训练

如图3，网络保存一对RGB图像，一个用于训练，一个用于测试，以双流共享参数的方式训练。对于训练图片， $\{w_i^*\}^N_{i=1}$ 可以通过公式（3）获得，对于测试图片，给定中心集合 $\{(x_j^c,y_j^c)\}^M_{j=1}$ ，test采样矩阵 $[z_1^T;...;z_M^T]\in R^{M\times C_{sot}}$ ，邻接采样矩阵 $Z_js$ 及其GT标签向量 $v_js$ 可以相似的获得。

总之，将 $\{w_i^*\}^N_{i=1}$ 和 $\{Z_j^*\}^M_{j=1}$ 重新排列为 ${w_i^*,...,w_k^*,...w_N^*\}$ 和 ${Z_1,...,Z_k,...,Z_M\}$ ，即 $w_i^*,Z_i)$ 的前 $k$ 对，产生 $w_i^*$ 的正例 $x_i$ 与其对应的 $z_i$ 是 $Z_i$ 中唯一的正样本，表示相同的目标对象。训练损失为： $\mathcal{L}_{\mathrm{sot}}=\sum_{i=1}^{k} \mathcal{L}_{\mathrm{reg}}\left(\mathbf{v}_{i}, \hat{\mathbf{v}}_{i}\right) \tag{4}$

$L_{reg} (·, ·)$ 为收缩损失，用于缓解采样不平衡，表示为：
$\mathcal{L}_{\mathrm{reg}}(\mathbf{v}, \hat{\mathbf{v}})=\left\|\frac{\exp (\mathbf{v}) \odot(\mathbf{v}-\hat{\mathbf{v}})}{1+\exp (a \cdot(c-|\mathbf{v}-\hat{\mathbf{v}}|))}\right\|_{2}^{2} \tag{5}$
$v_i$ 为 $Z_i$ 的标签向量， $\hat v_i = Z_iw_i^*$ 为其预测值。
由于回归模型是可微分的，并且(Eq.3)可以被整合进离线训练CNNs训练。SOT分支可以按照上述方法进行端到端训练，学习基于岭回归模型的单目标***的最优特征嵌入，该***通过将目标对象与周围的相似对象区分开来来跟踪目标对象。

在线推理

整个在线追踪机制基于DeepSORT和FairMOT。SOT分支用于初始化新轨迹和通过SOT模型在线更新已存在轨迹，并且通过计算匹配得分关联检测目标对象和已存在轨迹。