介绍和相关工作

为了应对联合检测和ReID分支的MOT任务的优化弊端，作者提出了GCD模块用于解耦具体检测和具体ReID embedding任务的特征表示，如下图所示，并且实验证明了其有效性。

并且作者注意到过去的方法大多只是使用局部信息，作者认为全局信息同样重要，需要捕获长范围的关系。作者未使用了计算复杂的全局的注意力，而是认为不是所有的像素都影响查询节点的语义内容，只有周围少量的主要关键点起作用，基于此假设，作者使用了一个更轻量的可变形注意力来整合结构关系。不同于基于图的方法从固定的周围像素聚合信息，可变形注意力选择整个图片最具价值的采样点进行聚合信息。再组合Transformer的编码器，形成GTE模块，在拥有全局感受野的情况下探索像素间丰富内容。

方法

问题阐述

RelationTrack旨在检测关系目标，并将把不同帧中的对应ID相互连接形成轨迹。主要由三个部分组成，一个检测器 $φ (\cdot)$ 用于定位目标，一个特征提取器 $ψ (\cdot)$ 用于获得目标embedding表示，以及一个关联器 $ϕ (\cdot)$ 来生成轨迹。

具体的，输入一张图片 $I_t \in R^{H\times W\times C}$ ，定义 $φ(I_t)$ 和 $ψ(I_t)$ 为 $b_t$ 和 $e_t$ ，其中 $b_t\in R^{k\times 4}$ ， $e_t\in R^{k\times D}$ 。 $H, W, C$ 分别代表输入图片高宽和通道数， $k, t, D$ 分别代表检测到的目标数， $I_t$ 索引，以及embedding向量的维度。 $b_t$ 和 $e_t$ 分别代表边界框的坐标和相应的embedding向量。在检测了目标以及提取了相应的embedding向量后， $ϕ (\cdot)$ 会基于 $e_t$ 连接不同帧的 $b_t$ 产生最终轨迹。

总体框架

如下图所示，RelationTrack由五部分组成，如特征提取器、特征解耦、检测、表示提取和关联。

第一部分，给定一个 $N$ 帧的视频 $I_t(t=1,2,\dots,N)$ ，通过backbone（DLA_34）将每一帧变为相应的特征图，然后在特征解耦部分（GCD），学习到的特征分解为检测和ReID信息，从而解决之前提到的特征矛盾问题。然后检测分支基于具体的检测信息定位目标，
同时GTE将ReID信息编码为辨别性特征。

获得相应的边界框和特征表示，将所有的检测目标和轨迹片段使用匈牙利算法连接起来。

Global Context Disentangling (GCD)

GCD包含两个阶段，生成全局上下文向量并利用该向量分解输入特征映射。设 $x=\left\{x_{i}\right\}_{i=1}^{N_{p}}$ 为输入特征图 $N_p = H'\times W'$ ，则计算全局上下文向量 $z$ 表示为： $z=\sum_{j=1}^{N_{p}} \frac{\exp \left(W_{k} x_{j}\right)}{\sum_{m=1}^{N_{p}} \exp \left(W_{k} x_{m}\right)} x_{j} \tag{1}$

$W_k$ 表示为一个可学习的线性乘积，建模为 $1\times 1$ 卷积层。

第二阶段设计两个转变，将 $z$ 变为两个具体的向量，通过将 $z$ 通过元素级别相加到 $x$ 上。然后分别获得检测任务embedding $d=\left\{d_{i}\right\}_{i=1}^{N_{p}}$ 和ReID任务embedding $r=\left\{r_{i}\right\}_{i=1}^{N_{p}}$ 。过程公式化为：
$d_{i}=x_{i}+W_{d 2} \operatorname{ReLU}\left(\Psi_{\ln }\left(W_{d 1} z\right)\right) \tag{2}$

$r_{i}=x_{i}+W_{r 2} \operatorname{ReLU}\left(\Psi_{\ln }\left(W_{r 1} z\right)\right) \tag{3}$
所有 $W$ 表示可学习参数， $R e L U (\cdot)$ 和 $Ψ_l{n}(·)$ 表示线性单元和层标准化操作。对于一批数据 $\in R^{B'\times H' \times W'\times C'}$ ， $Ψ_{ln}(·)$ 可以表示为：
$\mu_{b}=\frac{1}{H^{\prime} W^{\prime} C^{\prime}} \sum_{1}^{H^{\prime}} \sum_{1}^{W^{\prime}} \sum_{1}^{C^{\prime}} I_{b h w c}\tag{4}$ $\sigma_{b}^{2}=\frac{1}{H^{\prime} W^{\prime} C^{\prime}} \sum_{1}^{H^{\prime}} \sum_{1}^{W^{\prime}} \sum_{1}^{C^{\prime}}\left(I_{b h w c}-\mu_{b}\right)^{2} \tag{5}$
$\tilde{I}_{b h w c}=\frac{I_{b h w c}-\mu_{b}}{\sqrt{\sigma_{b}^{2}+\epsilon}} \tag{6}$

$I_{bhwc}$ 和 $\tilde{I}_{b h w c}$ 表示输入和输出（(b, h,w, c)）， $\epsilon$ 表示一个极小的预定义值。

公式1可以在聚集全局上下文信息的时候， $z$ 对于 $i$ 的选择是不变的。所有的 $d$ 和 $r$ 可以使用相同的 $z$ 来计算，因此 $G C D$ 的计算复杂度为 $O_{C^2}$ ，相较于前面提到的全局注意力的复杂度 $O_{HWC^2}$ 更高效。

Guided Transformer Encoder (GTE)

结构如下图所示，组合了Transformer编码器和可变形注意力的优点。组合了Transformer出色的推理能力以及可变形注意力的自适应感受野，GTE生成嵌入表示。

Transformer编码器：
GTE,中，使用了一个类似于Transformer编码器的结构，用于获得更好的embedding，如图3所示，由一个多头注意力块的transformer编码器和一个前馈网络组成（FFN）组成。给定一个query q和一个关键元素集合 $Ω_k$ 作为输入，Transformer首先通过点积q和k（ $k\in Ω_k$ ）生成相关图。然后，将得到的关系图重新归一化并与k再相关联，生成具有代表性的嵌入。然后，利用FFN进一步提取嵌入中的信息。
$\Phi_{T}(q, k)=\Gamma\left(\sum_{i=1}^{N_{h e a d}} W_{i}\left(\sum_{j \in \Omega_{k}} A_{i j} W_{i}^{\prime} k_{j}\right)\right)\tag{7}$

$A_{i j} \propto \exp \left(\frac{q^{T} U_{i}^{T} V_{i} k_{j}}{\rho}\right) \tag{8}$
$W, U, V$ 为可学习参数， $Φ_T(·)$ , $Γ (\cdot)$ , $N_{head}$ , $ρ$ 分别代表Transformer，FFN，注意力头的数量和标准化因子。

Deformable attention

下图就代表的可变形注意力的基础思想。对于图(4a)中感兴趣的检测区域，变形注意力自适应地在整个图像中选择有价值的关键样本（4b），然后，通过query节点与对应的关键样本之间的信息交互产生判别表示(图4©)。详细细节在图3表示出来。

输入一张特征 $I$ ，三个独立的解码器， $Φ_a(·),Φ_b(·),Φ_c(·)$ 分别解码输入为偏移图 $F_a$ ，关键图 $F_b$ ，和query注意力图 $F_c$ ，如果我们为每个query节点选择 $N_k$ 个关键采用， $F_a$ 会包含 $2N_k$ 个通道，包含关于相应query节点的 $N_k$ 个关键采样。因此对于每个query 节点 $q\in I$ ，可以获得其坐标 $Z_q$ 和基于 $F_a$ 的关键采样 $Z_q$ 的偏移 $\triangle Z_{k}=\left\{\triangle Z_{k}^{i}\right\}_{i=1}^{N_{k}}$ 。然后关键采样 $\triangle Z_{k}=\left\{\triangle Z_{k}^{i}\right\}_{i=1}^{N_{k}}$ 的坐标可以如下计算： $Z_{k}^{i}=Z_{q}+\triangle Z_{k}^{i} \tag{9}$

根据选择的关键采样 $\triangle Z_{k}=\left\{\triangle Z_{k}^{i}\right\}_{i=1}^{N_{k}}$ 和关键图 $F_b$ ，可以获得关键采样向量 $V_{k}=\left\{V_{k}^{i}\right\}_{i=1}^{N_{k}}$ ，然后通过编码器 $Φ_d(·)$ 进一步变化为 $\tilde V_k$ ，然后从 $F_c$ 中裁剪出关于 $Z_k$ 的query注意力向量 $V_{q}=\left\{V_{q}^{i}\right\}_{i=1}^{N_{k}}$ 。最终输出特征图 $F_o$ 计算为： $F_{o}=W_{m} \sum_{i=1}^{N_{k}} V_{q}^{i} \bullet F_{c}^{i} \tag{10}$
$W_m$ 为可训练参数， $\bullet$ 为Hadamard乘法。

Loss

总体的损失分为三部分，heatmap的定义以及相似度评估损失：
$\hat{R}_{x y}=\sum_{i=1}^{N} \exp \left(-\frac{\left(x-c_{x}^{i}\right)^{2}+\left(y-p_{y}^{i}\right)^{2}}{2\left(\sigma_{p}\right)^{2}}\right)$
$L_{x y}^{h}=\left\{\begin{array}{l} \left(1-R_{x y}\right)^{\alpha} \log R_{x y}, \hat{R}_{x y}=1 \\ \left(1-\hat{R}_{x y}\right)^{\beta}\left(R_{x y}\right)^{\alpha} \log \left(1-R_{x y}\right), \hat{R}_{x y} \neq 1 \end{array}\right.$

$L^{h}=-\frac{1}{N} \sum_{y=1}^{H} \sum_{x=1}^{W} L_{x y}^{h}$

bbox预测损失：
$L^{b}=\sum_{i=1}^{N}\left\|o^{i}-\hat{o}^{i}\right\|_{1}+\mid s^{i}-\hat{s}^{i} \|_{1}$
$o$ 为预测偏移， $s$ 为预测大小。

ReID分支损失：
$L^{r}=-\sum_{j=1}^{K} \sum_{i=1}^{K} q_{j} \log \left(p_{i}\right)$
$q$ 为one-hot的GT类别标签集合， $p_i$ 为预测分类的概率。

总体损失为：
$\begin{array}{c} L^{d}=L^{h}+L^{b} \\ L=\frac{1}{2}\left(\frac{1}{e^{\omega_{1}}} L^{d}+\frac{1}{e^{\omega_{2}}} L^{r}+\omega_{1}+\omega_{2}\right) \end{array}$

实验

采用了FairMOT相同的MIX数据集。

消融实验：

RelationTrack: Relation-aware Multiple Object Tracking with Decoupled Representation

RelationTrack