一、相关介绍

首先剖析目前one-shot方法的过程的缺陷。

检测和ReID任务之间存在大量额外的计算：
当前one-shot方法以及将目标类别置信度，目标位置信息和ID信息都由一个Embedding表示，虽然有效，但是忽略了他们之间的区别。这个embedding的学习可能是模糊的，只为了追求一个任务最终性能的话，可能会导致另一个表现的下降。例如检测任务中需要相同类的不同目标的embedding具有相似的语义，而ReID任务可能需要学习两目标之间的区别性语义。
MOT中的大尺度变化：
传统ReID任务中的图片大小一般固定为256×128，但是在多目标中，目标会逐帧动态的改变，因此需要具有尺度感知能力。但是，最近的one-shot方法都考虑的是使用单一的分辨率，缺少了缩放后目标的表示能力。

为了缓解竞争问题，CSTrack首先将检测和ReID任务进行解耦为两个独立的分支，用以学习独立任务表示。然后将给予两任务的特征使用自注意力进行自关联和交叉关联。自关联促进独立任务学习，交叉关联促进两者协同学习。同时为了结尾目标缩放问题，引入了一个尺度感知网络，即使用一个空间和通道注意力机制，作用于特征，从而提升不同分辨率下的目标相关的嵌入的影响，最后整合不同高分辨率的特征作为输出，帮助学习缩放感知表达。

二、方法

基于JDE采用两个分支的结构来加强检测和ID embedding任务，如下图1。但是JDE的检测和IDembedding使用相同的特征作为输入。为了强化任务间的独立性，CSTrack改变了这个思想，受自注意力和多头嵌入机制启发，使用一个新颖的交叉关联网络（CCN）来解耦输入，如图2。对于ID embedding分支，考虑到JDE只是用1×1卷积作用于来自固定的分辨率的原始图像产生的特征图，缺少表示不同大小目标的能力，所以这里改良为一个规模感知自注意网络（SAAN）来进行不同分辨率特征融合，如图3。

2.1 交叉关联网络(CCN)

该网络用于学习检测和ReID任务的共性和特性。不同通道间的自关联映射关系来增强特征表示的个性，通过一个互相关机制共享两任务的特征来实现共性学习。

CCN结构如图2所示，设检测获得特征为 $F∈R^{C×H×W}$ 。通过一个平均池化层获得统计信息 $F'∈R^{C×H'×W' }$ 。 $T_1$ 和 $T_2$ 是通过 $F^{'}$ 经过不同的卷积操作获得的两种特征图，将他们reshape为 $\{M_1,M_2\}\in R^{C×N'}$ ，其中 $N^{'} = H^{'} \times W^{'}$ 。如图2，对 $M 1 / M 2$ 和他们的转置分别进行矩阵乘法。最后通过一个row softmax层，获得每个任务的自相关权重映射 ${W_{T_1} ,W_{T_2}\} ∈ R^{C×C}$ ，最终计算结果为：
$w_{T_{k}}^{i j}=\frac{\exp \left(\mathbf{M}_{\mathbf{k}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{k}}^{\mathbf{j}}\right)}{\sum_{j=1}^{C} \exp \left(\mathbf{M}_{\mathbf{k}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{k}}^{\mathbf{j}}\right)}, \mathbf{k} \in\{1,2\} \tag{1}$
其中 $w_{T_{k}}^{i j}$ 代表通道 $i$ 和 $j$ 在 $T_k$ 内的关系。

类似的在矩阵 $M_!$ 和 $M_2$ 的转置进行矩阵乘法，在通过row softmax层，获得交叉权重映射 ${W_{S_1} ,W_{S_2}\} ∈ R^{C×C}$ ：
$w_{S}^{i j}=\frac{\exp \left(\mathbf{M}_{\mathbf{1} / \mathbf{2}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{2} / \mathbf{1}}^{\mathbf{j}}\right)}{\sum_{j=1}^{C} \exp \left(\mathbf{M}_{\mathbf{1} / \mathbf{2}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{2} / \mathbf{1}}^{\mathbf{j}}\right)} \tag{2}$

$w_{S}^{i j}$ 表示某个任务第 $i$ 个通道对另一个任务的第 $j$ 个通道的作用。

通过一个可训练的参数 $λ$ ，将两个权重融合，获得 ${W_{1} ,W_{2}\} ∈ R^{C×C}$ ：
$\mathbf{W}_{\mathbf{1} / \mathbf{2}}=\lambda \times \mathbf{W}_{\mathbf{T}_{1} / \mathbf{T}_{2}}+(1-\lambda) \times \mathbf{W}_{\mathbf{S}_{1} / \mathbf{S}_{2}} \tag{3}$

最后，将原始特征图 $F$ 重排序为 $R^{C×N}，N = H×W$ 。分别和学习到的权重映射进行矩阵乘法，最终获得每个任务的增强表示，这种残差形式也可以防止信息丢失。

2.2 尺度感知注意力网络(SAAN)

如图3，通过SAAN来完成不同分辨率下的特征聚合，从而保证ID embedding的鲁棒性。首先将1/16和1/32比例的特征(相对于输入图像的大小)上采样为1/8，通过3 × 3卷积层进行特征编码。

为了增强目标相关特征，抑制背景噪声，引入空间注意力（SAM）来处理特征，如图3 (b)所示。

然后将不同的尺度的特征图concat到一起，送入由平均池化和最大池化组成的通道注意力模型（CAM）中，用以学习输入特征的不同统计信息，最后输出层是一个1D的卷积层和一个全连接层，然后通过元素相加来连接。

学习到的1D通道注意力映射是通过元素乘法在特征上应用的。最后使用3×3的卷积层将特征图投影到512个通道，即为 $E\in R^{512×W×H}$ 。在(x,y)出的目标锚的ReID特征 $E_{xy}\in R^{512×1×1}$ 可以由后续的ReID任务提取。ID训练损失和训练方法学习JDE。

三、实验

1.消融实验：

JDE和CSTrack的ID embedding特征的关联可视化比较（CSTrack可以获得一些具有辨别性的ID特征）：

对比：

CSTrack：Rethinking the competition between detection and reid in multi-object tracking

CSTrack

一、 相关介绍

二、 方法

2.1 交叉关联网络(CCN)

2.2 尺度感知注意力网络(SAAN)

三、实验

一、相关介绍

二、方法