论文地址:链接
源码地址:链接

主要创新点:

  1. 提出了一个新颖的交叉关联网络建模学习独立任务表达,有效减少检测和ReID任务竞争,且增加任务之间的协同。
  2. 引入一个尺度感知网络来融合特征,从而提升不同尺度下的目标特征的弹性。

一、 相关介绍

首先剖析目前one-shot方法的过程的缺陷。

  1. 检测和ReID任务之间存在大量额外的计算:
    当前one-shot方法以及将目标类别置信度,目标位置信息和ID信息都由一个Embedding表示,虽然有效,但是忽略了他们之间的区别。这个embedding的学习可能是模糊的,只为了追求一个任务最终性能的话,可能会导致另一个表现的下降。例如检测任务中需要相同类的不同目标的embedding具有相似的语义,而ReID任务可能需要学习两目标之间的区别性语义。
  2. MOT中的大尺度变化:
    传统ReID任务中的图片大小一般固定为256×128,但是在多目标中,目标会逐帧动态的改变,因此需要具有尺度感知能力。但是,最近的one-shot方法都考虑的是使用单一的分辨率,缺少了缩放后目标的表示能力。

为了缓解竞争问题,CSTrack首先将检测和ReID任务进行解耦为两个独立的分支,用以学习独立任务表示。然后将给予两任务的特征使用自注意力进行自关联和交叉关联。自关联促进独立任务学习,交叉关联促进两者协同学习。同时为了结尾目标缩放问题,引入了一个尺度感知网络,即使用一个空间和通道注意力机制,作用于特征,从而提升不同分辨率下的目标相关的嵌入的影响,最后整合不同高分辨率的特征作为输出,帮助学习缩放感知表达。

二、 方法

基于JDE采用两个分支的结构来加强检测和ID embedding任务,如下图1。但是JDE的检测和IDembedding使用相同的特征作为输入。为了强化任务间的独立性,CSTrack改变了这个思想,受自注意力和多头嵌入机制启发,使用一个新颖的交叉关联网络(CCN)来解耦输入,如图2。对于ID embedding分支,考虑到JDE只是用1×1卷积作用于来自固定的分辨率的原始图像产生的特征图,缺少表示不同大小目标的能力,所以这里改良为一个规模感知自注意网络(SAAN)来进行不同分辨率特征融合,如图3。

2.1 交叉关联网络(CCN)


该网络用于学习检测和ReID任务的共性和特性。不同通道间的自关联映射关系来增强特征表示的个性,通过一个互相关机制共享两任务的特征来实现共性学习。

CCN结构如图2所示,设检测获得特征为 F ∈ R C × H × W F∈R^{C×H×W} FRC×H×W。通过一个平均池化层获得统计信息 F ′ ∈ R C × H ′ × W ′ F'∈R^{C×H'×W' } FRC×H×W T 1 T_1 T1 T 2 T_2 T2是通过 F ′ F' F经过不同的卷积操作获得的两种特征图,将他们reshape为 { M 1 , M 2 } ∈ R C × N ′ \{M_1,M_2\}\in R^{C×N'} { M1,M2}RC×N,其中 N ′ = H ′ × W ′ N' = H'×W' N=H×W。如图2,对 M 1 / M 2 M1/M2 M1/M2和他们的转置分别进行矩阵乘法。最后通过一个row softmax层,获得每个任务的自相关权重映射 { W T 1 , W T 2 } ∈ R C × C \{W_{T_1} ,W_{T_2}\} ∈ R^{C×C} { WT1,WT2}RC×C,最终计算结果为:
w T k i j = exp ⁡ ( M k i ⋅ M k j ) ∑ j = 1 C exp ⁡ ( M k i ⋅ M k j ) , k ∈ { 1 , 2 } (1) w_{T_{k}}^{i j}=\frac{\exp \left(\mathbf{M}_{\mathbf{k}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{k}}^{\mathbf{j}}\right)}{\sum_{j=1}^{C} \exp \left(\mathbf{M}_{\mathbf{k}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{k}}^{\mathbf{j}}\right)}, \mathbf{k} \in\{1,2\} \tag{1} wTkij=j=1Cexp(MkiMkj)exp(MkiMkj),k{ 1,2}(1)
其中 w T k i j w_{T_{k}}^{i j} wTkij代表通道 i i i j j j T k T_k Tk内的关系。

类似的在矩阵 M ! M_! M! M 2 M_2 M2的转置进行矩阵乘法,在通过row softmax层,获得交叉权重映射 { W S 1 , W S 2 } ∈ R C × C \{W_{S_1} ,W_{S_2}\} ∈ R^{C×C} { WS1,WS2}RC×C
w S i j = exp ⁡ ( M 1 / 2 i ⋅ M 2 / 1 j ) ∑ j = 1 C exp ⁡ ( M 1 / 2 i ⋅ M 2 / 1 j ) (2) w_{S}^{i j}=\frac{\exp \left(\mathbf{M}_{\mathbf{1} / \mathbf{2}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{2} / \mathbf{1}}^{\mathbf{j}}\right)}{\sum_{j=1}^{C} \exp \left(\mathbf{M}_{\mathbf{1} / \mathbf{2}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{2} / \mathbf{1}}^{\mathbf{j}}\right)} \tag{2} wSij=j=1Cexp(M1/2iM2/1j)exp(M1/2iM2/1j)(2)

w S i j w_{S}^{i j} wSij表示某个任务第 i i i个通道对另一个任务的第 j j j个通道的作用。

通过一个可训练的参数 λ λ λ,将两个权重融合,获得 { W 1 , W 2 } ∈ R C × C \{W_{1} ,W_{2}\} ∈ R^{C×C} { W1,W2}RC×C
W 1 / 2 = λ × W T 1 / T 2 + ( 1 − λ ) × W S 1 / S 2 (3) \mathbf{W}_{\mathbf{1} / \mathbf{2}}=\lambda \times \mathbf{W}_{\mathbf{T}_{1} / \mathbf{T}_{2}}+(1-\lambda) \times \mathbf{W}_{\mathbf{S}_{1} / \mathbf{S}_{2}} \tag{3} W1/2=λ×WT1/T2+(1λ)×WS1/S2(3)

最后,将原始特征图 F F F重排序为 R C × N , N = H × W R^{C×N},N = H×W RC×NN=H×W。分别和学习到的权重映射进行矩阵乘法,最终获得每个任务的增强表示,这种残差形式也可以防止信息丢失。

2.2 尺度感知注意力网络(SAAN)


如图3,通过SAAN来完成不同分辨率下的特征聚合,从而保证ID embedding的鲁棒性。首先将1/16和1/32比例的特征(相对于输入图像的大小)上采样为1/8,通过3 × 3卷积层进行特征编码。

为了增强目标相关特征,抑制背景噪声,引入空间注意力(SAM)来处理特征,如图3 (b)所示。

然后将不同的尺度的特征图concat到一起,送入由平均池化和最大池化组成的通道注意力模型(CAM)中,用以学习输入特征的不同统计信息,最后输出层是一个1D的卷积层和一个全连接层,然后通过元素相加来连接。

学习到的1D通道注意力映射是通过元素乘法在特征上应用的。最后使用3×3的卷积层将特征图投影到512个通道,即为 E ∈ R 512 × W × H E\in R^{512×W×H} ER512×W×H。在(x,y)出的目标锚的ReID特征 E x y ∈ R 512 × 1 × 1 E_{xy}\in R^{512×1×1} ExyR512×1×1可以由后续的ReID任务提取。ID训练损失和训练方法学习JDE。

三、实验

1.消融实验:

JDE和CSTrack的ID embedding特征的关联可视化比较(CSTrack可以获得一些具有辨别性的ID特征):

对比: