论文地址:https://arxiv.org/abs/2104.03541

介绍与相关工作

传统的DBT方法,分为检测、特征表示学习和数据关联三步骤,随着检测器的效果提升可以获得很好的表现,但是效率不高。
对于联合学习检测和外貌特征的方法虽然可以达到SOTA,但是在在存在类干扰的情况下,外貌特征无法获得具有辨别性的和准确的匹配置信度(图1a),从而会影响关联,受限于局部表示符,辨别相似目标很困难。如图1c所示,

基于以上考虑,作者提出了一个相关网络去学习目标和上下文的拓扑信息。具体的使用一个空间相关层去记录目标和相对空间位置之间的关系。对于实时MOT而言,算量大的全局位置相关性的计算时奢侈的,这里作者通过限制每个金字塔特征图的搜索区域构建了局部相关量,且该量不受感兴趣目标类别的限制,如车等背景信息同样在推理的时候对目标的行为和相关推理起到积极作用(图1c)。建立每个空间位置及其上下文的密集对应,并通过自我监督学习明确地约束相关量。

由于卷积神经网络本身的局部感受野的限制,作者拓展了空间相关模型到时间维度,整合历史信息来减少目标检测的模糊性。

主要贡献:

  1. 提出了一个统一的相关追踪器CorrTracker去集中建模目标间的关联,并通过关联传送这种信息。
  2. 提出了一种局部结构感知网络,利用自监督学习提高了相似对象的可辨识性
  3. 将局部相关网络拓展到了时间维度

CorrTracker基于FairMOT的方法,基于FairMOT的anchor-free的检测方法,强调检测和回归任务的平衡性。

在基于光流的追踪任务中,CenterTrack直接预测目标中两帧的位移,但是这样的直接预测偏移需要额外的训练样本的位移注释,需要额外的数据扩充。CorrTracker直接预测每个目标的密集匹配置信度,类似于光流和相关滤波中的相关量的操作,CorrTracker的相关操作直接预测密集的局部性关性,将其看作是特征描述符的一部分。

不同于自注意力机制和Transformer,CorrTracker主要通过局部相关加权来编码上下文身份,用来增强模型鲁棒性。

方法

总体框架如下:


主要三个阶段:1.一般的特征提取,2.同时学习相关的时空依赖和预测检测,3.分配检测到轨迹实现关联。步骤1和2可微,组成端到端的训练结构。轨迹的初始化和终结类似DeepSORT,其主要贡献是对特征图上密集位置及其上下文之间的相关性进行高效建模,有助于在复杂场景中抑制干扰。

Motivation

对于每个输入视频帧 I t ∈ R H × W × 3 I_t ∈ R^{H×W×3} ItRH×W×3,使用检测器找到所有候选检测 D t = { d t i } i = 1 N D_t = \{d^i_t\}^N_{i=1} Dt={ dti}i=1N d t i = ( x t i , y t i , w t i , h t i ) d^i_t = (x^i_t , y^i_t , w^i_t , h^i_t ) dti=(xti,yti,wti,hti)该帧出现目标的边界框,已知轨迹 T t − 1 = { T t − 1 j } j = 1 M T_{t−1} = \{T^j_{t−1}\}^M_{j=1} Tt1={ Tt1j}j=1M T t − 1 j = { d 1 j , … , d t − 2 j , d t − 1 j } T^j_{t−1} = \{d_1^j,\dots,d_{t-2}^j,d_{t-1}^j\} Tt1j={ d1j,,dt2j,dt1j}。通过对比成对的裁剪区域和已存在轨迹估计亲密度矩阵 A ∈ R N × M A\in R^{N\times M} ARN×M,计算时通过联合考虑外貌特征和几何特征:
A i j = dist ⁡ ( f ( d t i ) , f ^ ( T t − 1 j ) ) + α IoU ⁡ ( d t i , d ^ t j ) (1) \mathbf{A}_{i j}=\operatorname{dist}\left(\mathbf{f}\left(\mathbf{d}_{t}^{i}\right), \hat{\mathbf{f}}\left(\mathbf{T}_{t-1}^{j}\right)\right)+\alpha \operatorname{IoU}\left(\mathbf{d}_{t}^{i}, \hat{\mathbf{d}}_{t}^{j}\right) \tag{1} Aij=dist(f(dti),f^(Tt1j))+αIoU(dti,d^tj)(1)

轨迹的辨别性特征 f ^ ( T t − 1 j ) \hat{\mathbf{f}}(\mathbf{T}_{t-1}^{j}) f^(Tt1j)随着外貌的变化通过常量赋权策略更新。置信度可以通过特征的距离获得。但是单单依赖特征是不充分的,因此边界框的几何信息也要利用上,可以有效的增加数据关联的结果。

基于patch的特征提取在之前就很流行了,但是这样裁剪的图片间的相关信息就丢失了,邻接空间关系只会被保留在坐标 d t i d_t^i dti中。直接使用Reid进行数据关联,而不考虑上下文信息,往往会造成较高的IDs以及降低模型追踪鲁棒性。为此,作者通过建模目标局部结构,进行干扰区分。

受光流启发,相关量的置信度建模目标的几何结构,通过设计的密集相关模型,探索MOT上下文信息,并且将相对位置编码进了相关量,用作辅助鉴别信息。

空间局部相关层

空间局部相关层用于建模一个相关结构用于关联目标和其邻居。在该层中,特征相似度只会被目标图片坐标的邻域进行评估。使用 l l l表示特征金字塔层, C l C^l Cl表示查询特征 F q l ∈ R H l × W l × d l F^l_q\in R^{H_l\times W_l\times d_l} FqlRHl×Wl×dl和推理特征 F r l ∈ R H l × W l × d l F^l_r\in R^{H_l\times W_l\times d_l} FrlRHl×Wl×dl之间的相关量定义如下: C l ( F q , F r , x , d ) = F q l ( x ) T F r l ( x + d ) , ∥ d ∥ ∞ ≤ R (2) \mathbf{C}^{l}\left(\mathbf{F}_{q}, \mathbf{F}_{r}, \mathbf{x}, \mathbf{d}\right)=\mathbf{F}_{q}^{l}(\mathbf{x})^{T} \mathbf{F}_{r}^{l}(\mathbf{x}+\mathbf{d}),\|\mathbf{d}\|_{\infty} \leq R\tag{2} Cl(Fq,Fr,x,d)=Fql(x)TFrl(x+d),dR(2)

x ∈ Z 2 x\in Z^2 xZ2是查询特征图中的一个坐标, d ∈ Z 2 d\in Z^2 dZ2是距离这个位置的偏移量,偏移限制为 ∣ ∣ d ∣ ∣ ∞ ≤ R ||d|| _∞ ≤ R dR,每个方向的最大运动量为 R R R。自然的可以将这两个看做是一个四维张量,且偏移维度可以进一步矢量化为1维,从而简化CNN操作。同时使用膨胀技巧增加感受野,使用像素级别的信息来将相关特征整合进一个统一的外貌特征。

通过一个前馈多层感知器编码上下文相关特征,实现通道的匹配: F C l = F t l + MLP ⁡ l ( C l ( F t l , F t l ) ) (3) \mathbf{F}_{\mathbf{C}}^{l}=\mathbf{F}_{t}^{l}+\operatorname{MLP}^{l}\left(\mathbf{C}^{l}\left(\mathbf{F}_{t}^{l}, \mathbf{F}_{t}^{l}\right)\right) \tag{3} FCl=Ftl+MLPl(Cl(Ftl,Ftl))(3)

non-local通过 F C l ∈ R H l × W l × d l F^l_C\in R^{H_l\times W_l\times d_l} FClRHl×Wl×dl增强成对信息的交互,生成四维的相关量: N L ( F C l ) ∈ R H l × W l × H l × W l NL(F^l_C)\in R^{H_l\times W_l\times H_l\times W_l} NL(FCl)RHl×Wl×Hl×Wl捕获了所有成对图片位置的密集的匹配置信度。计算量大且吃缓存。作者提出的构建相关量十分高效,对于全局相关,该局部相关模型减少了延迟的开销。实验如下:

金字塔多级相关


为了获得长范围相关性,作者提出了再金字塔特征学习相关性。一方面希望相关模型可以获得尽可能长距离的依赖,但是随着距离的增加,算力和效率会降低。另一方面也自然的需要多尺度目标的处理。该多尺度金字塔相关性的计算也可以看作是多粒度特征的补偿,覆盖范围 [ 0 , R × D × 2 l ] [0,R\times D\times 2^l] [0,R×D×2l],D为膨胀率。通过上采样从上层向下层传播相关性:
F ^ C l − 1 = C o n v ( U p s a m p l e ( F C l ) ) + F C l − 1 (4) \hat{\mathbf{F}}_{\mathbf{C}}^{l-1}=\mathbf{C o n v}\left(\mathbf{U p s a m p l e}\left(\mathbf{F}_{\mathbf{C}}^{l}\right)\right)+\mathbf{F}_{\mathbf{C}}^{l-1} \tag{4} F^Cl1=Conv(Upsample(FCl))+FCl1(4)

如此,可以获得目标和整个全局上下文的大约相关性。且该金字塔关联利用了视频中的自然时空一致性。

时间相关性学习

不同帧之间的相关性往往在MOT被忽略了,追踪器往往在关联阶段对遮挡进行处理。单帧的检测器很难保证获得很好的时间一致性,使得算法在遮挡方面表现不好。作者这里将空间局部相关引入时间维度,在不同帧之间为目标构建相关性,两帧之间构建的相关性可以看作是运动信息的学习。

具体在不同帧之间构建多尺度相关性,并且使用推理图片作为缓存增强图片特征。帮助追踪器客服目标遮挡和运动模糊,增强检测和id特征的一致性:
F ^ q ( x ) = ∑ ∀ ∥ d ∥ ∞ < R C l ( F q , F r , x , d ) ( 2 R + 1 ) 2 F r ( x + d ) (5) \hat{\mathbf{F}}_{q}(\mathbf{x})=\sum_{\forall\|\mathbf{d}\|_{\infty}<R} \frac{\mathbf{C}^{l}\left(\mathbf{F}_{q}, \mathbf{F}_{r}, \mathbf{x}, \mathbf{d}\right)}{(2 R+1)^{2}} \mathbf{F}_{r}(\mathbf{x}+\mathbf{d}) \tag{5} F^q(x)=d<R(2R+1)2Cl(Fq,Fr,x,d)Fr(x+d)(5) C l ( F q , F r , x , d ) = F q l ( x ) T F r l ( x + d ) , ∥ d ∥ ∞ ≤ R (6) \mathbf{C}^{l}\left(\mathbf{F}_{q}, \mathbf{F}_{r}, \mathbf{x}, \mathbf{d}\right)=\mathbf{F}_{q}^{l}(\mathbf{x})^{T} \mathbf{F}_{r}^{l}(\mathbf{x}+\mathbf{d}),\|\mathbf{d}\|_{\infty} \leq R \tag{6} Cl(Fq,Fr,x,d)=Fql(x)TFrl(x+d),dR(6)

类似于多头注意力,相同的采用嵌入特征和点积。实验中设置标准化因子为 ( 2 R + 1 ) 2 (2R+1)^2 (2R+1)2来进行局部聚合特征,这种缩小区域的设计也来自于MOT场景的运动先验。并且通过只缓存过去一帧的特征来进行减少内存消耗和加速运行,不过为了最大化准确率,长程模型至少保存5帧。

自监督特征学习

原先的相关学习模块通过学习测量不同目标之间的相似度,可以直接加入涨点。作者这里经过调研多任务学习提出了一个视觉目标追踪的语义监督和一个基于相关量的相应流的自监督训练。
具体的,设置GT标签为:
C ~ l ( F q , F r , x , d ) = { 1  if  y q ( x ) = y r ( x + d ) 0  if  y q ( x ) ! = y r ( x + d ) − 1  if  y q ( x ) < 0 (7) \tilde{C}^{l}\left(\mathbf{F}_{q}, \mathbf{F}_{r}, \mathbf{x}, \mathbf{d}\right)=\left\{\begin{array}{c} 1 \text { if } \mathbf{y}_{q}(\mathbf{x})=\mathbf{y}_{r}(\mathbf{x}+\mathbf{d}) \\ 0 \text { if } \mathbf{y}_{q}(\mathbf{x}) !=\mathbf{y}_{r}(\mathbf{x}+\mathbf{d}) \\ -1 \text { if } \mathbf{y}_{q}(\mathbf{x})<0 \end{array}\right. \tag{7} C~l(Fq,Fr,x,d)=1 if yq(x)=yr(x+d)0 if yq(x)!=yr(x+d)1 if yq(x)<0(7)
y y y是相应位置的特征图的id标签,忽视没有目标的位置 ( y Q ( x ) < 0 ) (y_Q(x)<0) (yQ(x)0),且使用类平衡交叉熵损失计算损失。

受启发与最近的自监督追踪,使用我们使用着色(colorization)作为一个代理任务来训练局部相关性:

I ^ q ( x ) = ∑ ∀ ∥ d ∥ ∞ < R C l ( F q , F r , x , d ) ( 2 R + 1 ) 2 I r ( x + d ) (8) \hat{\mathbf{I}}_{q}(\mathbf{x})=\sum_{\forall\|\mathbf{d}\|_{\infty}<R} \frac{\mathbf{C}^{l}\left(\mathbf{F}_{q}, \mathbf{F}_{r}, \mathbf{x}, \mathbf{d}\right)}{(2 R+1)^{2}} \mathbf{I}_{r}(\mathbf{x}+\mathbf{d}) \tag{8} I^q(x)=d<R(2R+1)2Cl(Fq,Fr,x,d)Ir(x+d)(8)
我们将颜色空间量化成离散的类别后,利用交叉熵的类别损失计算。

追踪框架

通过在迭代深度聚合模型之前增加了相关性学习模型修改FairMOT框架,模型保留了检测和ReID分支,增加了相关损失进行多任务学习。对于追踪推理,追踪器首先计算当前帧检测和过去轨迹相似度(公式2),然后使用匈牙利算法匹配。未匹配检测用于初始化新轨迹。为了减少假正,标记新轨迹为“inactive”,下帧匹配则轨迹修改为“active”状态。未匹配的轨迹则设置为“lost”状态。当一个轨迹的持续丢失时间 t l o s s t_{loss} tloss大于阈值 T l o s s T_{loss} Tloss时,将该轨迹删除。,过程中重新匹配上,则初始化为“active”状态。

运动状态建模和FairMOT相同,使用卡尔曼滤波。

实验

消融实验:

R在MOT17验证集上有效性验证:

MOTChallenge数据集实验:

部分数据及可视化: