论文地址:TransTrack: Multiple-Object Tracking with Transformer

一、 摘要

Transformer中的Query-key机制运用于单目标中,可以也很好的利用过去帧目标特征来追踪当前帧的目标,有希望通过此建立一个联合检测追踪的MOT范式,问题就是Query-key方法由于无法检测新进入目标而变得几乎无法学习。

本文的TransTrack利用了Transformer的思想。充分利用Query-key机制的同时,引入可学习的query,以检测新加入的目标,这里类似于DETR的检测思想。

创新点:

  1. 简化过去的TBD的范式,基于Query-key进行联合检测和追踪。
  2. Transformer的拓展,利用可学习的Query进行新目标的检测,和过去的目标特征的query进行关联。
  3. 第一次将Query-key机制和Transformer结构利用在MOT,并达到了SOTA。

二、 介绍

回顾单目标追踪中,使用的孪生网络就是一种Query-Key机制,对象目标就是query,图像区域为key(图1b)。相同目标在不同帧中的外貌特征是极度相似的,能够使用Query-Key机制来输出有序目标集。
相同的思想运用于MOT,过去帧目标特征作为query,当前帧图像特征作为key(图1c)。但是直接引入表现很差,一个主要原因是新目标的出现,却没有相应的query加入,从而导致新进入目标的丢失。

本文提出的TransTrack,利用Query-Key机制追踪当前帧已经存在的目标的同时完成新目标的检测(图2)。基于transformer结构,输入key为当前帧的特征图,输入query为一系列过去帧的目标特征以及一系列可学习的query。可学习的query是在网络上中预先训练的一组学习参数,用以检测新目标和输出检测边界框。过去帧目标特征由过去帧检测产生,用于定位当前帧中已存在的对象和输出轨迹框,通过简单的匹配检测框和轨迹框完成输出。
本方法同时优化两个子网络完成当前帧轨迹框和检测框的检测,无需DBT范式那种独立优化。


传统的DBT范式下,首先检测器和深度外貌模型独立训练,因此无法相互利用各自的优点来提高表现;其次,两个单独的网络即检测器和追踪器,会增加模型的复杂度和计算代价。本方法是联合检测和追踪的一个网络,不同于传统的JDE范式,该方法没有使用任何的基于锚或者点的检测框架,而是使用基于query-key机制,将追踪目标定义为query。

三、 TransTrack

假设理想追踪模型输出目标集合有序且完备,Transtrack使用过去帧的学习到的目标query和目标特征作为输入。可学习的query在每一帧中解码为检测框获得共同对象检测结果,过去帧的目标特征解码为追踪框。最终在同一帧上使用IoU匹配策略关联追踪框和检测框完成追踪。

1. Pipeline

包括一个产生复合特征图的编码器和两个用于目标检测和目标传播的平行解码器。

主要结构:首先,当前帧的图片通过CNN提取特征图,和过去帧一起喂入编码器生成复合特征;然后可学习的query解码为检测框,过去帧的目标特征解码为追踪框;最后使用IOU匹配关联。

编码器中为了避免重复计算,当前帧计算的特征会暂时保存以便重利用。两个平行的解码器使用编码器中产生的特征作为共同的key,分别用于实现目标检测和目标传播。

目标检测:
检测使用了DETR的思想,使用一组可学习的参数作为query进行训练。检测时,key是输入图片获得的全局特征图,可学习的query用于寻找图片中感兴趣的目标,输出最终的检测预测(检测框)。

目标传播:
过去帧和当前帧的解码器结构相同,但是过去帧的解码器使用过去帧的目标特征作为query输入,这个继承特征包含了外貌特征和坐标信息,所以解码可以获得相应目标在当前帧的位置获得输出的追踪框。

边界框关联:
由于都是在同一帧上检测的目标,相同目标差距应该很小,直接使用IoU匹配策略来关联两种检测框集合,在使用KM算法对于IOU计算的相似度进行处理,获得匹配。未匹配成功的检测框认为是新增加的目标。

2. 训练

数据数据选择和传统相似,随机选择视频短序列的两帧或者连续帧,也可以是相邻帧的随机缩放或者转变的静态图片。

训练损失:
由于都是在当前帧上进行检测框和轨迹框的搜寻,所以可以直接使用一个训练损失直接训练两个解码器。

损失用于优化检测框和真实框之间的二分图匹配,定义如下:
L = λ c l s ⋅ L c l s + λ L 1 ⋅ L L 1 + λ giou  ⋅ L giou  (1) \mathcal{L}=\lambda_{c l s} \cdot \mathcal{L}_{c l s}+\lambda_{L 1} \cdot \mathcal{L}_{L 1}+\lambda_{\text {giou }} \cdot \mathcal{L}_{\text {giou }} \tag{1} L=λclsLcls+λL1LL1+λgiou Lgiou (1)
L c l s L_{cls} Lcls为focal loss用于预测分类和真实框的类别标签, L L 1 , L g i o u L_{L1},L_{giou} LL1Lgiou是归一化的中心坐标和边界框高宽与真实框之间的L1 loss和标准化的IoU loss; λ c l s , λ L 1 , λ g i o u λ_{cls},λ_{L1},λ_{giou} λcls,λL1,λgiou为超参。

四、 实验

训练数据为MOT17。

1. 消融实验

训练数据消融

Transformer结构消融

输入query消融

2.标准指标