论文地址:链接

一、 介绍

作者认为MOT任务对于数据标签的需要来提高他的模型表现是几乎等价于该标签数据所需要的消耗的资源的。费时费力费钱的标注肯定是可以换来模型的提升的。于是作者提出了一个无监督的方法,尝试使用无标签的数据创建一种free-labels的双阶段范式。

首先使用无标签的视频和相应的检测集合产生追踪标签,然后学习一个ReID网络去预测输入图片中产生的这个标签。在整个论文中,只考虑了在回避轨迹级注释的情况下的监督。
这也是第一个证明了简单的无监督ReID网络对于这种上下文内容的有效性,相较于复杂的有监督网络,容易训练。

二、 方法

目标是利用大量的无标签视频来学习ReID模型,无监督学习可以通过产生标签来进行学习。即通过无标签视频和相应的检测边界框,首先产生追踪标签,然后通过给定检测预测产生的标签来学习ReID网络。

2.1 框架:产生追踪标签进行学

主要为两个细节:1.生成标签;2.学习网路

生成标签:将视频集合中的视频都单独经过目标检测器,然后使用下图左侧中的的一个无监督时空关联模型来获得简单的连续的轨迹或者轨迹段,这一步的输出是每个视频的带有噪声的轨迹标签集合。

训练ReID模型:现在有了每个视频的噪声轨迹标签,目标就是使用上图右侧的一个网络去学习一个ReID网络。由于没有轨道级监督,所以难点就在于如何利用好数据的规律(轨迹段)。这里存在两个假设:1.视频之间相互独立(任意两个视频没有相同的轨迹);2.一个视频内的轨迹段相互独立(每个轨迹段属于不同的人)。如果满足以上假设,那么每个轨迹段都可以被认为是一个独立的类。但是由于第二个假设往往是不满足的,由于遮挡等问题,往往一个人会被分到不同的轨迹段。

可代替的方法就是从相同的轨迹段中形成正对,从不同视频或者相同视频中的同时产生的轨迹中获得负对。这样成对可以学习到一个孪生网络来对比两张图片,并预测是否为同一人。然后可以使用对抗损失或者其他损失来进行训练,最终获得这么一个ReID网络。

2.2 主要方法


主要过程如图1所示。
Step(i):只利用边界框和组合匈牙利算法的卡尔曼滤波去模拟标签。因为没有使用外貌信息,所以轨迹标签是由噪声的。
Step(ii):假设任意两视频不共享轨迹,为每条轨迹分配一个独一无二的标签,使用交叉熵训练网络预测所给图片的任意所属轨迹段的标签。推理阶段将ReID整合替换入已存在的框架中,其余不做改变。

CenterTrack中,使用他的无监督模型来提取轨迹,并且使用DeepSORT框架获得我们的ReID网络对其进行微调。

四、 实验

1.MOT数据集上指数对比,证明确实比有些监督方法优秀,但是使用的追踪器是高度依赖ReID成分的。

2.下图实验可以发现与完全不使用ReID网络相比,使用ImgaeNet预训练的ReID在一定程度上提高了IDF1分数,但未能达到相当大的上限。

3.消融实验

这是第一个提出发展MOT无监督ReID网络方向的文章,并且证明了这个简单的方法表现却可以和监督方法同行。