ABD-Net: Attentive but Diverse Person Re-Identification
代码:https://github.com/TAMU-VITA/ABD-Net

摘要

这篇文章是基于注意力机制来做的。作者分析了,之前的方法获得的注意力特征往往不是非自然不相关的或者多样的。所以作者提出了一个注意的并同时多样的网络(Attentive but Diverse Network (ABD-Net))。ABD-Net在整个网络中无缝地集成了注意力模块和多样性规则化,以学习具有代表性、健壮性和更具判别力的特征。具体来说,介绍了一对互补的注意模块,分别关注于通道聚合和位置感知。然后,插入一个新的正交约束,有效地执行多样性的隐藏激活和权重。通过实验的对比,这篇文章也取得了SOTA的结果。

引言

行人重新识别(Re-ID)旨在将不同时间和地点的个人身份关联起来。给定一个查询图像和一组大型图库图像,person Re-ID用一个特性嵌入表示每个图像,然后根据特性嵌入与查询的相似性对图库图像进行排序。该问题常见的挑战包括身体错位、遮挡、背景扰动、视角变化、姿势变化和噪声标签等。
动机:Sun等人指出特征嵌入之间的相关性会严重影响匹配性能。然而,基于注意的模型并不能自然地保证低特征相关特性。他们方法会倾向于高维的特征。如下图所示,(i)是原图,(ii)是一般的注意力特征图,(iii)是注意力的但多样性的注意力特征图。多样性的注意力会让注意变得“广泛”。
图片说明
贡献:

  • 将复合注意机制引入到ABD-Net中,由通道注意模块(CAM)和位置注意模块(PAM)组成。
  • 提出了一种新的正则化方法,即谱值差正交性(SVDO),直接约束权重Gram矩阵的条件数
  • 实验基于Market-1501, DukeMTMC-Re-ID, and MSMT17

相关工作

行人重识别

行人重识别有两个关键的步骤:获得特征嵌入向量,和在一些距离矩阵上面进行匹配。在CNN之前大多都是手工特征和一些学习的特征。现在有很多从人体部位提取的图像级特征和局部特征都增强了鲁棒性的方法。

行人重识别中的注意力机制

将注意机制整合到深层模型中,以解决行人重识别中未对准的问题。

通过正交性的多样性

奇异值分解(SVD)可以很好的减少特征的相关性。但是计算量很大。
所以作者提出了一种新的正则化方法,谱值差正交性。

Attentive but Diverse Network

注意力

行人重识别的目标是关注与人相关的特征,同时消除不相关的背景。作者这个模块主要来自于一篇分割的文章,之前有幸还帮我老师审过AAAI,我觉得还不错,我老师也觉得能有6.5分的样子,但是另外几个审稿人打的分很低,被拒后,被CVPR接收了。

通道注意力模块

图片说明
众所周知,经过训练的CNN分类器中的高层卷积通道是语义相关的,并且通常具有分类选择性。CAM被设计用来对那些语义相似的通道进行分组和聚合。CAM的结构如上图所示。
给定输入的特征图,是通道个数,是特征图的大小。计算通道关系矩阵,采用如下的公式:
图片说明

表示通道对通道的影响程度。
最终的输出特征图如下公式计算得到:
图片说明

是一个高参数,调节CAM的影响程度,手工设定。

位置注意力模块

图片说明
这个模块的功能是在空间领域挖掘语义相关的像素。所以很好理解为和CAM是个相似的东西,但是这里我们关注的是每一个特征图中的每一个特征值对其他特征值的影响。为了能够得到这个关系矩阵,需要先对特征矩阵A通过卷积+BN+ReLU得到相同的B,C,D三个特征矩阵,然后类似于CAM计算得到一个的关系矩阵。上面的图,能够很好的说明这个过程。
至于为什么不直接在原特征上面进行关系矩阵的学习,这里也没有说清楚。笔者认为害怕影响到CAM的学习。

正交性正则化(Orthogonality Regularization)

再次强调,正交性正则化的目的是减少特征相关性,有利于最终的相似匹配。
给定特征图,首先将M变形为
提出了一种通过直接正则化的条件数来实现正交性的新方法:
图片说明
这里是系数,表示F的条件个数,定义为F的最大奇异值与最小奇异值之比。
为了降低计算度,将上面的式子转换为频谱值微分正交化正则:
图片说明
这里分别表示的最大和最小特征值。
虽然采用自动微分获得SVDPO的梯度,但是这个计算同样包含计算量昂贵的特征值分解。参考幂次迭代法来近似特征值可以减小计算量。如下:
图片说明
上式中X就是,用于计算特征值。具体实现,应该可以参考代码部分。

网络结构

图片说明

实验结果

图片说明
证明每个模块的作用。