Carreira J, Caseiro R, Batista J, et al. Free-Form Region Description with Second-Order Pooling.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(6):1177-1189.
Abstract:
语义分割和对象检测现在由对自下而上分组过程(分割)获得的区域进行操作的方法主导,但使用开发用于在固定形式(例如矩形)补丁上识别的特征提取器,其中完整图像作为特殊案件。这很可能不是最理想的。在本文中,我们专注于自由形态区域的特征提取和描述,并研究与固定形式对应物的关系。我们的主要贡献是新颖的汇集技术,捕获这些自由形式区域内的局部描述符的二阶统计量。我们引入了平均和最大池的二阶推广,以及从其嵌入空间的数学结构导出的适当的非线性,在没有任何类型的局部的语义分割实验中导致最先进的识别性能。特征编码。相比之下,我们表明,当特征提取被约束为在包括背景的前景和大部分的区域上操作时,基于码本的局部特征编码更为重要,这在图像分类设置中是典型的,而对于高精度的本地化设置,在自由形态区域上的二阶汇集产生的结果优于当代语义分段挑战中的获胜系统的结果,其中模型在训练和测试中都快得多。
SECTION 1
Introduction
由于自由形态区域与图像分类中使用的固定形式表示相比具有更高的对象信噪比,因此自然的想法是将特征提取分析为投入资源以直接建模区域内局部特征的统计。我们通过探索池化方法来实现这一想法,这些方法收集自由形态区域内局部特征的二阶信息,建模为对称矩阵。
概述。下一节将介绍相关工作。该公式在第2节中给出,其中我们介绍了二阶区域描述符及其相关的特征图。第3节描述了本地描述符丰富过程以及使用的不同基本本地描述符。第4节提出了一种加速重叠区域上的池化计算的方法。第5节中的实验侧重于区域分类和与图像分类的关系,而第6节则探讨了提出的语义分割方法。一般考虑因素以及未来工作的结论和建议见第7节。
1.1 Related Work
自由形态区域的识别与形状的识别密切相关,这是文献中广泛研究的问题。人们可以在形状识别中识别两种广泛的范例,这些范例在处理局部特征的方式上有所不同:使用对应关系或基于局部特征聚合。最近在语义分割方面也有相关的工作,这通常围绕使用自下而上分割获得的自由形态区域的分类。
1.1.1 Recognition using Correspondences
几种流行的形状识别方法试图使存储的样本的局部特征与测试区域的局部特征相匹配,从而最小化外观和形状变形。在本文中,我们专注于识别自动计算并可能受噪声影响的形状。
1.1.2 Local Descriptor Aggregation
最近,在大量低级图像特征上构建的二阶中心矩(协方差矩阵)已经与增强一起使用[27]。我们的工作追求的是稍微不同类型的二阶统计量,与一阶汇集中使用的更为密切相关。我们还专注于具有更大空间支持的特征,并且对于对象分类而言是流行的,例如,SIFT,使用从我们构造的对称矩阵的空间的数学结构导出的不同的,有效的切线空间投影[12],[28]并且重要的是,关注于自由形状区域而不是矩形块的情况。
我们提出的切线空间映射是正式推动的,在数学上与所使用的二阶表示相结合,不需要任何离线估计阶段,并且实现了如实验部分所示的优越性能。
Fisher Vector表示[30]及其变体[31]也使用二阶统计量进行识别。我们的方法在隐式二阶特征映射(Log-Euclidean与Fisher信息矩阵)和没有无监督学习阶段(例如码本构造)的情况下截然不同:原始局部特征描述符直接汇集在一个考虑每个特征描述的过程中孤立的区域 - 因此在我们的案例中没有对训练集中的图像描述符的分布进行建模。
1.1.3 Recognition and Segmentation
SECTION 2
Second-Order Pooling
2.1 Tangent Space Mapping
2.2 Power Normalization
SECTION 3
Local Feature Enrichment
3.1 Multiple Local Descriptors
SECTION 4
Efficient Pooling over Free-Form Regions
Caching over Region Intersections.
我们尝试了几种快速算法来生成超像素,包括k-means,CPMC区域[54]或owt-UCM [55]的交叉点的贪婪合并。我们调整阈值以产生大约500个超像素,我们发现这些超像素适合近似于使用CPMC在我们的实验中获得的区域R
Favorable region complements.
SECTION 5
Region Classification
Experimental details.
Evaluation.
Pooling.
Feature combination.
5.1 Undersegmentation and Image Classification
Caltech 101.
到目前为止,Caltech 101数据集[60]一直是编码和汇集技术的重要测试平台。尽管与PASCAL VOC相比存在局限性,例如每个图像具有单个物体,具有不自然的伪影以及缺乏遮挡,姿势和尺度变化,但大多数关于局部特征提取,编码和汇集的文献已经报道了Caltech 101的结果。这仍然是一个有用的基准。数据集包含所有对象的地面实况细分,但这些很少用于分类目的(少数例外包括[2],[38])。相反,大多数方法采用空间金字塔[7],将图像固定分解为方形单元,其中最大或平均合并与特定的特征编码方法一起使用[7],[22],[59]。我们使用原始SIFT描述符(例如,无编码)和我们在空间金字塔上提出的二阶平均池(不使用段)与这些方法进行比较。由于空间金字塔中每个单元格的全局描述符的串联,得到的图像描述符有点高维(使用SIFT为173.376维),但由于使用了线性分类器且训练样本的数量很少,因此学习只需要几秒钟。我们还使用带有RBF内核的SVM进行了实验,但没有发现线性内核有任何改进。
TABLE 3 Classification Accuracy on Caltech101 Using a Single Feature and 30 Training Examples per Class, for Various Methods
SECTION 6
Semantic Segmentation
Recent developments.
自我们最初的会议论文[49]以及ECCV 2012期间我们的完整系统的公共可用源代码以来,已经报道了一些基于我们提出的特征提取方法的改进[65],[66],[67],[68]]。使用我们相同的管道(包括我们基于CPMC的段生成)的语义分割结果在最近的R-CNN论文[5]中有所报道,其中我们的特征被来自AlexNet卷积神经网络(CNN)[11]的那些替换。- 在包含1.000个Imagenet类的一百万张图像上进行训练,然后在PASCAL VOC上进行微调。除了不同的特征提取之外,我们采用了精确的管道来生成提议[54],训练回归量并顺序产生语义分割[49]。VOC 2011报告的VOC分数为47.9,大致与我们的47.6相当,在显着减少的训练条件下获得(仅PASCAL而不是Imagenet + PASCAL)。这进一步提倡用于区域描述的二阶汇集的价值以及与标准分类或检测中使用的图像和矩形区域描述符相比的自由形式区域描述的特定性质。AlexNet在Imagenet图像分类中表现优于以前主导的非CNN方法 - 例如。Fisher矢量 - 约30%,R-CNN将PASCAL VOC检测数据集中的最新技术提高了30%。
6.1 Diagnostic Tests
作为最后一个实验,我们使用与前一小节相同的自下而上分割和推理程序进行了一组诊断测试。不同的是,为了限制潜在的可变性来源,我们没有使用PCA并使用一种设置,其中所有训练数据都适合记忆,通过训练'train-11'上的线性模型并测试'val-11'。目标是验证在区域分类部分获得的结论是否仍然可以保持自动获得的嘈杂的图形 - 地面分割。表6中显示的结果表明,以不同方式切断O 2 P特征提取过程所引起的相对损失与区域分类部分中的发现相当一致。O 2 P明显优于Nakayama等人的基线[29],这是文献中的相关特征提取方法。我们的log-Euclidean切线空间映射明显优于[29]中采用的白化。这并不奇怪,因为映射是形式上的动机,并且在数学上与我们使用的对称正定矩阵的空间结构一致,如2.1节所示。使用单个局部描述符时,SIFT-PCA-FISHER可获得最佳结果,但在维度方面成本较高。我们还使用HOG包含结果。为了处理自由形成区域,HOG细胞的纵横比在运行中适应以适合每个单独的区域边界框。区域外的图像渐变被清除(这导致更好的性能)并尝试了几种不同的网格配置,8×8网格证明是最好的。
SECTION 7
Conclusion
我们引入了基于二阶信息的自由形式区域的表示框架,该框架在没有任何基于码本的局部特征编码阶段的原始特征上运行,并且用于对象类别识别和语义分割。所提出的二阶汇集程序是正式推动的并且在数学上是一致的,实现起来非常简单,仅涉及几个参数,并且与线性分类器相关联地提供显着的准确度增益。我们还提出了局部描述符丰富的方法,这些方法仅在全局区域描述符维度的小幅增加时提高了性能,并提出了加速任意自由形式区域上的池化过程的技术。实验结果表明,我们的方法优于PASCAL VOC 2011语义分割数据集的最新技术,使用的回归量比最精确的方法快2个数量级[2]。我们已经从我们的网站在线公开提供了本文介绍的模型和方法的源代码,以支持对象分割,区域描述和场景理解的未来研究。未来的工作。除了这里提出的那些之外,可能存在许多有效的二阶池操作。对正定矩阵的研究似乎很有希望,并与核方法相似。内核文献可能包含本文提出的乘法特征交互的有趣替代方案,例如:χ2和交集核[19],[46]和除avg和max之外的聚合运算符。另一个令人兴奋的方向是探索我们的二阶池操作符,以便在深层体系结构中进行特征提取[11]。