原文地址：Robust Face Alignment Under Occlusion via Regional Predictive Power Estimation

pdf版翻译原文已上传百度云，内容有整理过格式的完整图片与公式，
链接：https://pan.baidu.com/s/1jJ8y7Ts 密码：y7cm

摘要

近年来，人脸对齐已经得到了很好的研究。然而，当人脸对齐模型被应用到带有严重遮挡的人脸图片时，其性能则显著恶化。在本文中，我们没有直接利用可见标注来对遮挡感知模型进行训练，而是通过一个基于局部回归森林票选结果的模型调整方案解决了这个问题。在该方案中，一些分割后区域的回归森林选票一致性将被用于确定该区域对于预测人脸坐标点定位的可信度，也就是区域的预测能力。区域预测能力可在蕨测试阶段为每个区域所对应的蕨确定其选票。随后，我们将在通过为每个蕨中的选票增加权重的方式应用全局票选方法，即基于随机蕨的级联姿态回归。在最具有挑战性的数据集——COFW与300-W中，本文提出的方法与现存的人脸对齐模型相比，性能更为优越。除此之外，该方法在未对明显遮挡进行建模的情况下，能够对带有严重遮挡的图片以高达72.4%的准确率就图片中部分区域是否属于人脸这一问题进行正确判断。

关键字：人脸对齐、遮挡、随机森林、级联姿态回归、模型调整

1 绪论

人脸对齐，或者换句话说，人脸图片中如瞳孔中心、鼻尖这样的一组人脸特征点的定位过程，是计算机视觉领域中被深入研究的话题。人们对于人脸特征点自动定位这一话题产生兴趣的原因在于其可被应用于许多重要场景中，如人脸识别、人脸表情动画及人脸表情理解等。近年来，针对人脸对齐这一问题，学者们已经取得了许多重大的进展，并且有些针对复杂环境下人脸数据集的工作取得了非常好的结果。然而，大多数人脸数据集都不存在显著遮挡，打个比方，被广泛使用的Labelled Facial Parts in the Wild（LFPW）数据集中具有平均2%的遮挡。真实场景中的人脸图片，比如最近出现的COFW数据集则更具有挑战性。上述工作中的模型无法很好地处理由于遮挡产生的特征缺失情况，因此在应用于这样带有严重遮挡的图片时，性能会大幅度地下降。如图1所示，现实世界中的人脸图片经常存在遮挡物，如太阳镜、头发、手、围巾以及其他不可预测的物体，然而目前几乎没有工作明确地对带有遮挡的人脸对齐进行研究。

要想明确地对遮挡问题进行处理其实是非常困难的，原因有二。第一，与人脸上形状的类内变化相比，遮挡物大多在表观与形状上存在较大的差异，它们可以以各种不同的尺寸大小随机在人脸上的任意区域出现。第二，遮挡问题同时也在某种程度上是一种鸡与鸡蛋的问题，在进行人脸对齐工作的时候应该忽视遮挡物的因素，但是一个特征点是否被遮挡往往需要经过准确的人脸对齐之后才能够判别。因此，现今大多数工作仅仅考虑独立特征点的遮挡状态并且将被遮挡的特征点看作是非结构化的噪声源。另外，他们需要在训练过程对遮挡进行标注，手工标注或是人工合成。这些方法成功的同时也显示出了一系列的弊端：

独立地处理每个坐标点的遮挡状态忽视了遮挡物通常是其他物体或表面这一关键问题，因此遮挡物不是以一个单独像素点的形式，而是以连续区域的形式出现。
随机合成的遮挡模式对于描述现实场景中的遮挡差异而言往往是不充分的。模型训练往往需要数量巨大的已标注且带有遮挡的人脸图片，而收集带有遮挡的人脸图片并且对其进行遮挡状态标注的代价十分高昂。
由于特征往往从一个区域中提取，而不是一个独立像素点，像素水平的遮挡检测限制了其在人脸分析中的实际应用。

本文提出的方法旨在处理遮挡下的人脸对齐并克服上述提到的弊端。文章方法的整体概览如图1所示。给定一张人脸图片，我们首先在检测到人脸之后使用过度分割方法（over-segmentation）将图片分为一些相互不重叠的独立区域。其次，我们将基于人脸特征检测的局部回归森林票选方法应用于预测人脸定界框内每个区域的能力。这也可以被称作是区域的预测能力，其实质上是对于某一区域内，对人脸对齐这一工作而言，有效信息的数量的一种度量。该步骤的输出是一个密集的区域预测能力图，其也表明了每个区域是否属于该人脸的可能性。该区域预测能力图将通过改造过的级联姿态回归方法在最后的人脸对齐工作中与原始人脸图片共同被使用。总的来说，本文中我们一共做出了以下贡献：

我们以无监督的方式得到由区域预测能力图表示的人脸面具（即遮挡）。也就是说，我们在训练模型时没有使用任何遮挡标注或是遮挡模式合成，而是根据预先从普通人脸特征检测中训练得到的回归森林模型中的选票的一致性得到遮挡结果。这遵循着一种基于碎片的霍夫票选方案。遮挡预测在区域水平并具有两个将其区别于先前工作的两大重要优势：第一，它是密集的，即每个在人脸定界框内的像素都具有象征其是否属于人脸的可能性；第二，它是结构化的。在过度分割过程中，人脸区域与遮挡样式都被将完好地保存。
我们将近来的人脸对齐模型通过加入区域预测能力的方法进行调整，使其对于部分遮挡检测具有更强的鲁棒性。核心思想在于我们在人脸对齐过程中以一种不同的方式利用了被遮挡的、错误的特征。该调整仅在测试阶段进行，也就是说，我们要调整的模型是预先训练好的并且不需要额外的标注或是重训练。我们将改进后的方案在许多先进的人脸对齐方法中进行测试，其中级联姿态回归方法显示出了明显的性能改进。
我们提出了一种从局部回归森林检测衍生出来的初始化方案，其可提高从训练阶段到测试阶段人脸定界框的鲁棒性。
我们通过为每张人脸图片进行手工标注遮挡的方式扩展了COFW数据集，使其能够用于以后人脸遮挡预测性能评估的相关研究。
我们在两个最具有挑战性的数据集——COFW数据集与300-W标准数据集上对本文所提出的方法进行了评估。我们在人脸对齐这一问题上显示出了与当前先进的方法可比的，甚至是更好的实验结果。另外，我们也展示了该方法可对图片内区域是否属于人脸做出准确率高达72.4%的正确判断。

2 相关工作

人脸对齐所使用的信息源有典型的两种：人脸表观信息（即纹理信息）和形状信息。基于空间形状信息的使用方式，我们将其分为局部可变模型方法与全局姿态回归方法。局部可变模型方法通常依赖有区别性的局部检测并使用明显的可变形状模型来规范化局部输出。而全局姿态回归方法则直接以一种全局的方式将姿态（即一组坐标点的具体坐标）进行回归。

局部可变模型通常需要为每个人脸坐标点训练得到区别化的局部检测算子，这一需求可通过现今许多分类或回归方法予以实现。尽管有些方法没有利用到形状信息，由于只有少数坐标点具有判别性且每个坐标点都存在多数候选坐标，学者常在后期工作中结合局部检测与形状模型来实现实验。形状模型不仅可对搜索区域实现限制，还可对局部搜索结果进行矫正。由于局部方法对噪声较为敏感，其在遮挡情况下的检测效果不佳。同样，当人脸坐标点数量增加时，由于需要对每个坐标点单独进行局部检测，所以其训练和测试的效率将急剧下降。

全局姿态回归方法将姿态看作是一个整体并经常以递归或是级联的方式对形状进行调整。值得一提的是，CPR框架面世以来，全局迭代姿态对齐工作得到了巨大的进展。该方法直接学习一个结构化的回归函数来推断图片中整个人脸形状（即人脸坐标点的位置），并且明显地缩小了在训练集中出现的对齐误差。每个迭代阶段的主要随机蕨回归器使用基于形状索引的特征作为输入。

人脸对齐中的部分遮挡引起了非常少的关注。由于基于局部的方法的局部检测算子在处理遮挡问题时存在固有的弱势，其在存在严重遮挡的情况下存在一定的问题，全局形状限制通常会导致局部最优情况的发生。对比之下，全局方法虽然可以避免局部最优的情况，但是由于从遮挡区域提取的特征将会直接地在每次迭代过程中对全局形状产生影响，该方法也无法很好地解决遮挡问题，可能会导致姿态结果与真实结果大相径庭。现今工作大多将焦点放在合成过的数据或是少数的遮挡模式（如太阳镜、围巾、手掌）上，它们假设人脸图片上仅有非常小的一部分被遮挡。然而，在真实场景中，遮挡模式间存在着巨大的差异并且往往难以预测。Burgos-Artizzu等人提出了以遮挡为中心的方法，其利用了遮挡信息并提高了CPR的鲁棒性。该方法对坐标点的位置进行估测并赋予其相对应的遮挡标签（标记其是否被遮挡）。在每次迭代中使用N个不同的回归器，每个回归器都被训练过，以便其仅使用9个预定义的图片区域中一个区域里的特征。在测试阶段，回归器的输出将通过与每个回归器的区域的遮挡预测成反比的权重实现加权。然而，该方法无法处理具有较大变化的遮挡模式。上述方法在训练阶段都需要额外的遮挡标注，代价高昂。另外，它们为每个坐标点提供了遮挡标签，却没有考虑到遮挡通常覆盖一个区域的情况。

3 方法

A. 区域预测能力估测

由于其在现实条件下的不可预知的多样性，直接对人脸遮挡进行建模具有很大的挑战性。然而，遮挡物通常占据连续区域并且具有与人脸不同的外观，或者可通过强边缘被分隔。我们使用过度分割并随后估计一个分数，该分数反映人脸对齐中每个结果区域的能力/有效性。如图2所示，通过分析基于局部的随机森林算法的选票来估测得分，该分数与所讨论的区域属于人脸的概率密切相关。

我们使用Felzenszwalb和Huttenlocher提出的基于高效图的分割方法来获得一组区域，在理想情况下这些区域不会跨越多个对象。让我们用表示一组超像素集合，用表示该集合中的一个区域。每个图像的区域数量可能不同。每个区域的区域预测能力按以下两个步骤生成。

1）筛选回归森林中的选票：我们基于回归森林框架为人脸对齐建立区域预测能力的预测方法。在多个图像位置提取的图像碎片特征可为人脸坐标点的位置确定选票。然而回归森林中不是所有的选票都是有效的，因此，Yang与Patras建议根据其选票所选择人脸中心位置的一致性来去除不可靠的投票。

具体地说，我们从输入图片I 中提取出一组碎片。我们使用V 来表示结果集中的选票，来表示与人脸坐标点l 相关的选票子集。当随机森林选取出的人脸坐标点数量为L 时，。与从区域r 中选取出来的碎片相关的选票由表示。每一个选票元素包含两种选票信息：表示一个人脸坐标点，表示一组潜在变量，如人脸中心。与分别表示偏置变量与选票所对应的权重。的定义也与上述类似。人脸中心通过使用与所有人脸坐标点相关的选票（即来自所有图像碎片的选票）进行定位，这也保证了该位置估测的可靠性。我们将估测出的人脸中心使用表示，并假定一个选票元素v 通过来确定选票，为提取出选票元素的图片坐标。具体的筛选工作依照公式进行。

通过负指数函数，我们将范围[0，inf）中的距离度量转换为范围（0，1）中的接近度度量，其中β是控制此函数陡度的固定参数，为阈值。筛选过程可被看作是一个拒绝错误票选人脸中心的选票元素的过滤器。筛选过程结束后，与人脸坐标点l 与区域r 相关的选票集合可被分别表示为与。

该过程可被应用于有效移除人脸特征检测的无效选票。我们在这项工作中采用了类似的想法：a）估计每个分割区域的预测能力以及b）估计每个人脸坐标点由基于局部的随机森林定位的可靠性。

2）区域预测能力估测：由于区域预测能力估测难以产生所有类型的遮挡，因此很难将其作为监督分类问题。本文中我们采用一种无监督方法，根据区域统计和选票自信度从一组特征中估测区域预测能力。具体来说，我们利用投票筛选程序计算的选票自信度，直接从选票地图中提取特征：
粗略来说，较小的表示r 更可能为一个外部物体，如人脸的遮挡物。如图2所示，手区域的大部分位于定界框之外，因此其区域预测能力的具体值非常低。

鉴于这些特征，我们提出了一个基于规则的区域预测能力计算方法，如下所示。首先，我们确定最大的最可能的人脸区域。我们通过选择定界框内的M 个最大区域并假定它们中至少有一个属于人脸。在真实场景中这是一个合理的假设。从M 个区域中，我们选择一个有着最高的区域并将其放置在集合中。随后，我们将一些满足（这里我们将设置为50）的小区域放进中，再将中所有区域的预测能力设置为1。所有其他区域的预测能力将根据两大线索进行估测：1）区域内选票越不一致，该区域的预测能力越低；2）区域内越多部分超出人脸定界框，该区域的预测能力越低。公式化地，区域r 的预测能力可通过公式定义。

集合内的是区域能力预测的主要特征，其被归一化在[0，1]这个范围内。参数α是区域预测能力的下限，即区域预测能力的范围为[α，1]。我们根据经验将其设置为0.2，并将在实验部分讨论其相对于它的灵敏度。

B. 根据区域预测能力调整人脸对齐模型

在本节中，我们将首先描述原始的级联姿态回归（CPR）和鲁棒级联姿态回归（RCPR）框架，然后我们描述如何使用上述区域预测能力信息在不对遮挡进行建模的情况下来调整这些模型。

1）CPR和RCPR框架：CPR框架已被证明可以有效、准确地估测人脸地标的位置，其算法过程如算法1所示。RCPR框架在三个方面对CPR进行了改进：1）它提出了一种新的基于形状索引的插值特征，该特征对较大的形状变化具有更强的鲁棒性。2）它提出一种可以处理无效形状初始化的“智能重启”方案。3）他提出一种基于区域的局部回归方法来处理遮挡问题。这三种典型变化被称为RCPR（仅特征）、RCPR（特征+重启）以及RCPR（完整）。基于区域的局部回归（蕨）可被看作是第三极回归，它可以概括如下。给定图像中的人脸位置，将人脸分为3×3网格。不是训练单个增强型回归器，而是训练N个回归器，并且每个回归器仅允许从9个预定义区域中1个绘制特征。最后，每个回归器通过加权平均选票结合更新姿态信息。

2）根据区域预测能力调整模型：上述公式及算法过程都是利用了基于形状索引的特征。需要注意的是，尽管不同的弱回归器使用的图像特征是相对于相同的姿态进行索引的，但弱回归器是不同的随机蕨类，因此每个回归器使用的实际图像特征在每个回归器的不同像素位置处。我们首先展示本文方法如何根据区域预测能力来更新调整算法1框架。假定每个蕨回归器使用F 个特征，我们将用于计算第k 级回归器的特征图片位置表示为：。共有2F 个像素位置被用于产生F 个特征。上面我们已经计算了区域预测能力，因此我们可以根据它属于哪个区域直接获得像素预测能力。2F位置的整体预测能力是以平均值计算的。

C. 利用局部模型进行初始化

我们提出了一个初始化方案，通过由基于局部的回归森林方法使用估测的坐标点位置及其估测的可靠性。由于基于随机森林的方法是基于局部补丁特征来实现的，因此它本质上对于人脸定界框的位移更健壮，不需要初始化。

具体来说，我们用表示第III-B节中随机森林方法的估测值。在这里，我们也估计每个人脸坐标点的可靠性，也就是说，定位的是自信度正确的。这与大多数脸部对齐方法不同。一个坐标点的可靠性来源于对应用于定位的选票。

随后，我们找到了个被基于随机森林模型与RCPR模型所分享的普通坐标点。我们没有从训练集中随机选取m 个形状，而是选取了离随机森林估测的形状最近的m 个邻域。形状间的距离可通过加权后所有普通坐标的欧式距离之和来计算，权重可由公式7进行计算得到。此加权距离度量可以抑制具有大定位误差的坐标点的影响。

值得注意的是，在计算距离时，所有形状首先通过普罗克拉斯提斯分析归一化。该距离用于计算用于初始化级联方法的训练集中m 个最近的邻域。然而，它使用反投影来测量视点估测的检测与训练样本的相似性，而我们的方法测量形状空间的相似性并将其用于选择初始化形状。

D. 方法总结

本文所提出的方法可总结为算法2所示的算法流程。该方法依赖于两种模型，即回归森林和来自CPR家族的模型，即蕨，两者都不需要重训练。我们只使用从第一个模型导出的信息来调整第二个模型（即算法1），以加强其对于严重遮挡的鲁棒性。

4 实验结果

A. 数据集与实施细则

我们在最具有挑战性的两个数据集——COFW数据集与300-W数据集中来测试对本文所提出方法的性能。另外，我们还通过为507个测试图像提供面具的方式来对数据集进行了扩展，面具可用于指示图像中的像素是否属于人脸，示例图像如图3所示。对于局部回归森林，我们使用已有的训练模型，该训练模型在AFLW的一个子集上进行训练，其中包含大部分靠近正面人脸图像以确保19个人脸坐标点的可见性。我们使用所有的默认模型参数设置。鉴于我们的调整方法适用于这些模型，它不会利用任何训练实例或标注，例如遮挡标签。在我们的适应模型中，最大区域的数量，即III-A节中的变量M 被设置为3。用于初始化的最近邻域的数量，即III-C节中的变量m 设置为5——这是RCPR的默认设置。误差测量为两眼间距的一部分。我们注意到，在评估过程中，除了明确测试之外，更改第四章-B节中的面部检测器会引起人脸定界框移位。因此，我们将同一人脸检测器用于训练和测试，以进行公平的性能评估。

B. 结果

1）区域预测能力评估：人脸坐标点检测我们在40%的查准率获得78的准确率，这与RCPR获得的80准确率十分相近，不过我们与其相反的是在训练阶段没有使用任何遮挡信息。

2）特征分析：在区域预测能力评估中，我们主要依靠两个特征，和。为了显示的相关性，我们在图4中分别绘制了人脸区域和非人脸区域的特征值的直方图与坐标点可靠性的直方图。我们发现大多数在遮挡下坐标点的可靠性往往低于可见坐标点的可靠性。

3）COFW数据集上人脸对齐的评估：我们从CPR家族的四个模型作为基准方法：1）显式形状回归（ESR）；2）RCPR（特征）；3）RCPR（特征+只能重启）；4）RCPR（完整版本）。除了完整版本的RCPR在训练过程中需要用到坐标点的可见性标签，其他运行配置都与其他三种方法相同。

本文提出的基于RCPR（仅特征）方法与现今先进的方法在COFW数据集上的结果比较如图6所示。其它实验结果示例如图7所示。

在所提出的RPP模型中，参数α会对人脸坐标点定位产生影响。我们将其值从0增加到1。实验结果见表1。

4）300-W数据集上人脸对齐的评估：我们将m 的值从1更改为10，并记录300-W测试图像人脸坐标点的平均定位误差，结果如表2所示。随后，我们将本文所提出的方法与包括SDM、ESR、IFA与RCPR在内的最具竞争力的方法进行比较，结果如表3、4所示。

5）人脸定界框位移：在遮挡与不同头部姿态情况下，人脸检测本身是一个富有挑战性的问题。因此，对于我们在本文中讨论的大多数方法，人脸对齐从给定的人脸定界框开始。然而，现今有许多可用的不同类型的人脸探测器，同样的检测器无法保证可被用于训练和测试。我们在这一节评估由不同的人脸探测器对人脸定界框变化的影响（LFPW和HELEN测试图像），人脸检测算子示例如图8所示。

6）运行时间：我们在标准的3.30GHzCPU计算机上记录运行时性能。对于COFW测试图像，三部分的fps（分段（C++），回归森林(C++)和CPR（Matlab））我们提出的方法分别是12、17和11，而总体速度是4fps，这比RCPR（完整版本)方法快一点，远远超过了HPM方法（0.03FPS）。LFPW和HELEN的速度分别为3.3fps和1fps，当图像变大时，分割时间较长。仅将分割应用于人脸定界框周围的感兴趣区域而不是整个图像，可以使我们的方法更有效。然而，与在测试阶段报告LBF的执行时间3000fps相比，我们的方法还要慢得多。我们将致力于提高我们今后工作的效率。

5 结论

本文提出了一种基于区域预测能力的人脸对齐模型适应方法，其能够在具有挑战性的数据集上进行准确度很高的人脸对齐。此外，我们还展示了该方案在人脸区域预测中的有效性，可被应用于真实场景中的人脸分析，如人脸验证和人脸表情识别等。在今后的工作中，我们将在一个单一的优化框架中整合人脸分割、人脸区域预测和坐标点估计，并扩展区域预测能力进行人脸分析。

本文所展示的工作也引发了一些有趣的问题。首先，随着人脸对齐的快速发展，在无约束环境下更先进的人脸检测器的需求越来越大，因为人脸对齐方法大多是基于人脸检测的。第二，虽然目前大多数方法的工作可以在部分遮挡的情况下以非常快的速度取得很好的效果，但在实际应用中，开发一个基于测试图像难度水平的方法来选择一个合适的模型是非常有用的。

6 参考文献

[1] B. Amberg and T. Vetter, “Optimal landmark detection using shape models and branch and bound,” in Proc. IEEE Int. Conf. Comput. Vis., Nov. 2011, pp. 455–462.
[2] P. Arbelaez, M. Maire, C. Fowlkes, and J. Malik, “Contour detection and hierarchical image segmentation,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 33, no. 5, pp. 898–916, May 2011.
[3] A. Asthana, S. Zafeiriou, S. Cheng, and M. Pantic, “Robust discriminative response map fitting with constrained local models,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2013, pp. 3444–3451.
[4] A. Asthana, S. Zafeiriou, S. Cheng, and M. Pantic, “Incremental face alignment in the wild,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2014, pp. 1859–1866.
[5] T. Baltrušaitis, P. Robinson, and L.-P. Morency, “Continuous conditional neural fields for structured regression,” in Proc. 13th Eur. Conf. Comput. Vis., 2014, pp. 593–608.
[6] P. N. Belhumeur, D.W. Jacobs, D. Kriegman, and N. Kumar, “Localizing parts of faces using a consensus of exemplars,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2011, pp. 545–552.
[7] X. P. Burgos-Artizzu, P. Perona, and P. Dollár, “Robust face landmark estimation under occlusion,” in Proc. IEEE Int. Conf. Comput. Vis., Dec. 2013, pp. 1513–1520.
[8] X. Cao, Y. Wei, F. Wen, and J. Sun, “Face alignment by explicit shape regression,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2012, pp. 2887–2894.
[9] T. F. Cootes, G. J. Edwards, and C. J. Taylor, “Active appearance models,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 23, no. 6, pp. 681–685, Jun. 2001.
[10] T. F. Cootes, M. C. Ionita, C. Lindner, and P. Sauer, “Robust and accurate shape model fitting using random forest regression voting,” in Proc. 12th Eur. Conf. Comput. Vis., 2012, pp. 278–291.
[11] M. Cox, J. Nuevo-Chiquero, J. Saragih, and S. Lucey, “CSIRO face analysis SDK,” in Proc. IEEE Int. Conf. Autom. Face Gesture Recognit. Workshop, May 2013.
[12] D. Cristinacce and T. F. Cootes, “Feature detection and tracking with constrained local models,” in Proc. Brit. Mach. Vis. Conf., 2006, p. 6.
[13] M. Dantone, J. Gall, G. Fanelli, and L. Van Gool, “Real-time facial feature detection using conditional regression forests,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2012, pp. 2578–2585.
[14] P. Dollár, P. Welinder, and P. Perona, “Cascaded pose regression,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2010, pp. 1078–1085.
[15] B. Efraty, C. Huang, S. K. Shah, and I. A. Kakadiaris, “Facial landmark detection in uncontrolled conditions,” in Proc. Int. Joint Conf. Biometrics, Oct. 2011, pp. 1–8.
[16] P. F. Felzenszwalb and D. P. Huttenlocher, “Efficient graph-based image segmentation,” Int. J. Comput. Vis., vol. 59, no. 2, pp. 167–181, 2004.
[17] H. K. Galoogahi, T. Sim, and S. Lucey, “Multi-channel correlation filters,” in Proc. IEEE Int. Conf. Comput. Vis., Dec. 2013, pp. 3072–3079.
[18] G. Ghiasi and C. C. Fowlkes, “Occlusion coherence: Localizing occluded faces with a hierarchical deformable part model,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2014, pp. 1899–1906.
[19] M. Kostinger, P. Wohlhart, P. M. Roth, and H. Bischof, “Annotated facial landmarks in the wild: A large-scale, real-world database for facial landmark localization,” in Proc. IEEE Int. Conf. Comput. Vis. Workshops, Nov. 2011, pp. 2144–2151.
[20] B. Martinez, M. F. Valstar, X. Binefa, and M. Pantic, “Local evidence aggregation for regression-based facial point detection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 35, no. 5, pp. 1149–1163, May 2012.
[21] M. Mathias, R. Benenson, M. Pedersoli, and L. Van Gool, “Face detection without bells and whistles,” in Proc. 13th Eur. Conf. Comput. Vis., 2014, pp. 720–735.
[22] I. Patras and E. R. Hancock, “Coupled prediction classification for robust visual tracking,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 32, no. 9, pp. 1553–1567, Sep. 2010.
[23] V. Rapp, T. Senechal, K. Bailly, and L. Prevost, “Multiple kernel learning SVM and statistical validation for facial landmark detection,” in Proc. IEEE Int. Conf. Autom. Face Gesture Recognit. Workshops, Mar. 2011, pp. 265–271.
[24] N. Razavi, J. Gall, and L. Van Gool, “Backprojection revisited: Scalable multi-view object detection and similarity metrics for detections,” in Proc. 11th Eur. Conf. Comput. Vis., 2010, pp. 620–633.
[25] S. Ren, X. Cao, Y. Wei, and J. Sun, “Face alignment at 3000 fps via regressing local binary features,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2014, pp. 1685–1692.
[26] M.-C. Roh, T. Oguri, and T. Kanade, “Face alignment robust to occlusion,” in Proc. IEEE Int. Conf. Autom. Face Gesture Recognit. Workshops, Mar. 2011, pp. 239–244.
[27] C. Sagonas, G. Tzimiropoulos, S. Zafeiriou, and M. Pantic, “300 faces in-the-wild challenge: The first facial landmark localization challenge,” in Proc. IEEE Int. Conf. Comput. Vis. Workshops, Dec. 2013, pp. 397–403.
[28] J. Saragih and R. Goecke, “A nonlinear discriminative approach to AAM fitting,” in Proc. IEEE 11th Int. Conf. Comput. Vis., Oct. 2007, pp. 1–8.
[29] B. M. Smith, J. Brandt, Z. Lin, and L. Zhang, “Nonparametric context modeling of local appearance for pose- and expression-robust facial landmark localization,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2014, pp. 1741–1748.
[30] Y. Sun, X. Wang, and X. Tang, “Deep convolutional network cascade for facial point detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2013, pp. 3476–3483.
[31] P. A. Tresadern, P. Sauer, and T. F. Cootes, “Additive update predictors in active appearance models,” in Proc. Brit. Mach. Vis. Conf., 2010, p. 4.
[32] G. Tzimiropoulos and M. Pantic, “Optimization problems for fast AAM fitting in-the-wild,” in Proc. IEEE Int. Conf. Comput. Vis., Dec. 2013, pp. 593–600.
[33] M. Valstar, B. Martinez, X. Binefa, and M. Pantic, “Facial point detection using boosted regression and graph models,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2010, pp. 2729–2736.
[34] X. Xiong and F. De la Torre, “Supervised descent method and its applications to face alignment,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2013, pp. 532–539.
[35] F. Yang, J. Huang, and D. Metaxas, “Sparse shape registration for occluded facial feature localization,” in Proc. IEEE Int. Conf. Autom. Face Gesture Recognit. Workshops, Mar. 2011, pp. 272–277.
[36] H. Yang and I. Patras, “Face parts localization using structured-output regression forests,” in Proc. 11th Asian Conf. Comput. Vis., 2012, pp. 667–679.
[37] H. Yang and I. Patras, “Privileged information-based conditional regression forest for facial feature detection,” in Proc. 10th IEEE Int. Conf. Autom. Face Gesture Recognit., Apr. 2013, pp. 1–6.
[38] H. Yang and I. Patras, “Sieving regression forest votes for facial feature detection in the wild,” in Proc. IEEE Int. Conf. Comput. Vis., Dec. 2013, pp. 1936–1943.
[39] H. Yang and I. Patras, “Fine-tuning regression forests votes for object alignment in the wild,” IEEE Trans. Image Process., vol. 24, no. 2, pp. 619–631, Feb. 2015.
[40] H. Yang, C. Zou, and I. Patras, “Face sketch landmarks localization in the wild,” IEEE Signal Process. Lett., vol. 21, no. 11, pp. 1321–1325, Nov. 2014.
[41] X. Yu, J. Huang, S. Zhang, W. Yan, and D. N. Metaxas, “Pose-free facial landmark fitting via optimized part mixtures and cascaded deformable shape model,” in Proc. IEEE Int. Conf. Comput. Vis., Dec. 2013, pp. 1944–1951.
[42] X. Yu, F. Yang, J. Huang, and D. N. Metaxas, “Explicit occlusion detection based deformable fitting for facial landmark localization,” in Proc. 10th IEEE Int. Conf. Autom. Face Gesture Recognit., Apr. 2013, pp. 1–6.
[43] Z. Zhang, P. Luo, C. C. Loy, and X. Tang, “Facial landmark detection by deep multi-task learning,” in Proc. 13th Eur. Conf. Comput. Vis., 2014, pp. 94–108.
[44] X. Zhao, S. Shan, X. Chai, and X. Chen, “Cascaded shape space pruning for robust facial landmark detection,” in Proc. IEEE Int. Conf. Comput. Vis., Dec. 2013, pp. 1033–1040.
[45] F. Zhou, J. Brandt, and Z. Lin, “Exemplar-based graph matching for robust facial landmark localization,” in Proc. IEEE Int. Conf. Comput. Vis., Dec. 2013, pp. 1025–1032.
[46] X. Zhu and D. Ramanan, “Face detection, pose estimation, and landmark localization in the wild,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2012, pp. 2879–2886.