Mixture-Kernel Graph Attention Network for Situation Recognition (翻译)

摘要

对图像做出除了明显的动作以外的理解,涉及到对场景上下文、参与的对象以及它们在捕获事件中所扮演的角色的推理。情景识别,近来提出的一种联合预测动词(动作)和一组语义角色和实体(名词)对的任务。使用动作框架标记图像需要根据观察到的图像内容为角色分配值(名词)。其中固有的挑战是输出角色分配和整体语义稀疏之间的丰富条件结构化依赖关系。在这篇论文中,我们提出一个新的混合核注意图神经网路架构来解决这些挑战。我们的GNN通过使用图形注意机制和角色对之间的上下文感知交互,在训练和推理过程中支持动态图结构。它还通过使用学习基的凸组合来表示图核来减轻语义稀疏性。我们通过在原位基准数据集上进行实验来说明我们的模型和设计选择的有效性,精确度比最先进的数据集提高了10%

介绍

近年来,在标准计算机视觉领域上诸如对象分类[6、15、16、19],对象检测[8、9、13],甚至静态图像的动作识别[33]等动任务上取得了巨大进步,这些任务独立地对画面中的对象或动作进行独立的推理。 然而,许多实际应用需要对图像内容进行更详细的理解和理解,这仍然是一个巨大的挑战。 Yatskar等人[32]最初提出的situation recognition问题。 该任务尝试探索这种更详细的图像理解。 在场景识别任务中,需要对动词以及一组语义角色和实体对进行推理。有效地,目标是用一组动作框架标记图像,其中每个特定动词的框架都包含一组固定的角色,这些角色定义了动作的上下文。 实例化框架需要根据观察到的图像内容为角色分配值(名词)。 所得到的框架(frame)使得结构化地访问必要的语义信息变得容易,例如,谁在执行动作,动作在哪里发生以及可能是什么结果。 图1说明了一个示例。
Yatskar[32]等人提出了任务的初始大规模数据集和baseline模型,之后针对场景识别的semantic sparsity的问题,他们又进一步改进了baseline,使用一个组合的条件随机场模型[31]。效果的提升归功于nouns之间的共享和数据增强。论文[17]中,作者探索了本课题的结构性质,并提出了一种基于图神经网络(GNN)的体系结构,该体系结构学会了捕获角色之间的成对依赖性。然而,他们的模型是有限的,并且假设不同角色之间的交互是全局的,即,给定一对角色,角色之间的交互独立于动词。 该模型还依赖于静态的全连接图结构进行训练和推理,这无法说明各种角色对之间交互的可变性。
考虑图2(右)所示的示例。 对于第一个图像,假设代理是猴子并且动作是“摇摆”,则发生动作的place更有可能是forest,而carrier是vine。 或者,对于第二个图像,秋千的出现应从直觉上增加agent是person以及动作在户外(outdoors)发生的可能性。 换句话说,对于由动词“ swinging”实例化的同一动作框架(verb frame),在顶部图像中,更显着的视觉成分是“ agent”; 在底部图像中是“carrier”。 这样,从直觉上讲,在两种情况下上下文信息的传播应该有所不同。 然而,现有模型[17]不能适应这样的灵活性,[17]假设角色之间的上下文信息是固定的。

为了解决这些局限性,我们建议对[17]中引入的GNN方法进行扩展和推广。为此,我们做出了许多核心的算法贡献。首先,我们的GNN架构通过使用图注意力机制以及角色对之间的上下文感知交互,在训练和推理过程中实现了动态图结构。结果,我们模型学习的图结构可以适应上一段中讨论的直觉。请参阅图2(左)中的注意图。其次,为减轻语义稀疏性,我们通过一组在学习过程中在所有图像上共享的基础内核的凸组合,构造了内核矩阵(对于给定的图像)。直观上,这有助于通过摊销学习和推论在相关动词之间共享内核。[t1] 另外,一组解开的学习基础内核有助于根据输入来对图上节点之间的信息流进行建模。最终的端到端方法与imSitu基准数据集[32]上的最新技术相比,可带来高达10%的实质性总体改进。
 [t1]这一点不是很懂在说什么?

相关工作

计算机视觉方面,图像和视频理解任务已经被广泛研究,有许多的任务,比如说场景分类[34],动作识别[20,28],视觉问答[2],以及图像标注(Image captioning)[1,12,24,29],这些任务都致力于更好的去理解图像的内容。最近关注的是图像[17,31,32]和视频[27]中的情境识别任务,这是本文的重点。 我们在下面回顾最相关的文献。

Situation recognition

Situation recognition 将动作识别的任务泛化到包含了参与的角色,物体,发生场所以及他们之间的交互信息。Yatskar等人引入了imSitu数据集,该数据集将一张图表示为一个表示其动作的动词,和一组语义上的角色-名词对,这些语义上的定义分别来自于WordNet[7]和FrameNet[3]他们提出的baseline CRF模型,可以预测一个包含了动词和动词-角色-名词对的三元组。在他们接下来的工作中[31],他们解决了数据集中语义稀疏性的问题,提出了张量组成函数以及扩展数据集以进一步提高性能的方法。Mallaya等人[21]将情境识别任务定位为,对于图像的动词,预测任意但固定的顺序的一系列nouns。 在这样的设置下,他们训练LSTM网络以预测与框架中给定角色相关的名词序列,并展示如何将经过情境识别任务训练的模型用于字幕图像并回答有关图像的问题。 Li等人[17]进一步概括了这种设置,并使用图形神经网络在角色之间传播信息并消除角色之间的顺序依赖关系。

图神经网络

.....在我们的工作中,我们基于门控图神经网络[18],通过使用门控功能更新节点状态来解决[23]中的收缩图假设问题。 我们还对局部计算施加了关注[26],以允许更灵活的传播。 最后,我们介绍了一种新型的混合内核,该内核可促进信息共享以及摊销推断和学习。

方法

imSitu数据集设定了动词V,名词N和frame F的离散集用于情况识别,其中每一个frame f∈F都由一组semantic roles(Ef)组成,而每一个semantic roles(),又与一个noun相关联。,其中空表示这个位置的名词要么不确定要么就是并未用到。这样的一组role和noun被定义为一个realized frame
对于每一张给定的图片,本任务需要预测S = (v,Rf),v即这张图的动作,Rf就是realized frame,例如,上面提到的图一,和动词jumping相对应的就是一个由5个role-value对组成的realized frame,形如 {(agent,jockey), (source, land), (obstacle, fence),(destination, land), (place, outdoor)} 

situation recognition作为图推理任务



与图像相对应的动词和语义角色在很大程度上相互依赖。 为了对这种依赖关系进行建模,我们将情境识别的任务介绍为基于图的推理问题。 给定数据集中的一个实例,我们实例化一个图形G =(A,B)。 图a∈A中的节点代表与图像关联的角色,并取自N的值。图的边b ∈ B,有向或无向,建模了role之间的关系。

3.1 图神经网络

在我们的工作中,我们使用门控图神经网络来预测每张图的situation。图三是我们提出的模型的一个概览。

对于给定的图片I,根据其相关联的动词,我们首先初始化一个图Gi=(A,B),其结点个数|A|等于当前动词v的realized frame涉及到的role的个数,结点的初始隐状态a∈A被初始化为如下形式:
其中,φn(i)是从,训练来预测给定图像中的名词的VGG-16网络的倒数第二个完全连接层获得的特征,v和e对应于所预测动词和对应于该节点的角色的one-hot编码。We和Wv就是动词和角色的嵌入矩阵。Win是将从CNN获得的特征映射到图结点的隐状态表示空间的变换矩阵,而⊙是同位元素乘法运算。每个结点的隐状态的更新以循环的方式进行,在时刻t,结点间的信息传递如公式2所示,Na是结点a所有的邻居的集合,ACCUMULATE和COMBINE的选择决定了GCN[30]的power(应该是指效果的好坏),在本工作中,其中ACCUMULATE运算为公式3所示。
用于建模结点之间的交互的basis kernels,ck是相关权重。d则是kernel vector空间的维度大小,αaa'是结点a和结点a'之间的权重,边的权重用到了类似于[26]的注意力机制。将kernel表达为一个混合的basis kernels使得我们可以将图拆解为一组独立的独立的图,从而为节点学习不相交的嵌入集。关于basis kernel的学习在3.3进行详细阐述。


COMBINE步骤是使用类似于[18]的门控机制制定的:

其中ra和za分别是重启、更新门,Wz,Wr,Wh为更新函数的权重,这样的一个状态更新机制使得信息的结合慢下来,从而保证上一个时刻的信息没有丢失。经过T个时刻的传递,已经被更新了的每个结点隐状态将会被用于预测与每个roles对应的nouns:,pe:n即与e对应的noun,是softmax函数,Wc是noun分类器的权重。在所有节点之间共享分类器,以解决该问题固有的语义稀疏性问题。

Loss