介绍

显著性目标检测旨在找到一个图片或者一个视频中最引人注目的目标或者区域，并且从复杂的背景中以明确的界限突出他们。本文是一篇基于视频的显著性目标检测（VSOD），由于任务的特性，需要充分探索帧内空间特征和帧间的时间信息。

本文的主要贡献：

设计一个局部-全局的优化网络以分层的方式来对简单融合的特征进行微调，从而充分利用局部和全局的多尺度特征的相关性。
通过一个基于GCN的自适应赋权策略进一步探索不同类型特征的相关性，通过强调有效特征抑制无效特征，从而学习更具辨别性的特征。

方法

主要网络模型框架如下所示：

可以发现LGRN是一个双流的编码解码结构，主要包括两个成分，一个编码器一个解码器。

编码器包括两个特征特征提取器，以便从RGB流和光流分别提取多尺度特征。主要贡献在于解码器的设计，以一种分层的结构，融合不同的特征，利用一个局部全局优化结构优化简单的特征融合，最终产生预测的显著性图。不同于已存在的方法采用一个简答的特征融合技术，如此更加能够探索特征的相关性。

生成和融合多尺度特征

编码器层，使用两个backbone用于特征提取，然后从RGB图像和相应的光流图像生成多尺度特征。使用 $I^s\in R^{w\times h\times 3}$ 表示相应的视频RGB帧，以及 $I^t$ 表示光流。然后多尺度特征可以表示为：
$\left\{I_{l}^{s}\right\}_{l=1}^{L_{s}}=B B N_{s}\left(I^{s}\right), \quad\left\{I_{l}^{t}\right\}_{l=1}^{L_{t}}=B B N_{t}\left(I^{t}\right) \tag{1}$
$BBN_s$ 和 $BBN_t$ 表示为时间域和空间域的backbone网络。

对于每个具体层，时间和空间流的通道数可以不同，即使相同流，不同层的通道也不同，为此采用一个通道对齐技术来调整通道大小： $f_{l}^{s}=C A\left(I_{l}^{s}\right), \quad f_{l}^{t}=C A\left(I_{l}^{t}\right) \tag{2}$

$C A$ 表示接着BN层和Relu激活的卷积层，如此所有特征通道数不同得以解决： $f^t_l\in R^{w\times h\times c_0}$ 。
如此最终可以获得一系列多尺度特征图： $\{f^s_l\}^{L_s}_{l=1}$ ， $\{f^t_l\}^{L_t}_{l=1}$ ，特征图维度相同，都为 $({w\times h\times c_0})$ 。

获取特征后，进行分层融合。对于 $l$ 层特征的融合，多尺度特征通过一个元素级乘法将不同域的特征整合，表示为： $\begin{aligned} f_{l}^{s} &=f_{l}^{s}+\operatorname{Conv}\left(f_{l}^{s} * f_{l-1}^{s} * f_{l}^{t}\right) \\ f_{l-1}^{s} &=f_{l-1}^{s}+\operatorname{Conv}\left(f_{l}^{s} * f_{l-1}^{s} * f_{l}^{t}\right) \\ f_{l}^{t} &=f_{l}^{t}+\operatorname{Conv}\left(f_{l}^{s} * f_{l-1}^{s} * f_{l}^{t}\right) \end{aligned} \tag{3}$
$C o n v (\cdot)$ 表示带有BN和relu的卷积操作， $f^s_l$ 和 $f^t_l$ 是相应的时空特征。

由于RGB和光流图是高度相关的，简单的融合可以提取重叠显著性区域，有效抑制背景噪声（残差和concat操作），但这样就不能突出整个显著对象，严重影响显著性检测器的性能，作者提出的方法可以缓解这个问题。

局部优化

局部优化模块（LRM）的目的是为了分层优化融合特征，主要有一系列的局部优化块（LRB）组成，每个模块探索相邻层的相关性。

为了充分利用检测结果，这里采用回馈机制向前传播特征（蓝色线）。使用提出的基于GCN的自适应赋权机制充分探索输入特征的相关性，该赋权方法可以增强有用特制，抑制无效特征，驱动网络学习更具辨别性特征。

LRB框架为下图（a），将高级别空间特征 $f^s_l$ ，低级别特征 $f^s_{l-1}$ 和时间特征 $f^t_l$ 以及回馈特征 $f_b$ 作为输入，具体使用 $F_l = \{f_1,f_2,f_3,f_b\}$ 表示四种输入特征，为充分探索四种特征相关性，将他们构成一个图，表示为 $G_l = \{V_l,E_l\}$ ， $V_l = \{v_1,v_2,v_3,v_b\}$ 表示四个顶点， $E_l$ 表示所有的边。 $v_i$ 为一个向量，通过对输入特征 $f_i$ 进行一系列 $3\times 3$ 卷积核全局池化GAP $1\times 1$ 获得。

通过余弦相似度构建一个我们建立了加权邻接矩阵 $A_l$ ，定义特征之间的相关性： $a_{i, j}=\cos \left(v_{i}, v_{j}\right), v_{i}, v_{j} \in V_{l} \tag{4}$

如此通过信息之间的传播，让GCN网络学会自适应赋权。使用 $X^{(m)}$ 表示节点 $v_i$ 在GCN $m$ 层的状态， $X^{(0)} = V_l$ ，定义GCN为： $X^{(m)}=\sigma\left(D_{l}^{-\frac{1}{2}} A_{l} D_{l}^{-\frac{1}{2}} X^{(m-1)} W_{l}^{(m)}\right) \tag{5}$
$σ$ 为一个确定的激活函数， $D_l$ 为 $A_l$ 的对角度矩阵， $W^{(M)}_L$ 表示第 $m$ 层的相关可学习参数。

对于每个LRB，包含 $M_l$ 个GCN层，其权重代表输入特征的重要性，然后聚合特征 $r = R(X^{(M)})$ ， $R (\cdot)$ 为一系列全连接层和Relu激活函数组成。最终通过如下三个操作优化最终特征： $\begin{array}{l} \tilde{f}_{i}=r_{i} * f_{i}, f_{i} \in F_{l} \\ \tilde{F}=\operatorname{Cat}\left(\tilde{f}_{1}, \tilde{f}_{2}, \ldots, \tilde{f}_{i}\right) \\ \hat{F}_{l}=G_{l}\left(\tilde{F}, W_{l}\right) \end{array}\tag{6}$

$\hat F_l$ 表示优化后的特征图， $G_l(·)$ 表示 $1\times 1$ 卷积操作，参数为 $W_l$ 。最终如此操作后优化了所有相邻特征。

全局优化

局部优化只能够优化相邻特征图，无法探索全局范围的特征图相关性，为此，提出了全局优化模块（GRM）进行进一步优化（上图（b））。

GRM的输入为LRMs产生的多尺度特征集合和一个回馈特征，表示为 $F_g = \{\hat f_1,\dots,\hat f_n,\hat f_b\}$ ，和LRB类似的方法探索全局范围内特征的相关性。构建 $G_g = \{V_g,E_g\}$ 表示相互关系，节点 $V_g = \{\hat v_1,\dots,\ \hat v_n,\hat v_b\}$ ， $E_g$ 表示所有 $G_g$ 的边。 $v_i$ 通过一个卷积操作集合和一个GAP操作获得。

然后通过GCN进行消息传播和学习自适应权重：
$\begin{aligned} \hat{X}^{(m)} &=\sigma\left(D_{g}^{-\frac{1}{2}} A_{g} D_{g}^{-\frac{1}{2}} X^{(m-1)} W_{g}^{(m)}\right), m=1, . ., M \\ \hat{r} &=R\left(\hat{X}^{(M)}\right) \end{aligned} \tag{7}$

$A_g$ 是 $G_g$ 的相邻权重矩阵，用于编码特征相关性的强度，如Eq.4相同。 $D_g$ 为 $A_g$ 的度矩阵， $W_g$ 包含相关参数。最终GRM使用全局信息优化所有多级特征： $\begin{aligned} \tilde{f}_{i} &=\hat{r}_{i} * \operatorname{Cat}\left(\hat{f}_{i}, \hat{f}_{b}\right), \\ g_{i} &=G_{i}\left(\tilde{f}_{i}, W_{i}\right), i \in 1, \ldots, n, \end{aligned} \tag{8}$

$G_i(·)$ 为 $1\times 1$ 卷积， $g_i$ 表示 $\hat f_i$ 优化后的版本。 $\hat f_i$ 只利用局部信息进行优化，而 $g_i$ 还可以获得更加全局的信息。

如图1所示，LRMs可以重利用GRM传播的全局信息，从而更有效的整合局部和全局信息，为最终的显著性预测发现更加有效的信息和关联。

损失函数

首先考虑使用二分交叉熵（BCE）损失函数，用于测量预测的显著性图和GT的距离： $L_{b c e}(S, G T)=-\sum_{i=1}^{w * h}\left[g_{i} \log P\left(s_{i}\right)+\left(1-g_{i}\right) \log \left(1-s_{i}\right)\right] \tag{9}$

$s_i\in S$ ， $g_i\in GT$ 分别代表在 $i$ 位置的显著性预测图 $S$ 的概率和 $G T$ 标签。

出去BCE loss，还采用一个组合损失来训练网络，包括BCE，IoU loss和 Focal loss，IoU loss $L_{IoU}$ 在语言任务中常用，用于计算GT和显著性区域的相似度，定义为： $L_{I o U}(S, G T)=1-\frac{\sum_{i=1}^{w * h} s_{i} * g_{i}}{\sum_{i=1}^{w * h}\left(s_{i}+g_{i}-s_{i} * g_{i}\right)}\tag{10}$

focal loss $L_{foc}$ 用于整合类不平衡问题： $L_{f o c}(S, G T)=\left\{\begin{array}{ll} -\alpha\left(1-s_{i}\right)^{\gamma} \log s_{i} & g_{i}=0 \\ -(1-\alpha) s_{i}^{\gamma} \log \left(1-s_{i}\right) & g_{i} \neq 0 \end{array}\right. \tag{11}$
$α$ 是平衡因子， $γ$ 用于减少易分类采样的损失，加强难样本的参数。

最终组合损失定义为：
$L=L_{b c e}+L_{I o U}+L_{f o c} \tag{12}$

Video Salient Object Detection via Adaptive Local-Global Refinemen

LGRN

介绍

方法

生成和融合多尺度特征

局部优化

全局优化

损失函数

实验