一、介绍

由于输入图片的尺寸变化以及感兴趣目标的尺寸变化，有效感受野（ERF）根据不同任务进行调整是很重要的。即使在相同的任务中，对于一个具体的卷积层ERF的优化也是不同的，不同的有效的搜索算法适用于不同的任务。

目前大多数的方法直接在相对粗糙的搜索空间中对骨架网络架构进行搜索，忽略了膨胀卷积的精细内部结构，膨胀卷积的卷积核是一个用于调整不同任务ERF的高度有效的超参。

为此，作者提出了一个膨胀卷积的新变体Inception卷积，它包含了尽可能多的膨胀模式，如下图1。Inception卷积中，所有通道，卷积层，轴（维度）都被独立定义。

虽然Inception提供了密集的ERF搜索可能，但是如何进行搜索，还需要被讨论。这里作者首先参考了神经架构搜索（NAS）中的进行自动优化操作的增值工作DARTS和one-shot（SPOS）。但是这两个搜索方法并不适合本任务。

在DARTS中，一个块中的所有操作在训练时必须全部运用，以便相互注意从而找到最优值，但是在Inception卷积层（块）中，膨胀模式的数量太大，对于两个通道，如果有四个不同的选择，那么最终就会产生16中不同的结果，显然这对GPU和算力是一个巨大的要求。

SPOS训练时会对操作序列进行采样，但是在Inception卷积块中的搜索空间是及其巨大的，无法定义一个公平的采样策略满足操作。

为此作者提出了自己的搜索策略：有效膨胀优化算法EDO。EDO中，超网中的每一层都是一个标准的卷积操作，其卷积核包括所有的可能膨胀模式。对于超网进行预训练后，通过解决统计优化问题，为每个卷积层中的每个通道选择膨胀模式。对于每一层，通过最小化原始卷积层和用所选择的扩张模式裁剪出的扩张卷积的输出期望之间的L1误差，用预先训练的权值来解决选择问题。最终搜索代价几乎为0，唯一的计算量就是对训练好的权重的统计，相较于之前的两种搜索算法，该方法更加适用这个任务，实验也证明了其有效性。

二、方法

首先谈一个神经架构搜索NAS技术，这是一个自定进行网络结构设计的过程。早期的搜索过程由于要计算每个候选可能，因此计算代价是昂贵的，目前以及有很多方法有所进展，包括在膨胀卷积方面的相关工作。但是由于搜索空间的局限性，无法处理一个卷积层中的极大量的可能操作。

1. 问题表述

一个Inception卷积层对于每个通道都有二维的独立膨胀参数，表示为：
$\boldsymbol{d}=\left\{\boldsymbol{d}_{x}^{i}, \boldsymbol{d}_{y}^{i} \mid \boldsymbol{d}_{x}^{i}, \boldsymbol{d}_{y}^{i} \in 1,2, . ., d_{\text {max }}, i \in\left\{1,2, \ldots, C^{\text {out }}\right\}\right\} \tag{1}$
$\boldsymbol{d}^i_x$ 和 $\boldsymbol{d}^i_y$ 是过滤器（卷积） $x$ 和 $y$ 轴在第 $i$ 个通道的扩张倍率，范围为1到 $d_{max}$ ， $C_{out}$ 表示输出通道数。一个单独的Inception卷积层的候选结构数目为 $d_{max}^{2C_{out}}$ 。本论文的一个目的就是开发一个算法可以通道对集合 $\boldsymbol{d}$ 的搜索获得最佳感受野。

2. 解决

尽管NAS是在具体搜索空间中获得有效结构的一种方法，但是在Inception卷积块中存在 $d^2_{max}$ 种膨胀模式和 $d_{max}^{2C_{out}}$ 个候选，显然NAS的两种主要方法DARTS和SPOS都不适合。

回想DARTS使用两个独立的数据集分别训练结构权重和操作权重，然后使用结构权重来表示相应的操作的重要程度，虽然所得到的体系结构权重可能在操作之间均匀分布，但以这种方式获得的操作仍然包含一个良好的网络，这显示在一个预训练的超网中的权重信息具有指导操作的选择的作用。

顺着这个思想，作者提出了EDO，将问题转变为一个基于预训练的超网的统计优化问题。

超网
给定一个网络体系结构和它需要适应的任务，超网会保留了它的体系结构，同时改变了内核的大小以覆盖所有候选的扩展模式。例如，一个卷积层的内核大小为 $2 k + 1$ ，在超网中就使用 $2kd_{max}+1$ 作为所有候选膨胀模式的最大宽和高，超网在给定的任务上进行预训练。

PS：超网在任务上进行预训练的一个作用就是避免每次选择该子网加入到预测结构中时，仍需要重新训练参数。可以直接将预训练的参数一起加入到预测结构中，节约了重新训练的时间，加快网络搜索时间。但是虽然速度快，但是很难对所有模块进行充分的训练，因此不一定能获得真正的子网排序关系。

统计优化
对于每个卷积层的权重为 $\boldsymbol{W} \in R^{C_{o u t} \times C_{i n} \times\left(2 k d_{\max }+1\right) \times\left(2 k d_{\max }+1\right)}$ ，定义 $\boldsymbol{W^i} \in R^{C_{in} \times\left(2 k d_{\max }+1\right) \times\left(2 k d_{\max }+1\right)}$ 为在超网中扩展的第 $i$ 个卷积滤波器的权值。定义 $\boldsymbol{W}_{\boldsymbol{d}_{x}^{i}, \boldsymbol{d}_{y}^{i}}^{i} \in R^{C_{i n} \times(2 k+1) \times(2 k+1)}$ 为 $从d_x^i$ 和 $d_y^i$ 决定的在 $\boldsymbol{W}^i$ 上的位置裁剪的膨胀卷积过滤器。大概如下图的意思。

将膨胀选择看作是一个优化问题，使得原本预训练获得的拓展权重 $\boldsymbol{W}$ 和裁剪获得的权重 $\boldsymbol{W_d}$ 之间的 $L_1$ 误差最小化: $\min _{\boldsymbol{d}}\left\|E[\boldsymbol{W} \boldsymbol{X}]-E\left[\boldsymbol{W}_{\boldsymbol{d}} \boldsymbol{X}\right]\right\|_{1}\tag{2}$

$\text { s.t. } \boldsymbol{d}_{x}^{i}, \boldsymbol{d}_{y}^{i} \in\left\{0,1, \ldots, d_{\max }\right\} .\tag{3}$
$\boldsymbol X\in R^{B\times C_{in}\times H \times W}$ 为这个卷积层的输入，其中 $B$ 为batchsize， $H, W$ 为宽和高。 $\boldsymbol{W}$ 和 $\boldsymbol{W_d}$ 都独立于 $\boldsymbol X$ ，优化进一步表达为： $\left\|E[\boldsymbol{W} \boldsymbol{X}]-E\left[\boldsymbol{W}_{\boldsymbol{d}} \boldsymbol{X}\right]\right\|_{1}=\left\|\boldsymbol{W} E[\boldsymbol{X}]-\boldsymbol{W}_{\boldsymbol{d}} E[\boldsymbol{X}]\right\|_{1} \tag{4}$

$=\left\|\left(\boldsymbol{W}-\boldsymbol{W}_{\boldsymbol{d}}\right) E[\boldsymbol{X}]\right\|_{1}\tag{5}$

要准确地解决上述问题，需要对整个训练数据集的 $\boldsymbol X$ 求平均值。由于BN层在CNN中是常见的，于是假设 $\boldsymbol X$ 已经通过了一个BN操作，且每个通道的 $γ$ 和 $β$ 相同，由于H,W的平移不变性和B的置换不变性，则认为 $\boldsymbol X$ 的任何位置都分布相同，则目标公式进一步简化为：
$\left\|\left(\boldsymbol{W}-\boldsymbol{W}_{\boldsymbol{d}}\right) E[\boldsymbol{X}]\right\|_{1}=E\left\|\left(\boldsymbol{W}-\boldsymbol{W}_{\boldsymbol{d}}\right) \mathbf{1}\right\|_{1}\tag{6}$
$\sum_{1}^{C^{o u t}}\left\|\left(\boldsymbol{W}^{i}-\boldsymbol{W}_{\boldsymbol{d}_{x}^{i}, \boldsymbol{d}_{y}^{i}}^{i}\right) \mathbf{1}\right\|_{1} \tag{7}$

E是 $\boldsymbol X$ 中所有位置的期望值, $\boldsymbol 1$ 为和 $\boldsymbol X$ 等尺寸的全1矩阵，如此可以通过公式7遍历每个过滤器 $\boldsymbol W^i$ 的所有膨胀模式 $(\boldsymbol d^i_x,\boldsymbol d^i_y)$ 获得一个具体卷积的膨胀选择 $\boldsymbol d$ 。