网易雷火 2019 春季人工智能工程师实习生笔试题

1. 定向选择、不定项选择和填空题

主要考察了卷积神经网络参数量计算、感知野计算、卷积后图像的大小计算、GAN 的损失函数、贝叶斯网络、L1 L2正则化、概率论、Python、Shell、数据库等知识，比较全面琐碎。

2. 编程题

3. 简答题

SVM 对偶问题推导

支持向量机的基本模型为
$\begin{matrix} <mlabeledtr> \\ <mtext> (1) </mtext> \\ {\begin{matrix} <mstyle displaystyle="false" scriptlevel="0"> m i n \frac{1}{2} ∣ ∣ w ∣ ∣^{2} </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> s . t . y_{i} (w^{T} x_{i} + b) ⩾ 1, i = 1, 2, . . . m </mstyle> \end{matrix} \\ </mlabeledtr> \end{matrix}$
对上式的约束添加拉格朗日乘子 $α_{i} ⩾ 0$ ，则该问题的拉格朗日函数可写为
$\begin{matrix} <mlabeledtr> \\ <mtext> (2) </mtext> \\ L (w, b, α) = \frac{1}{2} ∣ ∣ w ∣ ∣^{2} + <munderover> \sum i = 1 m </munderover> α_{i} (1 - y_{i} (w^{T} x_{i} + b)) \\ </mlabeledtr> \end{matrix}$
令 $L (w, b, α)$ 对 $w$ 和 $b$ 的偏导为零可得
$\begin{matrix} <mlabeledtr> \\ <mtext> (3) </mtext> \\ w = <munderover> \sum i = 1 m </munderover> α_{i} y_{i} x_{i} \\ </mlabeledtr> \end{matrix}$
$\begin{matrix} <mlabeledtr> \\ <mtext> (4) </mtext> \\ 0 = <munderover> \sum i = 1 m </munderover> α_{i} y_{i} \\ </mlabeledtr> \end{matrix}$
将 (3) 式代入到 (2) 式，并考虑 (4) 式的约束，就可以得到式 (1) 的对偶问题
$\begin{matrix} <mlabeledtr> \\ <mtext> (5) </mtext> \\ {\begin{matrix} <mstyle displaystyle="false" scriptlevel="0"> m a x <mstyle displaystyle="true" scriptlevel="0"> <munderover> \sum i = 1 m </munderover> α_{i} - \frac{1}{2} <mstyle displaystyle="true" scriptlevel="0"> <munderover> \sum i = 1 m </munderover> <munderover> \sum j = 1 m </munderover> α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} </mstyle> </mstyle> </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> s . t . <mstyle displaystyle="true" scriptlevel="0"> <munderover> \sum i = 1 m </munderover> α_{i} y_{i} = 0 </mstyle> </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> α_{i} ⩾ 0, i = 1, 2, . . . m </mstyle> \end{matrix} \\ </mlabeledtr> \end{matrix}$

Sigmoid 和 Relu 求导，Relu 相较 Sigmoid 优点，怎么解决梯度消失和爆炸

Sigmoid 函数
$f (z) = \frac{1}{1 + e^{- z}}$
$f^{'} (z) = \frac{e^{- z}}{(1 + e^{- z})^{2}} = \frac{1}{1 + e^{- z}} \cdot \frac{e^{- z}}{1 + e^{- z}} = f (z) \cdot (1 - f (z))$

Relu 函数
$f (z) = m a x (0, z)$
$f^{'} (z) = {\begin{matrix} <mstyle displaystyle="false" scriptlevel="0"> 1 </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> <mtext> if </mtext> z > 0 </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> 0 </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> <mtext> if </mtext> z < 0 </mstyle> \end{matrix}$

Relu 相较 Sigmoid 梯度较大，神经网络收敛速度较快。

梯度消失：BN、引入残差网络
梯度爆炸：BN、梯度裁剪

Dropout 为什么可以正则化，怎么反向传播

Dropout 每次会让一部分神经元随机失活，这样就不会让某一个神经元占据主导作用，也就是不会让某一个神经元的权重过大，从而可以避免过拟合。反向传播的时候我们只将梯度反向传播到那些激活的神经元上去即可。

获取更多精彩，请关注「seniusen」!