深度学习算法面试题

介绍MLP，CNNs（ResNet，VGG等），RNNs（LSTM、GRU等）的原理。

4. CNN为什么用ReLU，为什么不用sigmoid？ RNNs为什么用tanh不用ReLU？ReLU的问题以及解决方案。
5. 梯度消失与梯度爆炸。
6. 常用的深度学习的trick？Batch Normalization，初始化的方法，Dropout，Weight Decay，Shuffle，Learning rate的调整，Attention等。
7. 为什么CNN可以处理文本，原理在哪里。为什么CNN在文本卷积的窗口大小和Embedding的维度一般是一样的？

CNN本身就是DNN的带约束结构