介绍MLP,CNNs(ResNet,VGG等),RNNs(LSTM、GRU等)的原理。

4. CNN为什么用ReLU,为什么不用sigmoid? RNNs为什么用tanh不用ReLU?ReLU的问题以及解决方案。
5. 梯度消失与梯度爆炸。
6. 常用的深度学习的trick?Batch Normalization,初始化的方法,Dropout,Weight Decay,Shuffle,Learning rate的调整,Attention等。
7. 为什么CNN可以处理文本,原理在哪里。为什么CNN在文本卷积的窗口大小和Embedding的维度一般是一样的?

CNN本身就是DNN的带约束结构