有两面,两个小时,问题很多,挑出来现在能记得住的:
1.bert以及transformer的结构,以及transformer中的编码器和解码器哪一个速度更快
2.LSTM与GRU区别,什么时候用哪一个
3.1*1卷积核的作用
4.避免过拟合的方法以及原理
5.bert的一些trick
6.算法题,两个数组求差的最小值(归并)
7.实习的一些内容
8.self-attention的技术
9.word2vec,fasttext的相关技术细节,为什么快慢之类
先这些,想起来再补

8.22三面
深度模型的训练技巧,BN,dropout,L2等,以及为什么
dropout和集成学习的那种方法最相似?为什么?(GBDT)
LSTM模型中有哪些门?哪一个门最不重要?

最大子数组的和,以及起始位置和结束位置

数学题
一个M*N的矩阵中有多少个正方形,多少个长方形?
化简以及最优解

9.2交叉面
交叉面答得有点稀烂,没想到还是过啦
1.CNN是否具有平移不变性
2.hadoop数据倾斜怎么办
3.代码题:一个数组中,找到一个最大数,是数组中中两个数字的和
4.数学题:如何遍历有理数