虽然投的是大数据,但是简历上自己方向写的NLP所以主要还是围着NLP问的。

----------努力回忆,涉及的问题如下---------
1.Bert相关,介绍一下Bert,和ELMO有什么区别
2.self-attention是怎么做的
(由于不熟seq2seq, 1和2都答得很不好,小哥哥说现在预训练是热点呀,我说实验室太小自己做不了啊,小哥哥表示理解)
3.word2vec有哪些优化,答负采样和分层softmax,然后继续问分别是怎么做的,然后详细问负采样具体是在哪一步真正优化word2vec的(这里不会了,小哥哥引导思考了一下,但依然不会=。=)
4.文本分类有哪些评价指标,答,ACC P R F1 ROC AUC(没过脑子,巴拉巴拉一大串),然后小哥哥说这些机器学习用的比较多,文本分类的话标签!@¥%@……比较多(大概是多标签分类的一些指标)
5.哪个损失函数比较熟?我说交叉熵。然后问交叉熵的优缺点,又不会,巨尴尬。小哥哥引导了一下,应该是在求梯度的时候会比较方便。。。(待查)
6.你模型用的CNN,池化用的什么池化?还用了什么?答曰BN,然后问BN具体是怎么做的,有什么作用,然后问为什么不用LN,现在文本处理用LN的比较多(?)
7.怎么避免梯度消失的
8.tensorflow用的哪个版本的?2.0的有过吗?用过TFrecord吗?
9.胶囊网络了解吗?我正解释胶囊网络是为了CNN没有位置信息而改进的,小哥哥就打断进入下一问了
10.RNN了解吗,LSTM和GRU用的哪个?介绍一下LSTM(这里也是,感觉自己没讲到重点就跳过进入下一问了)
(此间还穿插着一堆%&*@是什么知道吗,都是字母简称,不记得就是不会=。=)
11.分词了解吗?给你红楼梦这本小说,不用分词的库,你打算怎么分词?答曰用独立条件性判断。小哥哥嗯,这样确实可以挑出来一部分,但是比如说{宝玉,宝玉说}这样的都被挑出来了,但是‘宝玉说’肯定不是词,然后怎么弄呢?
我:……
小哥哥努力引导:你这样不是已经找出来一堆候选词了嘛,你再第二遍来个啥操作再筛一遍
-抽样?采样?
-数据量没有这么大
-那就像skip-gram那样,看它前后每个词的频率,(一顿瞎说)……
12.天池的这个比赛是怎么做的,数据集情况,我就如实介绍了一下,但是好像不怎么感兴趣传统机器学习,问为什么不用BERT(这话我没法接=。=),我说前几名的方法也有很多传统机器学习方法的,就一直问为啥会这样。他说,文本的话特征比较散,传统机器学习应该不太行,更何况还有很多比赛的数据集都是脱敏过的……
13.别的任务比如实体抽取之类的做过吗?没有(此时已接近自闭)
14.现在人在杭州吗,有留在杭州的打算吗
15.还有什么要问的吗?


说实话,电话面试由于各种原因,听问题都听得不是很清楚,回答之前可以先确认一下问题,也当作是给自己的思考留一点缓冲。
BTW,我真的是个弟弟!!!上来就问你了解Bert吗,我只能硬着头皮说了解,呜呜呜结果答成了一坨屎!