1.LSTM,BERT,transform中的位置编码是如何表示
2.LSTM的cell中tanh是否可以替换成sigmoid?

输入x经过sigmoid函数后均值在0.5左右,不利于后续激活函数的处理。

而tanh的输出在[-1,1]之间,因此相当于把输入的均值调整为0,便于后续处理。

因此,tanh一般来说总是比sigmoid函数效果更好。

3.fasttext比word2vec快在哪里?是否可以无监督进行向量训练?

可参考知乎连接https://www.zhihu.com/question/312199140

4.负采样的精度是如何达到非负采样的精度的

来个理论解释吧,softmax归一化因词表大而复杂度高。理论上NCE近似softmax,论文实验也证明只需要采样数k=25,效果等价,速度提升45x。而负采样又是NCE的特例,当且仅当k为词表总数。实际中负采样数很少,因此近似NCE,又近似softmax,而且负采样公式更简单而被广泛运用。负采样在保证精读的前提下,提升了训练速度,很多大规模分布式模型训练的银弹。
请在这里输入引用内容
作者:Cyber
链接:https://www.zhihu.com/question/321088108/answer/664752551
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

5.老生常谈,LSTM是如何解决RNN的梯度消失问题
6.文本生成相关内容(没了解过)