1. 说说GloVe
正如GloVe论文的标题而言,**GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。**我们通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。
2. GloVe的实现步骤
2.1 构建共现矩阵
什么是共现矩阵?
共现矩阵顾名思义就是共同出现的意思,词文档的共现矩阵主要用于发现主题(topic),用于主题模型,如LSA。
局域窗中的word-word共现矩阵可以挖掘语法和语义信息,例如:
I like deep learning.
I like NLP.
I enjoy flying
有以上三句话,设置滑窗为2,可以得到一个词典:
{"I like","like deep","deep learning","like NLP","I enjoy","enjoy flying","I like"}
我们可以得到一个共现矩阵(对称矩阵):
中间的每个格子表示的是行和列组成的词组在词典总共同出现的次数,也就体现了共现的特性。
GloVe的共现矩阵
根据语料库(corpus)构建一个共现矩阵(Co-ocurrence Matrix)X,矩阵中的每一个元素 Xij 代表单词 i 和上下文单词 j 在特定大小的上下文窗口(context window)内共同出现的次数。一般而言,这个次数的最小单位是1,但是GloVe不这么认为:它根据两个单词在上下文窗口的距离 d,提出了一个衰减函数(decreasing weighting):decay=1/d 用于计算权重,也就是说距离越远的两个单词所占总计数(total count)的权重越小。
2.2 词向量和共现矩阵的近似关系
构建词向量(Word Vector)和共现矩阵(Co-ocurrence Matrix)之间的近似关系,论文的作者提出以下的公式可以近似地表达两者之间的关系:
)
其中,wTi和wjwiT和wj 是我们最终要求解的词向量;bi和bjbi和bj 分别是两个词向量的bias term。当然你对这个公式一定有非常多的疑问,比如它到底是怎么来的,为什么要使用这个公式,为什么要构造两个词向量wTi和wjwiT和wj?请参考文末的参考文献。
2.3 构造损失函数
有了2.2的公式之后我们就可以构造它的loss function了:
(w_i%5ET%5Ctilde%7Bw%7Dj+b_i+%5Ctilde%7Bb%7D_j-log(X%7Bij%7D))%5E2)
这个loss function的基本形式就是最简单的mean square loss,只不过在此基础上加了一个权重函数 f(Xij)f(Xij),那么这个函数起了什么作用,为什么要添加这个函数呢?我们知道在一个语料库中,肯定存在很多单词他们在一起出现的次数是很多的(frequent co-occurrences),那么我们希望:
- 这些单词的权重要大于那些很少在一起出现的单词(rare co-occurrences),所以这个函数要是非递减函数(non-decreasing);
- 但我们也不希望这个权重过大(overweighted),当到达一定程度之后应该不再增加;
- 如果两个单词没有在一起出现,也就是 Xij=0Xij=0,那么他们应该不参与到 loss function 的计算当中去,也就是f(x) 要满足 f(0)=0。
满足以上三个条件的函数有很多,论文作者采用了如下形式的分段函数:
(w_i%5ET%5Ctilde%7Bw%7Dj+b_i+%5Ctilde%7Bb%7D_j-log(X%7Bij%7D))%5E2
这个函数图像如下所示:
2.4 训练GloVe模型
虽然很多人声称GloVe是一种无监督(unsupervised learing)的学习方式(因为它确实不需要人工标注label),但其实它还是有label的,这个label就是以上公式中的 log(Xij),而公式中的向量 w和ww和w 就是要不断更新/学习的参数,所以本质上它的训练方式跟监督学习的训练方法没什么不一样,都是基于梯度下降的。
具体地,这篇论文里的实验是这么做的:**采用了AdaGrad的梯度下降算法,对矩阵 X 中的所有非零元素进行随机采样,学习曲率(learning rate)设为0.05,在vector size小于300的情况下迭代了50次,其他大小的vectors上迭代了100次,直至收敛。**最终学习得到的是两个vector是 w和ww和w,因为 X 是对称的(symmetric),所以从原理上讲 w和ww和w 是也是对称的,他们唯一的区别是初始化的值不一样,而导致最终的值不一样。
所以这两者其实是等价的,都可以当成最终的结果来使用。但是为了提高鲁棒性,我们最终会选择两者之和 w+ww+w **作为最终的vector(两者的初始化不同相当于加了不同的随机噪声,所以能提高鲁棒性)。**在训练了400亿个token组成的语料后,得到的实验结果如下图所示:
这个图一共采用了三个指标:语义准确度,语法准确度以及总体准确度。那么我们不难发现Vector Dimension在300时能达到最佳,而context Windows size大致在6到10之间。
3. GloVe与LSA、Word2Vec的比较
LSA(Latent Semantic Analysis)是一种比较早的count-based的词向量表征工具,它也是基于co-occurance matrix的,只不过采用了基于奇异值分解(SVD)的矩阵分解技术对大矩阵进行降维,而我们知道SVD的复杂度是很高的,所以它的计算代价比较大。还有一点是它对所有单词的统计权重都是一致的。而这些缺点在GloVe中被一一克服了。
而word2vec最大的缺点则是没有充分利用所有的语料,所以GloVe其实是把两者的优点结合了起来。从这篇论文给出的实验结果来看,GloVe的性能是远超LSA和word2vec的,但网上也有人说GloVe和word2vec实际表现其实差不多。