最早的文章是hinton在1986年发表的Learning distributed representations of concepts,Bengio2003年的论文Neural probabilistic language models也提到了word embedding。这是我找到的比较早的论文。

      主要是在2013年Miv发表的论文  开源了word2vec,成为了一个突破点,大家纷纷开始训练word embedding作为自己的基本输入。由于它训练速度的高效性和在word anology 、word similarity任务的高精确性,得到大家的青睐,在短短几年内,二篇论文的引用均超过三千。然后就是斯坦福大学2014年开源的Glove工具,在论文上也证明了在很多task 上比word2vec效果会更好。