维基百科中文数据
1.在维基百科上下载中文数据,实时的

2.使用 Wikipedia Extractor抽取文本(http://medialab.di.unipi.it/wiki/Wikipedia_Extractor)(半小时内完成)
命令:python WikiExtractor.py -b 2000M -o zhwiki zhwiki-latest-pages-articles.xml
得到9544975篇文章


3.使用opencc转换成简体
命令:opencc -i wiki_00 -o zhwiki_chs -c zht2zhs.ini

4.分词

进一步工作:
对数据集进行进一步优化:
1.清除文本的符号、虚词形容词副词等。
Chinese数据再分词
2.寻找中文,英文词向量评价指标。
3.多个txt文件合成一个,可以使用批处理。


搜狗实验室数据
1.下载数据包SogouCA.tar.gz
2.解压数据包tar -xvf SougouCA.tar
3.将解压之后的txt归并到一个文件中SogouCA.txt
cat *.txt > SogouCA.txt
4.取出其中包含content的行并转码,得到语料SougouCA_chun
cat SougouCA.txt | iconv -f gbk -t utf-8 -c | grep "<content>" > SougouCA_chun
5.使用w10上的代码word_qufuhao将SougouCA_chun的英文以及符号去掉得到SougouCA_qufuhao(但是里面的英文和数字没有消除,可能是编码问题)
6.对数据进行分词jieba得到Sougou_jieba
7.用word2vec进行词向量训练



维基百科英文数据十多G,下载几次都失败了
(通过BT种子下载成功)
1.下载维基百科的英文数据,到2月20号有12.8G
2.使用Enwiki_xml2text.py或者 Wikipedia Extractor 对数据进行抽取成文本文件,大概花了
3.直接进行训练
4.全部转化为小写
2月20号维基百科英文词库包含:
Vocab size: 2029069
Words in train file: 2071889941