使用gensim加载预训练中文分词

Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。
它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，
支持流式训练，并提供了诸如相似度计算，信息检索等一些常用任务的API接口

语料（Corpus）：一组原始文本的集合，用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中，Corpus通常是一个可迭代的对象（比如列表）。每一次迭代返回一个可用于表达文本对象的稀疏向量。

向量（Vector）：由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。

稀疏向量（SparseVector）：通常，我们可以略去向量中多余的0元素。此时，向量中的每一个元素是一个(key, value)的元组

模型（Model）：是一个抽象的术语。定义了两个向量空间的变换（即从文本的一种向量表达变换为另一种向量表达）。

使用gensim加载预训练中文分词，gensim.models.KeyedVectors.load_word2vec_format
binary：如果为True，则指示数据是否为二进制word2vec格式。
unicode_errors：如果源文件可能包含在多字节Unicode字符中间截断的单词令牌（如常见于原始Word2VEC C工具），“忽略”或“替换”可能会有所帮助。

# 'vectors/sgns.renmin.bigram' 为自己下载的预训练分词的目录
#  https://github.com/Embedding/Chinese-Word-Vectors
cn_model = gensim.models.KeyedVectors.load_word2vec_format('vectors/sgns.renmin.bigram',
                                            binary=False, unicode_errors='ignore')

https://radimrehurek.com/gensim/models/keyedvectors.html

参考资料

公子天：https://www.cnblogs.com/iloveai/p/gensim_tutorial.html
官网：https://radimrehurek.com/gensim/