Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。
它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,
支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口

语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中,Corpus通常是一个可迭代的对象(比如列表)。每一次迭代返回一个可用于表达文本对象的稀疏向量。

向量(Vector):由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。

稀疏向量(SparseVector):通常,我们可以略去向量中多余的0元素。此时,向量中的每一个元素是一个(key, value)的元组

模型(Model):是一个抽象的术语。定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。

使用gensim加载预训练中文分词,gensim.models.KeyedVectors.load_word2vec_format
binary:如果为True,则指示数据是否为二进制word2vec格式。
unicode_errors:如果源文件可能包含在多字节Unicode字符中间截断的单词令牌(如常见于原始Word2VEC C工具),“忽略”或“替换”可能会有所帮助。

# 'vectors/sgns.renmin.bigram' 为自己下载的预训练分词的目录
#  https://github.com/Embedding/Chinese-Word-Vectors
cn_model = gensim.models.KeyedVectors.load_word2vec_format('vectors/sgns.renmin.bigram',
                                            binary=False, unicode_errors='ignore')

https://radimrehurek.com/gensim/models/keyedvectors.html

参考资料

公子天:https://www.cnblogs.com/iloveai/p/gensim_tutorial.html
官网:https://radimrehurek.com/gensim/