准备

  • python环境
  • python第三方库
  1. worldcloud
  2. jieba
  3. matplotlib
  • 字体
  • 需要分析的文本

—————————————————————————————————

python环境

在python官网下载适合自己的python版本,我自己用的是Windows操作系统,下载的是3.7版本

集成开发环境使用的是pycharm

链接:https://www.python.org/

https://www.jetbrains.com/pycharm/

python第三方库

worldcloud

Windows安装worldcloud稍微繁琐些,主要分为两个步骤

1.下载库(选择适合自己的版本)

https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

2.将安装包放到一个你能找到的目录下(方便找到的)并在命令行(CMD)执行下面的命令

先执行:

pip install wheel

再执行:

pip install 你下载的包名

直接在命令行(CMD)执行

pip install jieba

matplotlib
同理在命令行(CMD)执行

pip install matplotlib

字体

本次使用simsun.ttf(宋体)下载链接如下:
https://link.zhihu.com/?target=https%3A//s3-us-west-2.amazonaws.com/notion-static/b869cb0c7f4e4c909a069eaebbd2b7ad/simsun.ttf

需要分析的文本

这个自己准备就好,这部分的数据处理也是一个重点

代码

import jieba
filename = "a.txt"
with open(filename,'r') as f:
mytext = f.read()
mytext = " ".join(jieba.cut(mytext))
from wordcloud import WordCloud
wordcloud = WordCloud(font_path="simsun.ttf").generate(mytext)
#%pylab inline
import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

最后会直接生成被分析文本的词云图:

总结

总体来说操作还是比较简单的,后续的优化可以从词云图的样式(字体,形状)进行优化,还有就是分析数据的处理工作也是一个重点,不过就不在这部分介绍了。