《pyhton自然语言处理》学习笔记（一）

前言
最近在做的一个项目，非结构化数据处理，然后从自然语言处理入手，开始学习一下如果使用python进行自然语言的处理

参考资料：https://github.com/wnma3mz/Nltk_Study
https://wnma3mz.github.io/hexo_blog/2018/05/13/《Python自然语言处理》阅读笔记（一）/

首先下载了anaconda，然后按照说明下载了数据文件
这个数据文件，一开始并不知道要拷到哪里去，但是尝试了输入了

import nltk
from nltk.book import *

之后，发现了报错

然后我在download之后顺其根源发现了需要拷贝的地址

这样以后，找到了需要拷贝的目录，将数据文件复制进去，这样就可以运行我需要的操作了~

然后再运行以上代码

# 导入nltk模块
import nltk
# 导入基本语料集(不需要额外下载)，包含text1到text9变量，可以直接输出这些变量
from nltk.book import *

# 搜索文本。这里表示找到"monstrous"所包含的句子，并且输出上下文
text1.concordance("monstrous")

# 搜索文本出现在相似的上下文中
text1.similar("monstrous")

# 搜索两个及两个以上共同词的上下文
text2.common_contexts(["monstrous", "very"])

# 画一张离散图表示这些词出现在文本中的位置，输出见下图
text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])

# 基于文本，随机生成一些文本
text3.generate()

最后一句话又遇到了报错

看上去是缺少参数
于是我在括号里面添加参数，没有任何变化…

并不知道发生了什么。。。。愣住。。。。
接下来继续分析text

# 有序字典，按词频从高到低排序
fdist1 = FreqDist(text1)
# 选出词频最高的50个词
 fdist1.keys()[:50]
# 某个词出现的频数
fdist1['whale']

# text1中词频最高的50个单词，进行绘图，输出见下图
fdist1.plot(50, cumulative=True)
# text1中只出现过一次的单词
fdist1.hapaxes()

然后其实只要修改添加一个list就行了

list(fdist1.keys())[:50]

可能是因为版本的缘故，又一次遇到需要list的地方

修改如下

对于机器人对话的命令，发现根本停不下来

…崩溃

好吧，今天的学习到此结束
每日一吹，咖啡鸡天下第一！