一只小喵22
一只小喵22
全部文章
结巴分词
bug解决方案(8)
C++(1)
c3p0(1)
css(1)
git(2)
hibernate(6)
html(3)
J2EE(23)
Java(3)
javaee(3)
javascript(5)
JavaSE(18)
javaweb(9)
jdbc(1)
jquery(6)
json(1)
maven(1)
mongoldb(1)
mysql(4)
python(3)
python爬虫(3)
spring(4)
springmvc(4)
Struts2(2)
tomcat(1)
大数据(1)
数据结构与算法(3)
未归档(4)
机器学习(9)
测试(1)
爬虫(1)
自然语言处理(16)
解决方案(3)
论文(1)
连接池(2)
问答系统(1)
归档
标签
去牛客网
登录
/
注册
一只小喵22的博客
西兰这个名字竟然被人用了。。。。
全部文章
/ 结巴分词
(共7篇)
结巴分词----去停用词
目前的课题需要用结巴分词处理一下数据,其中要去掉其中的停用词,以下是代码: import jieba import os import pymysql def fun(filepath): # 遍历文件夹中的所有文件,返回文件list arr = [] for root, d...
2019-09-16
0
843
结巴分词5--关键词抽取
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 1 简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文...
2018-11-14
0
518
结巴分词4--词性标注
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 1 简介 词性(part-of-speech)是词汇基本的语法范畴,通常也称为词类,主要用来描述一个词在上下文的作用。例如,描述一个概念的词就是名词,在下文引...
2018-11-14
0
741
结巴分词3--基于汉字成词能力的HMM模型识别未登录词
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 1 算法简介 在 结巴分词2--基于前缀词典及动态规划实现分词 博文中,博主已经介绍了基于前缀词典和动态规划方法实现分词,但是如果没有前缀词典或者有些词不在前...
2018-11-14
0
551
结巴分词2--基于前缀词典及动态规划实现分词
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 1 简介 jieba分词主要是基于统计词典,构造一个前缀词典;然后利用前缀词典对输入句子进行切分,得到所有的切分可能,根据切分位置,构造一个有向无环图;通过动...
2018-11-14
0
460
结巴分词1--结巴分词系统介绍
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 0 起因 由于博主之前做了一些文本挖掘的项目,在项目中或多或少的用到了分词模块,对于中文分词,博主一般使用Python开发的jieba分词组件。最近,博主想阅...
2018-11-14
0
536
结巴分词--关键词抽取
出处:https://www.cnblogs.com/zhbzz2007/p/6177832.html 欢迎转载,也请保留这段声明。谢谢! 1 简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这...
2018-11-06
0
570