雪域冰泉

未归档

ACM学习(21) AI小白入门(32) Java(2) markdown(1) nlp(3) PyTorch(1) PyTorch学习(11) Tensorflow(2) word embedding(1) 机器学习(8) 环境搭建(2) 自然语言处理(4)

/ 注册

全部文章 / 未归档（共120篇）

Ubuntu 安装sklearn，numpy，scipy

sklearn安装 1.先安装pip：安装支持Python3的pip管理工具，如果是Python2.x可以直接使用如下命令： sudo apt-get install pip 这样安装的是pip2不支持Python3.x，可以使用如下命令安装pip3 Python 3.X ： sudo...

2017-09-26

0 890

ubuntu环境下JDK环境配置

1.首先在window下去官网下载jdk压缩包。官网地址：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 2.通过工具(SecureCRT)上传到ubuntu系统上。 ...

2017-09-25

0 431

Stanford分词实战

介绍英文自带分词，而中文最小粒度由字组成，使用得分词。 Stanford分词开源工具主页地址：https://nlp.stanford.edu/software/segmenter.shtml 原始文本的tokenization(标记化)是许多NLP任务的标准预处理步骤。对于英文来说，标记...

2017-09-20

0 650

文本摘要学习

文本摘要介绍自动文摘的方法主要分为两大类，extractive（抽取式的）和abstractive（生成式的）。前者是目前最主流、应用最多、最容易的方法，后者相对来说更有一种真正人工智能的味道。按照另一种分类标准分为单文档摘要和多文档摘要，前者是后者的基础，但后者不只是前者结果简单叠加那么简单。...

2017-09-18

0 673

Java抽取word里面文本

介绍现在 microsoft word 有好几个版本 97、2003、2007的，这三个版本存储数据的格式上都有相当大的差别，而现在 97 基本上已经退出市场。本文考虑后面二个版本，要求能够读取 word 中的文字内容，而忽略其中的文字样式、图片等信息。调研发现用 apache 的 POI 可以...

2017-08-25

0 526

numpy array 增加一列(行)

使用Python的numpy的array结构，如何给矩阵增加一行或者一列呢？下面提供一种方法，当然numpy还提供了很多API函数可供选择。

2017-08-16

0 469

Ubuntu使用Anaconda安装Theano笔记

本笔记记录ubuntu下CPU版本安装。 1 下载Anaconda，注意Anaconda分二种，一个带python2.X，一个是python3.X。 2 验证Anaconda安装是否成功： conda 3 安装theano: conda install theano 参考：http://...

2017-08-14

0 372

Gensim-维基百科中文语料LDA,LSI实验记录

介绍本文描述了获取和处理维基百科中文语料过程，以及使用Gensim对语料进行主题建模处理的例子。准备语料库首先，从https://dumps.wikimedia.org/zhwiki/latest/下载所有维基百科文章语料库（需要文件zhwiki-latest-pages-arti...

2017-08-13

0 553

Gensim-Similarity Queries

介绍下面一个例子说明如何在gensim中做到这一点。方法来自Indexing by Latent Semantic Analysis文章，例子来自gensim官网。代码 from gensim import corpora, models, similarities def Gen...

2017-08-12

0 504

sklearn之决策树实战

介绍决策树是用于分类和回归的非参数监督学习方法。目标是创建一个模型，通过学习从数据特征推断的简单决策规则来预测目标变量的值。分类 DecisionTreeClassifier是能够在数据集上执行多类分类的类。 DecisionTreeClassifier将输入两个数组：数组X，大小为[...

2017-08-08

0 463