青葙y

分类

NLP(2) 安装与环境配置问题(1) 数据挖掘(2) 集成学习(2)

/ 注册

全部文章（共7篇）

解决tensorflow安装慢的问题

先官网下载whl文件注意版本兼容问题 GPU版pytorch同理创建新的环境pytorch_env，官网下载whl文件，在环境目录下安装参考https://blog.csdn.net/ECHOSON/article/details/104677927

2020-04-30

0 575

文本分类概述

文本分类问题是自然语言处理领域一个经典问题，主要是传统文本分类方法和基于深度学习的文本分类方法。一、传统文本分类传统文本分类一般分为人工特征工程阶段和分类器。特征工程决定模型上限，分类器逼近模型上限。流程：读取数据→清洗数据→特征提取→模型训练→模型评估特征工程：文本预处理（文本分词、去停用词）...

2020-04-27

0 674

词向量

词向量是自然语言分词在词空间中的表示，词向量之间的距离代表了分词的相似性，那么词向量在此空间中的分布到底是什么样的？https://blog.csdn.net/u010670689/article/details/75070918?ops_request_misc=%257B%2522request...

2020-04-18

0 487

boosting算法族之GBDT

GBDT 是通过采用加法模型（即基函数的线性组合），以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。训练过程： GBDT是通过多次迭代，每轮迭代产生一个弱分类器（一般选择CART树），每个分类器在上一轮分类器残差的基础上进行训练。如果我们选用平方损失函数，那这个差值就是残差。我们...

2020-04-17

0 427

数据挖掘之特征工程

数据和特征决定了机器学习的上线，而模型和算法只是逼近这个上限而已。特征工程目的是最大限度从数据中提取特征以供模型和算法使用。特征处理是特征工程的核心部分，sklearn提供了较为完整的特征处理方法，包括数据预处理、特征选择、降维等。https://www.jianshu.com/p/7066558b...

2020-04-17

0 1038

数据挖掘之数据探索

数据探索在机器学习中我们一般称为EDA（Exploratory Data Analysis）：是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。载入各种数据科学以及可视化库:数据科学库 ...

2020-04-17

0 757

模型融合策略之stacking理论

模型融合是比赛后期一个重要的环节，大体来说有如下的类型方式。简单加权融合: 回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting) 综合：排序融合(Rank averaging)，log融合sta...

2020-04-17

1 2050