青葙y - 个人主页动态 - 牛客网

发布(12) 刷题

2021-08-20 11:41

算法工程师

哈哈哈哈哈哈哈加油

在牛客打卡9天，今天学习：刷题 5 道

每日监督打卡

0 点赞评论收藏

转发

2021-03-14 12:42

算法工程师

在牛客打卡8天，今天也很努力鸭！

每日监督打卡

0 点赞评论收藏

转发

2020-10-12 12:24

算法工程师

在牛客打卡6天，今天学习：刷题 5 道

0 点赞评论收藏

转发

2020-09-15 14:37

算法工程师

在牛客打卡5天，今天也很努力鸭！

0 点赞评论收藏

转发

2020-05-16 11:25

算法工程师

在牛客打卡4天，今天学习：刷题 1 道/代码提交 1 次

0 点赞评论收藏

转发

2020-05-06 14:02

已编辑

算法工程师

解决tensorflow安装慢的问题

先官网下载whl文件 注意版本兼容问题 GPU版pytorch同理创建新的环境pytorch_env，官网下载whl文件，在环境目录下安装参考https://blog.csdn.net/ECHOSON/article/details/104677927

0 点赞评论收藏

转发

2020-04-27 16:29

已编辑

算法工程师

文本分类概述

文本分类问题是自然语言处理领域一个经典问题，主要是传统文本分类方法和基于深度学习的文本分类方法。 一、传统文本分类传统文本分类一般分为人工特征工程阶段和分类器。特征工程决定模型上限，分类器逼近模型上限。 流程：读取数据→清洗数据→特征提取→模型训练→模型评估特征工程：文本预处理（文本分词、去停用词）→文本表示（向量空间模型）和特征提取1、文本预处理2、文本表示（长文本表示、短文本表示、词表示）：向量化从而便于机器学习文本数字化——向量空间模型词袋模型：将字符串视为一个 “装满字符（词）的袋子” ，袋子里的 词语是随便摆放的。而两个词袋子的相似程度就以它们重合的词及其相关分布进行判断。举个例子，...

0 点赞评论收藏

转发

2020-04-25 10:21

已编辑

算法工程师

词向量是自然语言分词在词空间中的表示，词向量之间的距离代表了分词的相似性，那么词向量在此空间中的分布到底是什么样的？https://blog.csdn.net/u010670689/article/details/75070918?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158719514419724839222071%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=158719514419724839222071&...

0 点赞评论收藏

转发

2020-04-17 21:55

算法工程师

boosting算法族之GBDT

GBDT 是通过采用加法模型（即基函数的线性组合），以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。 训练过程： GBDT是通过多次迭代，每轮迭代产生一个弱分类器（一般选择CART树），每个分类器在上一轮分类器残差的基础上进行训练。如果我们选用平方损失函数，那这个差值就是残差。我们关注的是希望损失函数不断减小且尽可能快的减小，从而尽快的收敛到局部最优解或全局最优解，所以让损失函数沿着梯度方向减小，这就是GBDT的GB的核心。

0 点赞评论收藏

转发

2020-04-17 21:21

已编辑

算法工程师

数据挖掘之特征工程

数据和特征决定了机器学习的上线，而模型和算法只是逼近这个上限而已。特征工程目的是最大限度从数据中提取特征以供模型和算法使用。特征处理是特征工程的核心部分，sklearn提供了较为完整的特征处理方法，包括数据预处理、特征选择、降维等。https://www.jianshu.com/p/7066558bd386 使用sklearn中是的preprocessing库来进行数据预处理1、数据预处理通过特征提取，能够获得未经处理的特征，这时的特征可能有以下的问题：量纲不同定性特征不能直接使用存在缺失值存在异常值信息利用率低：不同的机器学习算法和模型对数据中信息的利用是不同的，之前提到在线性模型中，使...

0 点赞评论收藏

转发

2020-04-17 17:44

已编辑

算法工程师

数据挖掘之数据探索

数据探索在机器学习中我们一般称为EDA（Exploratory Data Analysis）：是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。 载入各种数据科学以及可视化库:数据科学库 pandas、numpy、scipy；可视化库 matplotlib、seabon；其他；载入数据：载入训练集和测试集；简略观察数据(head()+shape)；数据总览:通过describe()来熟悉数据的相关统计量通过info()来熟悉数据类型判断数据缺失和异常查看每列的存在nan情况异常值检测...

0 点赞评论收藏

转发

2020-04-17 21:56

已编辑

算法工程师

模型融合策略之stacking理论

模型融合是比赛后期一个重要的环节，大体来说有如下的类型方式。简单加权融合: 回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）； 分类：投票（Voting) 综合：排序融合(Rank averaging)，log融合stacking/blending:构建多层模型，并利用预测结果再拟合预测。boosting/bagging：多树的提升方法 1) 什么是 stacking简单来说 stacking 就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。将个体学习器结合...

0 点赞评论收藏

转发

工具箱

TA的圈子

TA的笔记

牛客网
牛客企业服务