牛客894147927号
牛客894147927号
全部文章
分类
学习日记(3)
机器学习(7)
归档
标签
去牛客网
登录
/
注册
Five O.One
全部文章
(共10篇)
机器学习--随机森林
一、集成算法 1.概述 集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的...
2022-03-25
0
0
机器学习-模型评估与选择(4)
4.4 Friedman检验与Nemenyi后续检验 交叉验证t检验和McNemar检验都是在一个数据集上比较两个算法的性能,而很多时候,会在一组数据集上对多个算法进行比较。当有多个算法参与比较时,一种做法是在每个数据集上分别列出两两比较的结果,而在两两比较时可使用前述方法;另一种使用基于算法排序...
2022-03-24
0
0
机器学习--决策树(Decision Tree)
决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用...
2022-03-21
0
0
机器学习-模型评估与选择(3)
3.4 代价敏感错误率与代价曲线 为权衡不同类型错误所造成的不同损失,可为错误赋予"非均等代价" 以二分类任务为例,可根据任务的领域知识设定一个"代价矩阵"(cost matrix).如下表所示,其中,costijcost_{ij}costij表示将第iii类样本预测为第jjj类样本的代价。...
2022-03-20
0
0
机器学习-模型评估与选择(2)
三、性能度量(performance measure) 衡量模型泛化能力的评价标准 反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果;这意味着模型的"好坏"是相对的,什么样的模型是好的,不仅取决于算法和数据,还取决于任务需求 在预测任务中,给定样例集D=...
2022-03-20
0
0
机器学习-模型评估与选择(1)
一、经验误差与过拟合 错误率与精度 错误率(error rate):分类错误的样本数占样本总数的比例,即如果在mmm个样本中有aaa个样本分类错误,则错误率为E=amE = \frac {a}{m}E=ma 精度(accuracy):1−am1-\frac {a}{m}1−ma,即精度=...
2022-03-17
0
0
机器学习-导论
一、机器学习相关概念 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能 在计算机系统中,"经验"通常以"数据"的形式存在,机器学习所研究的主要内容就是关于在计算机上从数据中产生"模型"的算法,即"学习算法" 二、基本术语 1. 数据集(data set) 记录的集合 ...
2022-03-16
0
0
数据处理(Pandas)
一、读取数据 Pandas需要先读取表格类型的数据,然后进行分析 数据类型 说明 Pandas读取方法 csv、tsv、txt 用逗号分隔、tab分隔的纯文本文件 pd.read_csv excel 微软xls或者xlsx文件 pd.read_excel mysql 关系型...
2022-03-01
0
0
Tableau操作步骤及案例演示
一、条形图(柱形图) 用于比较不同类别之间的大小 基本步骤 操作步骤: 将表示类别的维度拖入列(行) 将要统计度量拖入行(列) 注:某些度量值默认的是对该类别进行求和,如果不是求和,须右击该度量进行改变 可通过升序(降序)的操作,使得图形看起来更舒适 可通过调整视图的大小,来调整整体图形的观感...
2022-02-21
0
0
数据可视化--Python操作代码
使用pylab或pyplot绘图的一般过程: 生成或读入数据 根据实际需要绘制相应的图形 设置坐标轴标签、坐标轴刻度、图例、标题等属性 显示或保存绘图结果 一、属性设置 设置轴标签 使用matplotlib.pyplot模块的xlabel()、ylabel()函数 轴域的set_xlab...
2022-01-19
0
0