闲敲code落灯花
闲敲code落灯花
全部文章
机器学习基础
CSNote学习笔记(3)
我的面试(17)
技术咨询(1)
深度学习基础(1)
算法与数据结构(8)
统计学基础(1)
计算机基础(3)
语法基础(22)
面试经验(10)
归档
标签
去牛客网
登录
/
注册
努力努力再努力
全部文章
/ 机器学习基础
(共18篇)
余弦距离与欧氏距离
https://zhuanlan.zhihu.com/p/84643138总体来说,欧氏距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异。 1)例如,统计两部剧的用户观看行为,用户A的观看向量为(0,1),用户B为(1,0);此时二者的余弦距很大,而欧氏距离很小;我们分析两个用户对于不同视频...
2021-02-26
0
817
bagging和boosting与偏差和方差、强模型、弱模型
参考https://blog.csdn.net/shenxiaoming77/article/details/53894973 bagging的偏差和方差 整体模型的期望近似于基模型的期望,这也就意味着整体模型的偏差和基模型的偏差近似。同时,整体模型的方差小于等于基模型的方差(当相关性为1时取等...
2021-01-15
0
1295
如何处理正负样本不平衡
改造损失函数 参考https://cloud.tencent.com/developer/article/1619122考虑到一些小样本对现实世界的影响更大(比如山洪、泥石流),采用平衡均方误差Balanced Mean Squared Error (B-MSE)和平衡平均绝对误差Balanced ...
2021-01-03
0
656
L1和L2正则化
参考https://zhuanlan.zhihu.com/p/35356992 L1正则化和L2正则化: L1正则化:在loss function后边所加正则项为L1范数,加上L1范数容易得到稀疏解(0比较多)。非平滑,求导困难,需要寻求凸优化方法来求解:proximal operatorL2正则化...
2020-12-23
0
511
K-Means聚类用于数值和类别混合数据
问题 我的数据集包含许多数字属性和一个类别属性。 比方说,NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, 其中CategoricalAttr取三个可能值之一:CategoricalAttrValue1,Categoric...
2020-11-25
0
682
从CART到GBDT到LightGBM
参考 https://zhuanlan.zhihu.com/p/128472955 cart树 空间分割思想的由来 一些学者采用类似随机投影的思路,将自变量的取值空间切分为若干个碎块,并假设这个空间碎块内的所有样本的因变量取值接近(甚至相同)——在这种思想的指导下,出现了一种非常经典的回归模型,即...
2020-11-05
0
743
样本不平衡问题分析与部分解决办法
参考https://blog.csdn.net/qq_33472765/article/details/86561557 过抽样(over-sampling): 通过增加分类中少数类样本的数量来实现样本均衡,比较好的方法有SMOTE算法。SMOTE算法 :简单来说smote算法的思想是合成新的少数类...
2020-11-03
0
542
随机森林
袋外数据OOB:在每一轮训练中有36.8%的数据不会被抽取到 袋外数据错误率:参考https://www.cnblogs.com/zhangzhixing/p/11150317.html 调参方法: 常用参数:n_estimators决策树的个数、每棵树最大特征数(max_features) 一...
2020-11-03
0
730
平滑滤波算法
窗口滤波 用窗口内一组序列的均值来代替当前值 移动平均:窗口变大时会产生滞后,下一时刻的变化要过一段时间才能显现出来,但窗口小的时候滤波效果不明显 加权移动平均:权值和为1,越靠近当前位置的信号权值越大 指数移动平均 高斯滤波
2020-11-03
0
504
理解GBDT、XGBOOST
参考 https://www.csuldw.com/2019/07/12/2019-07-12-an-introduction-to-gbdt/ GBDT三大核心: 提升方法(加法模型+前向分步算法); 梯度提升:梯度与残差; 决策树:CART回归树。 为什么GBDT会引入gradient的概念...
2020-11-03
0
712
首页
上一页
1
2
下一页
末页