知识随笔_牛客博客

数据分析知识点

sql 找近90.30.7天的登录人数

SELECT * FROM TABLE 
  where Time >/>=  DATE_SUB(CURDATE(), INTERVAL n day/week/month/year)

缺失值怎么处理？异常值怎么判断？
连续型用均值填充，离散型用众数去填充。
异常值看数据分布，均值、标准差，箱线图判断等
模型的评价指标有哪些：
accuracy,precision,recall,F1,ROC,AUC
过拟合是什么原因
样本不均衡，维度过多，数据样本太少等问题
业务题：

图片说明

t1 join t2 on t1.ip=t2.ip                             #找相同ip下
    where t1.uid != t2.uid                             #不同的id
    group by t1.uid, t2.uid                         #按id分组
    having count(*)>=3                            #次数大于等于3

三种决策树划分节点的选择依据
ID3使用最大信息熵增益
C4.5使用信息增益比率
CART使用基尼系数

原信息熵定义:
$图片说明$

信息熵越大，说明样本的分布节点的纯度越低，反之纯度越高
故选择能使节点内部纯度高（信息熵最小）的特征作为划分依据，
因此我们就计算以某个特征划分当前节点后各个节点的信息熵之和

Eg：样本集合D(父节点)，划分k个类别(子节点)；ni表示在子节点i中样本数量，n是总样本量
节点的熵：
$图片说明$

信息增益：
$图片说明$

信息增益比率：
$图片说明$