数据分析 知识点
sql 找近90.30.7天的登录人数
SELECT * FROM TABLE where Time >/>= DATE_SUB(CURDATE(), INTERVAL n day/week/month/year)
缺失值怎么处理?异常值怎么判断?
连续型用均值填充,离散型用众数去填充。
异常值看数据分布,均值、标准差,箱线图判断等模型的评价指标有哪些:
accuracy,precision,recall,F1,ROC,AUC过拟合是什么原因
样本不均衡,维度过多,数据样本太少等问题业务题:
t1 join t2 on t1.ip=t2.ip #找相同ip下 where t1.uid != t2.uid #不同的id group by t1.uid, t2.uid #按id分组 having count(*)>=3 #次数大于等于3
- 三种决策树划分节点的选择依据
ID3使用最大信息熵增益
C4.5使用信息增益比率
CART使用基尼系数
原信息熵定义:
信息熵越大,说明样本的分布节点的纯度越低,反之纯度越高
故选择能使节点内部纯度高(信息熵最小)的特征作为划分依据,
因此我们就计算以某个特征划分当前节点后各个节点的信息熵之和
Eg:样本集合D(父节点),划分k个类别(子节点);ni表示在子节点i中样本数量,n是总样本量
节点的熵:
信息增益:
信息增益比率: