数据分析 知识点

  • sql 找近90.30.7天的登录人数

    SELECT * FROM TABLE 
      where Time >/>=  DATE_SUB(CURDATE(), INTERVAL n day/week/month/year)
  • 缺失值怎么处理?异常值怎么判断?
    连续型用均值填充,离散型用众数去填充。
    异常值看数据分布,均值、标准差,箱线图判断等

  • 模型的评价指标有哪些:
    accuracy,precision,recall,F1,ROC,AUC

  • 过拟合是什么原因
    样本不均衡,维度过多,数据样本太少等问题

  • 业务题:

图片说明

t1 join t2 on t1.ip=t2.ip                             #找相同ip下
    where t1.uid != t2.uid                             #不同的id
    group by t1.uid, t2.uid                         #按id分组
    having count(*)>=3                            #次数大于等于3
  • 三种决策树划分节点的选择依据
    ID3使用最大信息熵增益
    C4.5使用信息增益比率
    CART使用基尼系数

原信息熵定义:
图片说明

信息熵越大,说明样本的分布节点的纯度越低,反之纯度越高
故选择能使节点内部纯度高(信息熵最小)的特征作为划分依据,
因此我们就计算以某个特征划分当前节点后各个节点的信息熵之和

Eg:样本集合D(父节点),划分k个类别(子节点);ni表示在子节点i中样本数量,n是总样本量
节点的熵:
图片说明

信息增益:
图片说明

信息增益比率:
图片说明