1.信息增益,信息增益率与Gini系数

  • 信息熵 plogp求和
  • 信息增益
  • 信息增益率
  • Gini系数 1-p^2
  1. 精确率与召回率(Precision and Recall)
  • 精确率:预测为真中真正为真的
  • 召回率:为真的样本被预测正确的比率
  1. bagging与boosting
  • bagging:每次训练一个模型,分类问题进行投票,回归问题进行平均值计算
  • boosting:不断训练模型拟合前一个模型的残差
  • bagging降低方差(variance),boosting降低偏差(bias)
  1. 如何解决过拟合问题
  • 获取更多数据
  • 使用合适的模型,减少网络层数或神经元个数
  • 正则化(L1,L2正则): L1正则:倾向于产生少量特征,其他特征为0,增加网络稀疏程度; L2正则:选择更多特征,这些特征都趋向于0,使用更多 可以从L1,L2正则公式入手理解,L1为特征绝对值之和,L2为平方和,求导以后的函数图像
  • dropout:神经元随机失活,减少固定神经元之间的关联,类似于bagging策略
  • 提前停止