2.7 评价指标

为了衡量一个机器学习模型的好坏,需要给定一个测试集,用模型对测试集 中的每一个样本进行预测,并根据预测结果计算评价分数。

  • 准确率
    图片说明
  • 错误率
    图片说明

  • 对于类别𝑐来说,模型在测试集上的结果可以分为以下四种情况:
    1. 类别为c 判定为c : -> TP
      图片说明
    2. 类别为c 判定为非c -> FN
      图片说明
    3. 类别非c 判定为c -> FP
      图片说明
    4. 类别其它 判定其它 -> TN
      一般不考虑
  • 这四种情况可以使用混淆矩阵来表示
    图片说明

  • 精准率(Precision)类别𝑐的查准率是所有预测为类别𝑐的样本中预测正确的比例:
    图片说明
  • 召回率(Recall)也称查全率:类别𝑐的查全率是所有真实标签为类别𝑐的 样本中预测正确的比例
    图片说明
  • F值(F Measure)是一个综合指标,为精确率和召回率的调和平均:
    图片说明
    𝛽 = 1时的F值称为F1 值,是精确率和召回率的调和平均。

宏平均 (Macro Average):每一个类别的性能指标的平均值
图片说明
微平均是每一个样本的性能指标的算术平均值。


  • 交叉验证(Cross-Validation)
    是一种比较好的衡量机器学习模型的统计分析方法,可以有效避免划分训练集和测试集时的随机性对评价结果造成的影响。我们可以把原始数据集平均分成K组不重复的子集,每次选择K-1组子集作为训练集,剩下的一组子集作为验证集.这样可以进行𝐾次试验并得到𝐾个 模型,将这𝐾个模型在各自验证集上的错误率的平均作为分类器的评价。 一般K>3。