西瓜书第二章-模型评估与选择

总目录导航: https://blog.nowcoder.net/n/4ceda2fe316f4078bc1d4fc0ffa0b3a7

1 涉及概念(口述)

错误率(error rate)、精度(accuracy)、误差(error)
训练误差(trianing error)、经验误差(empirical error)
测试误差(testing error)
泛化误差(generalization error)
过拟合(overfitting)、欠拟合(underfitting)

留出法(hold-out)
交叉验证法(cross validation)
k折交叉验证(k-fold crossvalidation)
留一法(Leave-One-One, LOO)
自助法
参数(parameter)、调参(parameter tuning)
验证集(validation set)
均方误差(mean squared error)

TP、FP、TN、FN
查全率,召回率(Recall): 分母是原样本的所有正样例数。
查准率,准确率(Precision): 分母是预测为正的样本数。
在商品推荐系统中,为了尽可能少打扰用户,更希望推荐内容确实是用户感兴趣的,此时查准率更重要;
而在逃犯信息检索系统中,更希望尽可能少漏掉逃犯,此时查全率更重要。

平衡点(Break-Event Point, BEP): where recall equals precision
P-R曲线
F1、算术平均数、几何平均数、加权平均数
ROC曲线: y: 召回率TP/(TP+FN), x: FP/(TN+FP), 对角线为随机猜想
AUC: ROC曲线下的面积, 是一个数指