衡量集中趋势
均值mean
可以迭代计算
均值会受到异常值的影响,使得平均值难以具备中位数的代表性
众数mode
均匀分布不存在众数,多峰分布存在多个众数。
数据集中的所有分值都会影响众数。
直方图中的众数会随着组距而改变
从同一总体中抽取出的样本,每一个样本的众数不一定相同。
众数没有计算公式
中位数median
robust:处理高偏斜分布更能反应集中趋势
图片来自《数据挖掘:概念与技术》p.31
中心度量 | 有简单计算公式 | 对数据变化敏感 | 不受组距变化影响 | 不易受异常值影响 | 容易在直方图上找到 |
---|---|---|---|---|---|
mean | √ | √ | √ | ||
mode | √ | √ | |||
median | √ | √ |
度量数据散布
极差
截尾 cut tail
四分位数极差 interquartile range IQR
IQR = Q3 - Q1
50%的数据在IQR间
IQR不会受到数据集中每个值的影响
IQR不受异常值影响
异常点 outlier
outlier < Q1 - 1.5IQR or outlier > Q3 + 1.5IQR
如图,mean不总在IQR之间,因为mean对异常值敏感。而median总在IQR之间
离均差 deviation from mean
平均偏差:正负项会相互抵消
绝对偏差,平均绝对偏差
平方偏差,平均平方偏差
方差 variance
标准差 standard deviation
图片来自 Coursera Statistic with R
样本标准差与总体方差关系
图片来自 Udacity