衡量集中趋势

均值mean

可以迭代计算
均值会受到异常值的影响,使得平均值难以具备中位数的代表性

众数mode

均匀分布不存在众数,多峰分布存在多个众数。
数据集中的所有分值都会影响众数。
直方图中的众数会随着组距而改变
从同一总体中抽取出的样本,每一个样本的众数不一定相同。
众数没有计算公式

中位数median

robust:处理高偏斜分布更能反应集中趋势

图片来自《数据挖掘:概念与技术》p.31

中心度量 有简单计算公式 对数据变化敏感 不受组距变化影响 不易受异常值影响 容易在直方图上找到
mean
mode
median

度量数据散布

极差

截尾 cut tail

四分位数极差 interquartile range IQR

IQR = Q3 - Q1
50%的数据在IQR间
IQR不会受到数据集中每个值的影响
IQR不受异常值影响  

异常点 outlier

outlier < Q1 - 1.5IQR or outlier > Q3 + 1.5IQR


如图,mean不总在IQR之间,因为mean对异常值敏感。而median总在IQR之间

离均差 deviation from mean

平均偏差:正负项会相互抵消
绝对偏差,平均绝对偏差
平方偏差,平均平方偏差

方差 variance

标准差 standard deviation

图片来自 Coursera Statistic with R

样本标准差与总体方差关系

图片来自 Udacity