前言
描述统计学就是将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些有代表性的数字来代表所有的数据,其中有4个很重要的知识点,分别是平均值(μ)、四分位数、标准差(σ)、标准分(z)
四分位数简介
四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。与中位数不同的是,四分位数位置的确定方法有几种,每种方法得到的结果会有一定差异,但差异不会很大
实例介绍
首先我们看下数据的情况,如下图所示,数据的总个数为10个
1、在求取四分位数据时,首先必须做的是要对数据进行升序排序,如下图。
2、四分位求取,首先需要得出该四分位数的位置,如下是四分位数在排序后数据中的位置的公式
在Excel中使用以上的公式来计算第0、1、2、3、4个四分位值处的位置,得出如下结果
3、四分位数的求取,使用的是以下所说明的一套计算规则
公式可能看起来较为复杂,说明一下:
1、四分位数最终的结果由2部分相加得到,其一是四分位位置的整数部分对应的数据,其二是四分位位置的小数部分乘以差值得到
2、差值是四分位位置整数部分对应数据的下一个数据减去四分位位置整数部分对应的数据。
在Excel中将上面那个公式实现的结果如下:
注意:如果数据的总个数n减去1,得到的结果是4的整数倍的话,那么四分位数的位置都是整数值,各四分位数就可以在升序排序后的数列中直接找到,否则就需要通过以上方式计算小数部分。
例如:n的值为5、9、13等等,就是可以在数列中直接找到各四分位数。
最后我们用一张图来看看箱图中各个图形元素:
1、Q1表示第1个四分位值,Q2表示第2个四分位值,即中位数,Q3表示第3个中位数
2、IQR是第3个中位数与第1个中位数的差值
3、虚线最左侧的划线表示Q1-1.5倍IQR,虚线最右侧的划线表示Q1+1.5倍IQR
4、左右的黑点是离群点,最左侧的离群点是最小值,最右侧离群点是最大值
从以上结果可以解答以往对四分位数的误区:
1、四分之一分位数并非中位数的2倍,也并非是四分之三分为的3倍
2、不要将箱图虚线左右侧的划线理解为四分之0分位,四分之四分位值,这2个分位值分别是最小值和最大值,它们可能会成为离群点
后记
平安夜,一周年纪念