skewness (偏态)

<mark>正偏态分布(positive skewness distribution)<mark>是指频数分布的高峰偏于左侧,偏态系数为正值的频数分布形态。偏态分布分为</mark>正偏态</mark>和<mark>负偏态</mark>。当均值大于众数时称为正偏态;当均值小于众数时称为负偏态。

定义上偏度是样本的三阶标准化矩,定义式如下,其中k2,k3分别表示二阶、三阶中心矩:


还可以这么来看:

kurtosis(峰度)

==峰度(peakedness;kurtosis)==又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然

一般地:正态分布的峰度(系数)为常数3,均匀分布的峰度(系数)为常数1.8

峰度以bk表示,Xi是样本测定值,Xbar是样本n次测定值的平均值,s为样本标准差。正态分布的峰度为3。以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若bk<3,则称分布具有不足的峰度,若bk>3,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。

在更通常的情况下,峰度被定义为四阶累积量除以二阶累积量的平方,它等于四阶中心矩除以概率分布方差的平方再减去3:


这也被称为超值峰度(excess kutyosis)。减3是为了让正态分布的峰度为0.

演示

import seaborn as sns
sns.distplot(Train_data['price'])
#价格的偏态和峰度
print('Skewness:%f'%Train_data['price'].skew())
print('Kurtosis:%f'%Train_data['price'].kurt())

#其他列的偏态和峰度
Train_data.skew(), Train_data.kurt()



可视化:

sns.distplot(Train_data.skew(),color='red',axlabel="Skewness")

sns.distplot(Train_data.kurt(),color='orange',axlabel ='Kurtness')

数据的偏度和峰度——df.skew()、df.kurt()

我们一般会拿偏度和峰度来看数据的分布形态,而且一般会跟正态分布做比较,我们把正态分布的偏度和峰度都看做零。如果我们在实操中,算到偏度峰度不为0,即表明变量存在左偏右偏,或者是高顶平顶这么一说。

一.偏度(Skewness)

Definition:是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性,简单来说就是数据的不对称程度。。
偏度是三阶中心距计算出来的。
(1)Skewness = 0 ,分布形态与正态分布偏度相同。
(2)Skewness > 0 ,正偏差数值较大,为正偏或右偏。长尾巴拖在右边,数据右端有较多的极端值。
(3)Skewness < 0 ,负偏差数值较大,为负偏或左偏。长尾巴拖在左边,数据左端有较多的极端值。
(4)数值的绝对值越大,表明数据分布越不对称,偏斜程度大。
计算公式:
Skewness=E[((x-E(x))/(\sqrt{D(x)}))^3]
| Skewness| 越大,分布形态偏移程度越大。

二.峰度(Kurtosis)

Definition:偏度是描述某变量所有取值分布形态陡缓程度的统计量,简单来说就是数据分布顶的尖锐程度。
峰度是四阶标准矩计算出来的。
(1)Kurtosis=0 与正态分布的陡缓程度相同。
(2)Kurtosis>0 比正态分布的高峰更加陡峭——尖顶峰
(3)Kurtosis<0 比正态分布的高峰来得平台——平顶峰
计算公式:
Kurtosis=E[ ( (x-E(x))/ (\sqrt(D(x))) )^4 ]-3