可视化缺失值的库——missingno

1.安装程序包并加载

#pip install missingno
import missingno as msno

2.导入训练数据集

import pandas as pd
import numpy as np

queshizhidata = pd.read_csv('./testdata/used_car_train_20200313.csv',sep = ' ')

3.无效矩阵的数据密集显示

msno.matrix(queshizhidata, labels = True)


可以快速直观地挑选出图案的数据完成

我们可以一目了然的看到每个变量的缺失情况,

bodytype等变量都有不同程度的缺失

4.条形图

msno.bar(queshizhidata)


利用条形图可以更直观的看出每个变量缺失的比例和数量情况。

5.热图相关性

msno.heatmap(queshizhidata)


missingno相关性热图措施无效的相关性:一个变量的存在或不存在如何强烈影响的另一个的存在
如果看到缺失相关性为1,说明X5只要发生了缺失,那么X1.1也会缺失,
如果看到相关性为-1,说明X7缺失的值,那么X8没有缺失;而X7没有缺失时,X8为缺失。

6.树状图

msno.dendrogram(queshizhidata)


总体上,图标分为两个大类,一类是数据比较完整的,一类是缺失值比较多的。

要解释此图表,要从上往下的角度阅读。

右边数据是比较完整的一类,model和v_14后面的是完整的数据,没有缺失值,所以他们的距离为0;相对于其他变量bodytype也是比较完整的,距离要比其他变量小,所以先把bodytype加进来。其他变量以此类推。