可视化缺失值的库——missingno
1.安装程序包并加载
#pip install missingno
import missingno as msno
2.导入训练数据集
import pandas as pd
import numpy as np
queshizhidata = pd.read_csv('./testdata/used_car_train_20200313.csv',sep = ' ')
3.无效矩阵的数据密集显示
msno.matrix(queshizhidata, labels = True)
可以快速直观地挑选出图案的数据完成
我们可以一目了然的看到每个变量的缺失情况,
bodytype等变量都有不同程度的缺失
4.条形图
msno.bar(queshizhidata)
利用条形图可以更直观的看出每个变量缺失的比例和数量情况。
5.热图相关性
msno.heatmap(queshizhidata)
missingno相关性热图措施无效的相关性:一个变量的存在或不存在如何强烈影响的另一个的存在
如果看到缺失相关性为1,说明X5只要发生了缺失,那么X1.1也会缺失,
如果看到相关性为-1,说明X7缺失的值,那么X8没有缺失;而X7没有缺失时,X8为缺失。
6.树状图
msno.dendrogram(queshizhidata)
总体上,图标分为两个大类,一类是数据比较完整的,一类是缺失值比较多的。
要解释此图表,要从上往下的角度阅读。
右边数据是比较完整的一类,model和v_14后面的是完整的数据,没有缺失值,所以他们的距离为0;相对于其他变量bodytype也是比较完整的,距离要比其他变量小,所以先把bodytype加进来。其他变量以此类推。