本文系转发自:https://blog.csdn.net/cyan_soul
前些天报名参加了 Kaggle 的 Data Cleaning 5天挑战,5天的任务如下:
- Day 1: Handling missing values
- Day 2: Data scaling and normalization
- Day 3: Cleaning and parsing dates
- Day 4: Fixing encoding errors (no more messed up text fields!)
- Day 5: Fixing inconsistent data entry & spelling errors
今天是第一天,任务是处理数据集中的缺失值。活动的主持人 Rachael Tatman 给出的操作步骤如下:
- Take a first look at the data
- See how many missing data points we have
- Figure out why the data is missing
- Drop missing values
- Filling in missing values
我们一步一步来进行操作~
1、观察数据
首先我们在 notebook 中加载需要清理的数据集,数据集的位置可以在本地也可以在服务器上。今天官方例子中的数据集是关于美国橄榄球比赛的,然后我们动手去做的是关于旧金山建筑许可证的数据集。
引入 pandas 和 numpy 包,从给出的路径读数据集,
# modules we'll use
import pandas as pd
import numpy as np
# read in all our data
sf_permits = pd.read_csv("../input/building-permit-applications-data/Building_Permits.csv")
# set seed for reproducibility
np.random.seed(0)
然后用 sample(10) 方法随机抽取数据集中的 10 条数据,结果中有很多数据格被标记了 "NaN" ,这些就是我们需要处理的缺失值。
sf_permits.sample(10)
2、观察缺失值的数量
现在我们知道了数据集中存在缺失值,再来看看每一个 column 下缺失值的具体数量(由于 column 过多我们只选了前 15 列)。
# get the number of missing data points per column
missing_values_count = sf_permits.isnull().sum()
# look at the # of missing points in the first ten columns
missing_values_count[0:15]
然后可以进一步看看数据集中缺失值的数目占总数的百分比,结果约为 26.26%,四分之一的数据都缺失了!
# how many total missing values do we have?
total_cells = np.product(sf_permits.shape)
total_missing = missing_values_count.sum()
# percent of data that is missing
(total_missing/total_cells) * 100
3、分析出现缺失值的原因
这一部分的重点之一是我们对数据的直觉,Rachael 所用的说法是 "data intuition",也就是说我们需要搞清楚我们面对的数据集为什么如此,以及对我们后续的数据分析会有什么样的影响。由于缺乏经验,入门者这部分可能比较困扰。我们需要考虑的问题之一是:
某个数据的缺失是因为它没有被记录还是根本不存在?
如果一个数据值缺失是因为它根本不存在,那么我们就没有必要去猜它可能的值,我们需要做的就是让它继续为 NaN;如果一个数据值缺失是因为没有被记录,我们就应该基于与它同行同列的其他值,来猜想它的可能值。
拿当前的数据集做例子,我们来看一下 Street Number Suffix 和 Zipcode 的缺失值:
missing_values_count = sf_permits.isnull().sum()
missing_values_count[['Street Number Suffix', 'Zipcode']]
我们看到 Street Number Suffix 下有大量缺失值,由于它对地址来说并不是一个普遍存在的数据,所以我猜想它的缺失值根本不存在;有少量的 Zipcode 数据缺失,由于每个地址的邮编一定存在,所以它应该是没有被记录。
4、剔除缺失值
如果你实在急于做分析,可以采取的方案之一就是剔除掉任何包含缺失值的行或列。但这种方法是并不推荐,要想得到更好的分析结果,还是要先合理地处理缺失值。
如果确定想要剔除掉含有缺失值的数据行,可以直接使用 pandas 的 dropna() 方法:
# remove all the rows that contain a missing value
sf_permits.dropna()
但是我们得到的结果是 0 rows × 43 columns,因为每一行都存在缺失值!
再剔除含有缺失值的数据列:
# remove all columns with at least one missing value
columns_with_na_dropped = sf_permits.dropna(axis=1)
columns_with_na_dropped.head()
看一下剔除空值前后的 column 数目对比:
# just how much data did we lose?
print("Columns in original dataset: %d \n" % sf_permits.shape[1])
print("Columns with na's dropped: %d" % columns_with_na_dropped.shape[1])
5、自动补全缺失值
除了直接 drop 掉含有缺失值的行或列,另一个方案是去补全缺失的值。这部分我们先截取一部分 column 的数据进行处理,便于观察。
# get a small subset of the sf_permits dataset
subset_sf_permits = sf_permits.loc[:,"Street Number Suffix":"Issued Date"].head()
subset_sf_permits
如果数据的类型都是数字,我们可以考虑把所有的缺失值都填为 0:
# replace all NA's with 0
subset_sf_permits.fillna(0)
但该数据集中,有 string 型的数据,还有另一种选择就是将空值置为与它相邻的下一行对应的数据,没有下一行数据就置为 0:
# comes directly after it and then
subset_sf_permits.fillna(method = "bfill", axis=0).fillna("0")
处理不同类型的数据集,需要采取不同的方法,还可以用相应 column 的平均值来补全该列的缺失值等。
这就是 5 Day Challenge 第一天的内容,总地来说是非常基础的清洗数据方法,完毕~