Pandas的使用
更新中...
一、数据清洗
数据清洗基本步骤:导入文件—>提取列信息并处理—>具体清洗操作—>保存清洗后的文件
清洗操作:查看表数据,定义无效字段为空值,查看表基本信息,查看每个字段的缺失值数量/个数/比例,删除缺失值,查看描述性统计信息。
step1:调用函数导入文件
import pandas as pd #调用pandas df=pd.read_excel(r"C:\Users\86131\Downloads\pythpon学习文件夹\租赁行业脱敏数据.xlsx") df.head(5) #查看前5行
通过查看表格数据可以得知,单价为0元/平的一般情况下是空值数据为无效字段,将无效字段定义为NAN(空)
step2:提取列数据并处理
1、查找数据
df['单价'] #提取单价列数据
df['单价']=='0元/平' #查找单价==0元/平的值
df[df['单价']=='0元/平'] 提取出 单价=0元/平 的所有数据
4、修改列中相关数据
a、调用numpy包
import numpy as npb、修改数据
df.loc[df['单价']=='0元/平','单价']=np.nan #loc函数,基于标签索引 df.head(11) #查看前11条信息
拓展:把小区为“建邦华府 1室--厅 0平" 字段列的 职位 改为无
df.loc[df['小区']=='建邦华府 1室--厅 0平','职位']='无'
5、查看表基本信息
a、看全表信息
df.info()
df.columns #查看字段名称 df.dtypes #查看字段数据类型
b、查看表格前后N行:head(n)前;tail(n)后
df.tail(3)#表格后3行 head(3)表格前3行
c、查看每个字段的缺失值数量/个数/比例
df.isnull()#查找缺失值
df.isnull().any()#判断每个字段中是否有缺失值
df.isnull().sum() #查找每个字段里有多少分缺失值
d、删除列
df=df.drop('职位',axis=1) #删除列:df.drop() 删除 字段为"职位"的列 df.head(3)e、查看描述性统计信息。
df.describe() #查看描述性统计信息:count,mean,std,min,分位数,max
二、
二、Matplotilb的使用
一、可视化基础
1、可视化步骤
导入模块完成通用配置—>打开表格—>清洗数据(若表格已清洗可忽略)—>绘图(选择绘图风格,绘图函数设置)
2、导入模块完成通用配置
#STEP1 导入模块,完成表格通用配置 import pandas as pd #导入pandas包并重命名为pd import matplotlib #导入matplotlib包直接使用即可无需重命名 %matplotlib inline #在jupyter上显示图像 import matplotlib.pyplot as plt #导入matplotlib的pyplot包 #设置中文编码和负号正常显示 plt.rcParams['font.sans-serif']='SimHei' #设置中文编码正常显示 plt.rcParams['axes.unicode_minus']=False #设置负号正常显示plt.rcParams通常用于修改默认参数
3、打开表格读取数据