Pandas的使用

更新中...

一、数据清洗

数据清洗基本步骤：导入文件—>提取列信息并处理—>具体清洗操作—>保存清洗后的文件

清洗操作：查看表数据，定义无效字段为空值，查看表基本信息，查看每个字段的缺失值数量/个数/比例，删除缺失值，查看描述性统计信息。

step1：调用函数导入文件

import pandas as pd #调用pandas

df=pd.read_excel(r"C:\Users\86131\Downloads\pythpon学习文件夹\租赁行业脱敏数据.xlsx")
df.head(5) #查看前5行

通过查看表格数据可以得知，单价为0元/平的一般情况下是空值数据为无效字段，将无效字段定义为NAN（空）

step2：提取列数据并处理

1、查找数据

df['单价'] #提取单价列数据

2、查找数据条件（定义无效字段）

df['单价']=='0元/平' #查找单价==0元/平的值

3、查找符合条件的列数据

df[df['单价']=='0元/平'] 提取出 单价=0元/平 的所有数据

4、修改列中相关数据

a、调用numpy包

import numpy as np

b、修改数据

df.loc[df['单价']=='0元/平','单价']=np.nan  #loc函数，基于标签索引
df.head(11) #查看前11条信息

拓展：把小区为“建邦华府 1室--厅 0平" 字段列的职位改为无

df.loc[df['小区']=='建邦华府 1室--厅 0平','职位']='无'

5、查看表基本信息

a、看全表信息

df.info()

df.columns #查看字段名称
df.dtypes #查看字段数据类型

b、查看表格前后N行：head(n)前；tail(n)后

df.tail(3)#表格后3行 head(3)表格前3行

c、查看每个字段的缺失值数量/个数/比例

df.isnull()#查找缺失值

df.isnull().any()#判断每个字段中是否有缺失值

True为存在缺失值，False为不存在缺失值

df.isnull().sum() #查找每个字段里有多少分缺失值

d、删除列

df=df.drop('职位',axis=1) #删除列：df.drop() 删除 字段为"职位"的列
df.head(3)

e、查看描述性统计信息。

df.describe() #查看描述性统计信息：count，mean，std，min，分位数，max

二、

二、Matplotilb的使用

一、可视化基础

1、可视化步骤

导入模块完成通用配置—>打开表格—>清洗数据（若表格已清洗可忽略）—>绘图（选择绘图风格，绘图函数设置）

2、导入模块完成通用配置

#STEP1 导入模块，完成表格通用配置
import pandas as pd #导入pandas包并重命名为pd
import matplotlib #导入matplotlib包直接使用即可无需重命名
%matplotlib inline #在jupyter上显示图像
import matplotlib.pyplot as plt #导入matplotlib的pyplot包

#设置中文编码和负号正常显示
plt.rcParams['font.sans-serif']='SimHei' #设置中文编码正常显示
plt.rcParams['axes.unicode_minus']=False #设置负号正常显示

plt.rcParams通常用于修改默认参数

3、打开表格读取数据

Pyhton学习笔记2：基础数据处理（pandas和matplotlib的使用方法）