DataFrame学习笔记

DataFrame = 行列索引 +二维数据
1.由字典创建

data={'name':['wangdachui','Linling','Niuyun'],'pay':[4000,5000,6000]}
labels = ['a','b','c']
df = pd.DataFrame(data,index = labels)

2.由array创建

data=np.array([('wangdachui','4000'),('Linling','5000'),('Niuyun','6000')]) #分别对应第一行，第二行，第三行
df = pd.DataFrame(data,index=range(1,4),columns=['name','pay'])

3.DataFrame常用函数

df.index #行名索引
df.columns #列名索引
df.values 
df.dtypes #查看数据类型，object是字符串型
df.head(x) #查看前x行,不填则默认为5
df.tail(x) #查看后x行
df.describe() #查看统计数据
df.T #转置
df.isnull() #判断dataframe中元素是否为空，若为空则返回true
df.mean() #求均值
df['age'].sum() #对age该列求和

4.对DataFrame进行排序

df.sort_values(by = 'age') #按age升序排

5.切片

df[1:3] #即1，2行，不含3，从0开始

6.通过标签查询单列或多列

df['age']
df[['age','animal']] #注意是两个中括号

7.通过位置查询和更改

df.iloc[1:3] #查询1，2，两行，不含3行，从0开始
df.iloc[:3,1] #前行后列
df.iat[1,0] = 2 #把1行0列的元素值改为2
df.loc['f','age'] = 1.5 #根据行名和列名定位进行修改

8.副本拷贝

df2=df1.copy()

9.添加列数据

num = pd.Series([0,1,2,3,4])
df['NO.'] = num  #添加以No.为列名的新数据列

10.字符串

string = pd.Series(['A','b','C','Abcd'])
print(string)
string.str.lower() #转换为全小写
string.str.upper() #转换为全大写

11.缺失值操作

df.finllna(value=3) #对NaN值填充为3

12.删除存在缺失值的行

df.dropna(how = 'any') #任何存在NaN的行都将被删除