pycharm使用pandas学习笔记

#encoding=utf-8
import numpy as np
import pandas as pd
from pylab import *

def main():
    # #Data Structure
    # s=pd.Series([i*2 for i in range(1,11)])#一维数组
    # print(type(s))
    # dates=pd.date_range("20170301",periods=8)
    # df=pd.DataFrame(np.random.randn(8,5),index=dates,columns=list('ABCDE'))
    # print(df)
    #
    # #Basic

    # print(df.head(3))#查看前3行
    #
    # print(df.tail(3))#查看后3行
    #
    # print(df.index)#查询首列
    #
    # print(df.values)#数据遍历
    #
    # print(df.T)#数据的转置
    #
    # print(df.sort_values(by="C"))#按C列升序排列
    #
    # print(df.sort_index(axis=1,ascending=False))#对index进行降序排序
    #
    # print(df.describe())#打印出最大值、最小值等信息帮助我们了解数据
    #
    # #Select切片
    # print(df["A"])#打印出A属性列
    # print(type(df["A"]))#看A属性列的类型series
    # print(df[:3])#前3行
    # print(df["2017-03-02":"2017-03-05"])#"2017-03-02"到“2017-03-05”行
    # print(df.loc[dates[0]])#第一行日期的数据
    # print(df.loc["20170301":"20170304",["B","D"]])#取"20170301"到"20170304"中B、D列数据
    # print(df.at[dates[0],"C"])#第一行日期C列的数据
    # print(df.iloc[1:3,2:4])#二维数组1到3，2到4的数据
    # print(df.iloc[1,4])#二维数组第一行第四列的数据
    # print(df.iat[1,4])#同iloc,即二维数组第一行第四列的数据

    # print(df[df.B>0][df.A<0])#筛选
    # print(df[df>0])#大于0的返回，其他返回NaN
    # print(df[df["E"].isin([1,2])])#E中有1，2

    # #Set
    # s1=pd.Series(list(range(10,18)),index=pd.date_range("20170301",periods=8))
    # df["F"]=s1#增加一列F
    # print(df)
    # df.at[dates[0],"A"]=0#0行0列设为0
    # print(df)
    # df.iat[1,1]=1#1行1列设为1
    # df.loc[:,"D"]=np.array([4]*len(df))#D列设为全为4
    # print(df)
    #
    # df2=df.copy()#复制df
    # df2[df2>0]=-df2#将df2>0的数变成负数
    # print(df2)

    # #Missing Values
    # df1=df.reindex(index=dates[:4],columns=list("ABCD")+["G"])
    # df1.loc[dates[0]:dates[1],"G"]=1#G列的0，1行设为1
    # print(df1)
    # print(df1.dropna())#删除缺失值的行
    # print(df1.fillna(value=2))#补充缺失值的行

    # #Statisitc统计
    # print(df.mean())#中值
    # print(df.var())#方差
    # s=pd.Series([1,2,4,np.nan,5,7,9,10],index=dates)
    # print(s)
    # print(s.shift(2))#所有数值往后移2位
    # print(s.diff())#当前行减去上一行的差值
    # print(s.value_counts())#每个值出现的次数
    # print(df.apply(np.cumsum))#累加值
    # print(df.apply(lambda x:x.max()-x.min()))#极差
    #
    # #Concat表格拼接
    # print(df[:3])#表格截取
    # pieces=[df[:3],df[-3:]]#前三行，后三行
    # print(pd.concat(pieces))#拼接

    # #time时间序列
    # t_exam=pd.date_range("20170301",periods=10,freq="S")
    # print(t_exam)
    #
    # #Graph绘图
    # ts=pd.Series(np.random.randn(1000),index=pd.date_range("20170301",periods=1000))
    # ts=ts.cumsum()
    # ts.plot()
    # show()

    #File文件
    # df6=pd.read_csv("./data/test.csv")
    # print(df6)
    df7=pd.read_excel("./data/test.xlsx","Sheet1")
    print(df7)
    df7.to_excel("./data/test2.xlsx")#另存为test2

if __name__ == '__main__':
    main()