数据集的可视化

好好学习，在学校没花时间学的，现在就要补回来喽

# keras集成的数据集：
# 1. boston_housing 波士顿房价
# 2. CIFAR10 10种类别图片集
# 3. CIFAR100 100种类别的图片集
# 4. MNIST  手写图片数据集
# 5. Fashion-MNIST 10种时尚类别图片集
# 6. IMDB    电影点评集
# 7. reuters 路透社数据集
import tensorflow as tf 
import numpy
import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif"] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
#加载数据集
btHouse = tf.keras.datasets.boston_housing
# (train_x, train_y), (test_x, test_y) = btHouse.load_data() #训练集和测试集
# print(len(train_x))
# print(len(test_x))
#提取全部数据作为训练集 train_y代表房价， train_x代表属性的列表
(train_x, train_y), (test_x, test_y) = btHouse.load_data(test_split=0) 

titles = ['CRIM','ZN','INDUS','CHAS','NOX','RM','AGE','DIS','RAD',
            'TAX','PTRATIO','B-1000','LSTAT','MEDV']
plt.figure(figsize=(12, 12))
for i in range(12):
    plt.subplot(3,4,(i+1))
    plt.scatter(train_x[:, i], train_y)
    plt.xlabel(titles[i])
    plt.ylabel("房价（$）1000/m^2")
    plt.title(str(i+1)+'.'+titles[i]+' - price')

plt.tight_layout()
plt.show()

pandas数据集读取

import pandas as pd
import tensorflow as tf
import matplotlib.pyplot as plt
filePath = "C:/Users/gx/.keras/datasets/iris_training.csv"
#read_csv(filePath, header, names) header=0时可以使用names自定义标题
columnNames = ['A', 'B', 'C', 'D', 'E']
fileData = pd.read_csv(filePath, header=0, names=columnNames)
print(fileData.head(10)) #tail(n) 后n行数据，也可以使用切片

print(fileData.describe())  #显示数据统计信息

#pd二维数据常用属性：ndim维度，shape形状，size数据个数

#pd转化为numpy数组：可进行切片
# nums = np.array(fileData)
# nums = fileData.values
# nums = fileData.as_matrix()

matplotlib大致使用方法

import matplotlib.pyplot as plt 
import numpy as np
#scatter(x, y, scale, color, marker, label)
#  marker数据点样式， label图例文字

plt.rcParams['font.sans-serif'] = 'SimHei'

n = 1024
#标准正态分布 normal
x1 = np.random.normal(0,1,n)#均值为0，标准差为1，1024个
y1 = np.random.normal(0,1,n)

#均匀分布  uniform
x2 = np.random.uniform(-5,5,(1,n))
y2 = np.random.uniform(-5,5,(1,n))

plt.scatter(x1, y1, color='blue', marker="o",label='正态分布')
plt.scatter(x2, y2, color="red", marker="*",label='均匀分布')
plt.legend() #显示图例 
plt.title("哈哈哈我外卖到啦", fontsize=20)

#添加文字 text(x, y, str, fontsize, color)
plt.rcParams['axes.unicode_minus'] = False #设置坐标轴
plt.text(2.5,2.5, "hahahah\nkkkkk")
#xlabel(x, y, str, fontsize, color) y轴标签同理
#xlim(xmin, xmax) 设置x轴坐标范围，y轴同理
#tick_params(labelsize) 设置刻度文字的字号
plt.xlim(-5, 5.0)
plt.ylim(-5, 5.0)
plt.xlabel("X轴")
plt.ylabel("Y轴")
plt.show()

子图与标题

import matplotlib.pyplot as plt

#figure(num, figsize, dpi, facecolor, edgecolor, frameon)
#figure(图形编号,对象宽高, dpi, 背景颜色, 边框颜色，是否显示边框)
plt.figure(figsize=(3,2), facecolor='green')

#配置中文字体:
#plt.rcdedaults()  恢复默认
plt.rcParams['font.sans-serif'] = 'SimHei'

#subplot(行数，列数，子图序号)， 划分子图
plt.subplot(2,2,1)
plt.title("子标题1")
plt.subplot(2,2,2)
plt.title("标题二", loc="left")
plt.subplot(2,2,3)
plt.subplot(2,2,4)


#添加标题 suptitle()全局标题，title() 子标题
#suptitle(x, y, color, backgroundcolor, fontsize, 
#         fontweight, fontstyle, horizontalalignment, verticalalignment)

plt.suptitle("asdasd", color='blue', fontsize='30')

plt.tight_layout(rect=[0,0,1,0.9])  #自动调整子图位置
plt.plot()
plt.show()

散点图小demo

import matplotlib.pyplot as plt 
import numpy as np
#scatter(x, y, scale, color, marker, label)
#  marker数据点样式， label图例文字

plt.rcParams['font.sans-serif'] = 'SimHei'

n = 1024
#标准正态分布 normal
x1 = np.random.normal(0,1,n)#均值为0，标准差为1，1024个
y1 = np.random.normal(0,1,n)

#均匀分布  uniform
x2 = np.random.uniform(-5,5,(1,n))
y2 = np.random.uniform(-5,5,(1,n))

plt.scatter(x1, y1, color='blue', marker="o",label='正态分布')
plt.scatter(x2, y2, color="red", marker="*",label='均匀分布')
plt.legend() #显示图例 
plt.title("白准怎敢", fontsize=20)

#添加文字 text(x, y, str, fontsize, color)
plt.rcParams['axes.unicode_minus'] = False #设置坐标轴
plt.text(2.5,2.5, "hahahah\nkkkkk")
#xlabel(x, y, str, fontsize, color) y轴标签同理
#xlim(xmin, xmax) 设置x轴坐标范围，y轴同理
#tick_params(labelsize) 设置刻度文字的字号
plt.xlim(-5, 5.0)
plt.ylim(-5, 5.0)
plt.xlabel("X轴")
plt.ylabel("Y轴")
plt.show()