《数据挖掘概念与技术》书记2

认识数据

目标：熟悉数据

数据集由数据对象组成，一个数据对象代表一个实体。比如在销售数据库中，对象可以是顾客、商品和销售。

通常又称样本、实例、数据点，如果存放在数据库中，则成为数据元组。

属性，表示数据对象的一个特征。“属性、维、特征和变量”都可称为属性。

给定属性的观测值称作观测。一个属性的数据分布称为单变量，以此类推。

属性类型	特点	中心趋势度量观察指标	举例
标称属性	值代表类别、编码或状态；分类的；不必具有意义；枚举值；可以是数值	使该属性最常出现的值，众数	职业、头发颜色等
二元属性	布尔属性，只有两个取值。包括对称与非对称，即状态是否具有同等价值并携带相同的权重	-	对称：性别；非对称：病毒化验结果（阴阳性）
序数属性	其可能的值之间具有有意义的序或秩，但值之间的差是未知的，可以是数值	众数、中位数	小中大；成绩A，B，C；军阶
数值属性	定量，分为区间标度和比率标度。	均值、中位数、众数	区间标度：温度；比率标度：收入水平

离散属性和连续属性

与以上类型并不互斥。离散属性具有有限或无限可数个值，可以用或不用整数表示。

连续属性通常与数值属性可以互换使用。但在实践中，连续属性一般用浮点变量表示。

使用python的numpy库

import numpy as np
from scipy import stats
a = np.arange(10,50,10).reshape(-1,1)
# a = [10,20,30,40]

度量	优点	缺点	实现	针对数据类型	优化方法
均值（加权）	描述数据集的最有用的单个量	对极端值（离群点）很敏感	np.mean(a)	任何数值	截尾均值
中位数	将数据较高的一半与较低的一半分开，离群点不会影响该值	对于大数据量，计算开销大	np.median(a)	倾斜数据	将数值转为中位数区间
众数	对于定性和定量属性均可适用	-	stats.mode(a)[0]_[0]	-	-
中列数	数据集中最大值和最小值的平均值	易受极端值影响	[np.max(a)+np.min(a)]/2	-

在具有完全对称的数据分布的单峰频率曲线中，均值、中位数和众数都是相同的中心点。

正倾斜：众数出现在小于中位数的值上；负倾斜：众数出现在大于中位数的值上。

import matplotlib.pyplot as plt
import seaborn as sns

度量	描述	实现	用途
极差	数据集中最值之差	np.max(a)-np.min(a)	数据分布范围是否分散
分位数	将数据分布划分成大小相等的连贯集	np.median(a)	类中位数
四分位数	第一个四分位数Q1是数据最低的25%，依次计算	-	观察数据的分布
四分位数极差	IQR=Q3-Q1	-	给出被数据的中间一半所覆盖的范围
五数概括	最小值，Q1，中位数，Q3，最大值	-	描述倾斜分布，识别可疑的离群点：挑选落在Q3之上或Q1之下至少1.5*IQR处的值
盒图	五数概括的直观表示，盒的长度就是IQR，会显示离群点	sns.boxplot()	观测是否分布倾斜，是否有离群点
方差和标准差	数据散布度量	np.var(a);np.std(a)	数据分布的散布程度，低标准差意味数据观测趋向于非常靠近均值，高标准差表示数据散布在一个大的值域中

分位数图（单属性描述）

分位数-分位数图（单属性双对象描述）：可用来判断分布是否有漂移

直方图

散点图：确定双变量是否存在联系、模式或趋势的最有效的图形方法之一。用于观察点簇和离群点，考察相关性。

$d (i, j) = (p - m) ∣ p$

使用相异性矩阵计算邻近性度量。m是匹配的数目（即i和j取相同状态的属性数），而p是刻画对象的属性总数。

数据规格化：
$Z_{i} f = (r_{i} f - 1) / (M_{f} - 1)$

分开分类型依次计算

文本相似性。由于词频矩阵通常为稀疏矩阵，需要一种忽略0匹配的数值数据度量。