属性四种类型
- 标称
- 序数
- 区间
- 比率
非对称属性:
只有
数据类型:
- 事务数据或购物篮数据
数据预处理:(两大类)
(1) 选择分析所需要的数据对象和属性
(2) 创建或改变属性
3.1 聚集
聚集:
- 概念:将两个或多个对象或属性合并为单一的对象或属性
- 目的:
- 数据约减 --> 减少数据对象或属性的数量,从而可使用高复杂性算法
- 改变尺度 --> 例:城市聚集韦区域、省、国家
- 提高数据的稳定性 --> 对象或属性群的行为通常比单个对象或属性的行为更稳定
3.2 抽样
抽样是一种选择数据对象子集进行分析的常用方法,经常被用于数据的事先调查和最终的数据分析
确定样本容量的方法:
取数据点的一个小样本
2.渐进抽样
从小样本开始然后逐渐增加样本数量
好处:不需要开始确定样本容量
缺点:需要评估样本是否足够大的方法
3.维灾难
随着维度增加,数据在他所占据的空间越来越稀疏。
影响:
- 分类任务的影响:没有足够的数据对象来创建模型
- 聚类任务的影响:点之间的密度和距离的定义失去了意义
相应解决方法:
维归约
目的:
- 避免维灾难
- 减少数据挖掘算法的时间与空间开销
- 便于模型的理解与数据的可视化
- 删除无关特征并降低噪声
技术:
- 主成分分析(PCA)
- 目标:找到捕获数据最大变差的变换
- 1.第一维数据尽可能多的捕获数据的变异性
- 2.第二维数据尽可能多的捕获数据的剩余变一下,且与第一维正交
- 3.以此类推
- 特性:
- 趋向于确定数据最强的模式
- 数大部分变异性通常可以被整个维集合的一部分新维所捕获
- 由于数据钟的噪声比模式弱,可以去掉很多早噪声
- 步骤
- 1.对原属数据预处理,使得每个属性的均值为0
- 2.计算原属数据的属性之间的协方差矩阵
- 3.计算协方差矩阵的特征向量与特征值
- 4.按特征值大小对特征向量排序
- 5.由前p个特征向量定义新的空间
- 目标:找到捕获数据最大变差的变换
主成分数学原理:http://blog.codinglabs.org/articles/pca-tutorial.html
- 奇异值分解(SVD)
- 多维缩放(MDS)
- 其他:有监督方法或非线性方法
问题:
特征子集选择方法
1.基于领域只是或者常识方法
2.穷举法:将所有可能特征子集作为感兴趣数据挖掘算法的输入然后选取产生结果最好的子集
3.其他(*)
- 嵌入法: 决策时算法
- 过滤法:使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择,例:选择属性对之间相关度低的属性集合
- 包装法:黑盒
相似度:
- 两个对象相似程度得数值度量
- 两个对象越相似,相似度越高
- 相似度非负,并在[0,1]区间内取值
相异度(距离):
- 两个对象差异程度得数值度量
- 两个对象越相似,相异就越低
- 相异度在区间[0,1],或区间[0,∞]中取值
邻近度可以表示相似度或相异度