2.6数据的特征表示
- 传统的数据特征如果直接表示出来,一方面,特征数目比较多,对模型的要求高;另一方面也存在着许多的缺点:
- 特征之间冗余度比较高
- 不是所有的特征都有用
- 很多特征异变
- 特征中存在噪声
- 为解决上面的问题 ,引入了特征学习
- 特征学习:让机器自动的学习出有效的特征。
- 优点:特征学习可以在一定程度上面减少模型的复杂性、缩短模型训练时间、提高模型的泛化能力、避免过拟合。
2.6.1 传统的特征学习
- 特征选择:
- 选取原始特征集合的一个有效子集,使得基于这个特征子集训练出来的模型准确率最高。
- 子集搜索方法:前向搜索(每次增加最优的特征),反向搜索(每次删除最无用的特征)
- 还可以使用正则化来间接实现特征的选择
- 特征抽取
- 构造一个新的特征空间,并将原始特征在新的特征空间得到新的表示。
- 有监督的特征抽取:线性判别分析
- 无监督的特征抽取:减少冗余信息和噪声 有:主成分分析(PCA)、自编码器(AE)
2.6.2 深度学习方法
- 如果我们将特征的表示学习和机器学习的预测学习有机地统一到一个模型中,建立一个端到端的学习算法,就可以有效地避免它们之间准则的不一致性。