- 对当前学习任务有用的属性称为相关特征,没什么用的属性称为无关特征.从给定特征集合中选择出相关特征子集的过程称为特征选择.特征选择是一个重要的数据预处理过程.
- 冗余特征是指包含的信息可以从其他特征中推演出来的特征.冗余特征在很多时候不起作用,但若某个冗余特征恰好对应了完成学习任务所需的中间概念,则该冗余特征反而是有益的.
- 子集搜索:可以采用逐渐增加相关特征的前向搜索,每次在候选子集中加入一个特征,选取最优候选子集.也可以采用每次去掉一个无关特征的后向搜索.这些策略是贪心的,但是避免了穷举搜索产生的计算问题.
- 子集评价:特征子集A确定了对数据集D的一个划分,样本标记信息Y对应着对D的真实划分,通过估算这两个划分的差异就能对A进行评价.可采用信息熵等方法.
- 过滤式选择先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关.Relief(Relevant Features)是一种著名的过滤式选择方法.该方法设计了一个相关统计量来度量特征的重要性.
- 包裹式选择直接把最终将要使用的学习器的性能作为特征子集的评价标准.因此产生的最终学习器的性能较好,但训练时的计算开销也更大.LVW(Las Vegas Wrapper)是一个典型的包裹式特征选择方法,它在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则.
- 嵌入式选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成.例如正则化.
- L1正则化(Lasso)是指权值向量w中各个元素的绝对值之和.L1正则化趋向选择少量的特征,使其他特征尽可能为0,可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择.L1正则化是L0正则化的最优凸近似.
- L2正则化(Ridge)是指权值向量w中各个元素的平方和然后再求平方根.L2正则化趋向选择更多的特征,让这些特征尽可能接近0,可以防止模型过拟合(L1也可以).
- 字典学习也叫稀疏编码,指的是为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形式,从而使学习任务得以简化,模型复杂度得以降低的过程.
- 压缩感知关注的是利用信号本身的稀疏性,从部分观测样本中恢复原信号.分为感知测量和重构恢复两个阶段,其中重构恢复比较重要.可利用矩阵补全等方法来解决推荐系统之类的协同过滤(collaborative filtering)任务.
由于第一次阅读,12章开始的内容仅作概念性了解.