十五章
一、基本概念
规则学习是从训练数据中学习出一组能用于对未见示例进行判别得规则。
命题规则
一阶规则
二、序贯覆盖
规则学习的目标是产生一个能覆盖尽可能多的样例的规则集. 最直接的做法是 “序贯覆盖” (sequential covering),即逐条归纳:在训练集上每学到一条规则, 就将该规则覆盖的训练样例去除,然后以剩下的训练样例组成训练集重复上述过程。由于每次只处理一部分数据,因此也被称为“分治”策略。
三、剪枝优化
规则生成本质上是一个贪心搜索过程,需有一定的机制来缓解过拟合的风险,最常见的做法是剪枝(pruning)。与决策树相似,剪枝可发生在规则生长过程中,即 “预剪枝” ,也可发生在规则产生后,即 “后剪枝” 。通常是基于某种性能度量指标来评估增/删逻辑文字前后的规则性能,或增/删规则前后的规则集性能,从而判断是否要进行剪枝。
RIPPER算法

四、一阶规则学习
FOIL (First-Order Inductive Learner)是著名的一阶规则学习算法,它遵循序贯覆盖框架且采用自顶向下的规则归纳策略。
五、归纳逻辑程序设计
归纳逻辑程序设计(Inductive Logic Programming,简称ILP)在一阶规则学习中引入了函数和逻辑表达式嵌套。一方面,这使得机器学习系统具备了更为强大的表达能力;另一方面,ILP可看作用机器学习技术来解决基于背景知识的逻辑程序(logic program)归纳, 其学得的 “规则” 可被PROLOG等逻辑程序设计语言直接使用。
最小一般泛化
逆归结
十六章
规则学习是从训练数据中学习出一组能用于对未见示例进行判别得规则。
命题规则
一阶规则
二、序贯覆盖
规则学习的目标是产生一个能覆盖尽可能多的样例的规则集. 最直接的做法是 “序贯覆盖” (sequential covering),即逐条归纳:在训练集上每学到一条规则, 就将该规则覆盖的训练样例去除,然后以剩下的训练样例组成训练集重复上述过程。由于每次只处理一部分数据,因此也被称为“分治”策略。
三、剪枝优化
规则生成本质上是一个贪心搜索过程,需有一定的机制来缓解过拟合的风险,最常见的做法是剪枝(pruning)。与决策树相似,剪枝可发生在规则生长过程中,即 “预剪枝” ,也可发生在规则产生后,即 “后剪枝” 。通常是基于某种性能度量指标来评估增/删逻辑文字前后的规则性能,或增/删规则前后的规则集性能,从而判断是否要进行剪枝。
RIPPER算法

四、一阶规则学习
FOIL (First-Order Inductive Learner)是著名的一阶规则学习算法,它遵循序贯覆盖框架且采用自顶向下的规则归纳策略。
五、归纳逻辑程序设计
归纳逻辑程序设计(Inductive Logic Programming,简称ILP)在一阶规则学习中引入了函数和逻辑表达式嵌套。一方面,这使得机器学习系统具备了更为强大的表达能力;另一方面,ILP可看作用机器学习技术来解决基于背景知识的逻辑程序(logic program)归纳, 其学得的 “规则” 可被PROLOG等逻辑程序设计语言直接使用。
最小一般泛化
逆归结
十六章
一、任务与奖赏


二、K-摇臂***
需要知道每个动作带来得奖赏
要执行奖赏最大得动作
K-摇臂***有K个摇臂,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道。赌徒的日标是通过一定的策略最大化自己的奖赏,即获得最多的硬币。
三、有模型学习
在己知模型的环境中学习称为 “ 有模型学习 " 。
策略评估

策略改进
策略迭代与值迭代

四、免模型学习
若学习算法不依赖于环境建模,则称为免模型学习。
蒙特卡洛强化学习

时序差分学习

五、值函数近似
值函数能表示为一个数组,输入i ii对应的函数值就是数组元素i ii的值,且更改一个状态上的值不会影响其他状态上的值。



二、K-摇臂***
需要知道每个动作带来得奖赏
要执行奖赏最大得动作
K-摇臂***有K个摇臂,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道。赌徒的日标是通过一定的策略最大化自己的奖赏,即获得最多的硬币。
三、有模型学习
在己知模型的环境中学习称为 “ 有模型学习 " 。
策略评估

策略改进
策略迭代与值迭代

四、免模型学习
若学习算法不依赖于环境建模,则称为免模型学习。
蒙特卡洛强化学习

时序差分学习

五、值函数近似
值函数能表示为一个数组,输入i ii对应的函数值就是数组元素i ii的值,且更改一个状态上的值不会影响其他状态上的值。



六、模仿学习
直接模仿学习
逆强化学习
