- 强化学习的目的是要找到能使长期累积奖赏最大化的策略.在某种意义上可看作具有"延迟标记信息"的监督学习问题.
- 每个动作的奖赏值往往来自于一个概率分布,因此强化学习会面临"探索-利用窘境",因此要在探索和利用中达成较好的折中.ε-贪心法在每次尝试时以ε的概率进行探索,以均匀概率随机选取一个动作.以1-ε的概率进行利用,选择当前平均奖赏最高的动作.Softmax算法则以较高的概率选取平均奖赏较高的动作.
- 强化学习任务对应的马尔可夫决策过程四元组已知的情形称为模型已知.在已知模型的环境中学习称为"有模型学习".反之称为"免模型学习".
- 从人类专家的决策过程范例中学习的过程称为模仿学习.