十三章
一、未标记样本
半监督学习可进一步划分为纯半监督学习和直推学习。前者假定训练数据中的未标记样本并非带预测的数据,后者则是假定学习过程中所考虑的未标记样本恰是带预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能。

二、生成式方法
生成式方法(generative methods)是直接基于生成式模型的方法。此类方法
假设所有数据(无论是否有标记)都是由同一个潜在的模型生成的。

三、半监督SVM
半监督支持向量机(Semi-Supervised Support Vector Machine,简称S3VM)是支持向量机在半监督学习上的推广。在不考虑未标记样本时,支持向量机试图找到最大间隔划分超平面,而在考虑未标记样本后,S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面。
在这里插入图片描述
TSVM

四、图半监督学习
给定一个数据集,我们可将其映射为 一个图,数据集中每个样本对应于图中一个结点,若两个样本之间的相似度很高(或相关性很强),则对应的结点之间存在一条边,边的 “ 强度” (strength)正比于样本之间的相似度(或相关性)。
在这里插入图片描述
迭代式标记传播算法

五、基于分歧的方法
与生成式方法、半监督SVM、图半监督学习等基于单学习器利用未标记数据不同,基于分歧的方法(disagreement-based methods)使用多学习器,而学习器之间的 “分歧” (disagreement)对未标记数据的利用至关重要。
在这里插入图片描述
协同训练算法

基于分歧的方法只需采用合适的基学习器,就能较少受到模型假设、损失函数非凸性和数据规模问题的影响,学习方法简单有效、理论基础相对坚实、适周范围较为广泛。
六、半监督聚类
聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过半监督聚类(semi-supervised clustering)来利用监督信息以获得更好的聚类效果。

约束k均值算法
在这里插入图片描述

约束种子k均值算法
在这里插入图片描述

十四章

一、隐马尔可夫模型

隐马尔可夫模型(Hidden Markov Model,简称HMM)是结构最筒单的动态贝叶斯网(dynamic Bayesian network),这是一种著名的有向图模型,主要用于 时序数据建模,在语音识别、 自然语言处理等领域有广泛应用。

  • 状态转移概率
  • 输出观测概率
  • 初始态度概率

二、马尔科夫随机场

马尔可夫随机场(Markov Random Field ,简称MRF)是典型的马尔可夫网, 这是一种著名的无向图模型。图中每个结点表示一个或一组变量, 结点之间的边表示两个变量之间的依赖关系.马尔可夫随机场有一组势函数(potential functions),亦称 “因子” (factor), 这是定义在变量于集上的非负实函数,主要用于定义概率分布函数。

三、条件随机场

条件随机场(Conditional Random Field,简称CRF)是 一种判别式无向图模型。生成式模型是直接对联合分布进行建模,而判别式棋型则是对条件分布进行建模。前面介绍的隐马尔可夫模型和马尔可夫随机场都是生成式模型,而条件随机场则是判别式模型。

四、学习与推断

基于概率图模型定义的联合概率分布,我们能对目标变量的边际分布(marginal distribution)或以某些可观测变量为条件的条件分布进行推断。

概率图模型的推断方法大致可分为两类.第一类是精确推断方法,希望能计算出目标变量的边际分布或条件分布的精确值;遗憾的是,一般情形下,此类算法的计算复杂度随着极大团规模的增长呈指数增长,适用范围有限.第二类是近似推断方法,希望在较低的时间复杂度下获得原问题的近似解;此类方法在现实任务中更常用。

近似推断得两种方法:

  • 变量消去
  • 信念传播

五、近似推断

精确推断方法通常需要很大的计算开销,因此在现实应用中近似推断方法更为常用。近似推断方法大致可分为两大类:

  • 采样(MCMC采样):通过使用随机化方法完成近似;
  • 推断(变分推断):使用确定性近似完成近似推断。

六、话题模型

话题模型(topic model)是一种生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用。隐狄利克雷分配模型(Latent Dirichlet Allocation,简称LDA)是话题模型的典型代表。