Machine Learning 13th

主动学习是指先用有标记样本训练一个模型,通过引入额外的专家知识,将部分未标记样本转变为有标记样本,每次都挑出对改善模型性能帮助大的样本,从而构建出比较强的模型.
未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独立同分布采样而来,则它们所包含的关于数据分布的信息对建模大有裨益.
要利用未标记样本,需要有一些基本假设,如聚类假设,流形假设.
半监督学习可进一步划分为纯半监督学习和直推学习.前者假定训练数据中的未标记样本并非待预测的数据,而后者则假定学习过程中所考虑的未标记样本恰是待预测数据.
生成式方法是直接基于生成式模型的方法.此类方法假设所有数据都是由同一个潜在的模型生成的.这个假设使得我们能通过潜在模型的参数将未标记数据与学习目标联系起来.
半监督支持向量机(S3VM)是支持向量机在半监督学习上的推广.S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面.
除此之外,还有图半监督学习,基于分歧的方法(如协同训练),半监督聚类等学习方法.