• 聚类既能作为一个找寻数据内在分布结构的单独过程,也可以作为其他学习任务的前驱过程.
  • 我们希望"物以类聚",也就是聚类结果的"簇内相似度"高且"簇间相似度"低.聚类性能度量大致有两类.一类是将聚类结果与参考模型进行比较,称为外部指标,常用的有JC,FMI,RI;另一类是直接考察聚类结果,称为内部指标,常用的有DBI,DI.
  • 有序属性距离计算最常用的是闵可夫斯基距离,当p=2时即欧氏距离,当p=1时即曼哈顿距离.
  • 无序属性可采用VDM(Value Difference Metric),将闵可夫斯基距离和VDM结合即可处理混合属性,当不同属性的重要性不同时可使用加权距离.
  • 我们基于某种形式的距离来定义相似度度量,但是用于相似度度量的距离未必一定要满足距离度量的基本性质,尤其是直递性.在现实任务中有必要通过距离度量学习来基于数据样本确定合适的距离计算式.
  • 原型聚类假设聚类结构能通过一组原型刻画.通常算法先对原型进行初始化,然后对原型进行迭代更新求解.常用的原型聚类算法有k均值算法,学习向量量化,高斯混合聚类.
  • 密度聚类假设聚类结构能通过样本分布的紧密程度确定.通常从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇.常用算法有DBSCAN
  • 层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构.代表算法有AGNES.