K-mean_牛客博客

k-mean
分类是示例式学习，要求分类前明确各个类别，并断言每个元素映射到一个类别，而聚类是观察式学习，在聚类前可以不知道类别甚至不给定类别数量，是无监督学习的一种。
算法描述
1、为中心向量c1, c2, …, ck初始化k个种子
2、分组:
（1）将样本分配给距离其最近的中心向量
（2）由这些样本构造不相交（ non-overlapping ）的聚类
3、确定中心:
用各个聚类的中心向量作为新的中心
4、重复分组和确定中心的步骤，直至算法收敛。

1、k-means算法的性能分析
主要优点：
是解决聚类问题的一种经典算法，简单、快速。
对处理大数据集，该算法是相对可伸缩和高效率的。因为它的复杂度是0 (n k t ) , 其中, n 是所有对象的数目, k 是簇的数目, t 是迭代的次数。通常k < <n 且t < <n 。
当结果簇是密集的，而簇与簇之间区别明显时, 它的效果较好。
主要缺点
在簇的平均值被定义的情况下才能使用，这对于处理符号属性的数据不适用。
必须事先给出k（要生成的簇的数目），而且对初值敏感，对于不同的初始值，可能会导致不同结果。
它对于“躁声”和孤立点数据是敏感的，少量的该类数据能够对平均值产生极大的影响。