聚类
讲N个样本映射到K个簇中
每个簇中至少有一个样本

基本思路
先给定K个划分,迭代样本与簇的隶属关系,每次都比前一次好一些
迭代若干次,就能得到比较好的结果

Kmeans算法步骤:
选择K个初始的簇的中心(怎么选择呢?)
1.随机初始化k个簇中心
2.逐个计算每个样本点到簇中心的距离,将样本归属到距离簇中心距离最小的那个簇中
3.每个簇内部计算平均值,更新簇中心
4.开始迭代
图片说明

图片说明
中位数是某个样本点

kmeans的损失函数是每个点到中心点的位置MSE

图片说明

图片说明

图片说明

图片说明

(题外知识
sklearn是Python语言中机器学习的一个工具,对常用的机器学习方法进行了封装,比如:回归,分类,降维,聚类)