KNN与Kmeans_牛客博客

KNN
有监督。如果一个样本在特征空间中的个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。
L1范数距离与L2范数距离
K值选择
1）选择较小的K值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K值的减小就意味着整体模型变得复杂(指的是数值发生一点点改变，分类结果就不相同了，模型的泛化性不佳)，容易发生过拟合；
2）选择较大的K值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。
3）K=N（N为训练样本个数），则完全不足取，因为此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的类，模型过于简单，忽略了训练实例中大量有用信息。
K means
无监督。更新中心点直到中心点停止移动。Kmeans一定会收敛，但是不一定是最优解，因此中心点的初始化很重要。
K means++：对中心点的初始化进行了改进，离已选中心点越远的实例越有可能被选为新增的中心点。
关于K值的选择：以轮廓系数来衡量每个K值得聚类效果