K-均值聚类Matlab实现

推导公式以及原理不讲,直接上算法步骤:

Matlab代码:
%产生高斯分布数据
mu = [0 0];
sigma = eye(size(mu,2));
X = mvnrnd(mu,sigma,200)';
[m,n] = size(X);
K = 3; %类别数
distance = zeros(1,K);%存放数据点与聚类中心的距离
center = zeros(m,K);%用于存放聚类中心
new_center = zeros(m,K);
class = cell(1,K);%创建类别元包数组,用于存放数据点
for i=1:K
    class{i} = X(:,i);
end

while  1
    %遍历每个数据点,计算其与聚类中心的欧式距离
    for i=1:n  
        % 计算与每个聚类中心的距离
        for j=1:K 
            distance(j) = sqrt(sum((X(:,i)-center(:,j)).^2));
        end
        [~,temp] = min(distance);%找到数据点与哪个聚类中心最小
        class{temp} = [class{temp},X(:,i)];%将数据点加入到对应的类中
    end 
    %更新聚类中心
    for i=1:K
        new_center(:,i) = sum(class{i},2)./size(class{i},2);
    end
    %判断聚类中心是否收敛,收敛则结束算法
    if norm(center-new_center)<0.05
        break;
    end
    %若不收敛则更新聚类中心与类别集合
    for i=1:K
        class{i} = [];
    end
    center = new_center;
end

%画图
color = {'r','g','m','b','y','c','k'};
hold on 
dimension = m;
if(dimension==2)
    for i=1:K
        plot(class{i}(1,:),class{i}(2,:),'o','color',color{i});
    end
elseif dimension==3
    for i=1:K
        plot3(class{i}(1,:),class{i}(2,:),class{i}(3,:),'o', ...
            'color',color{i});
    end
else
    disp('高维数据不画图');
end
hold off

当数据维数为2,K=2时:

当数据维数为2,K=4时:

当数据维数为3,K=3时: