当前位置：首页 > Python > 正文

Python聚类算法实战指南（从零开始掌握KMeans聚类与无监督学习）

主机测评网
Python
2025-12-08
753

在数据科学和机器学习领域，Python聚类算法是一种非常重要的无监督学习技术。它可以帮助我们从没有标签的数据中发现隐藏的结构或模式。本教程将带你从零开始，用通俗易懂的方式理解并实现最常用的聚类算法——KMeans，并介绍如何评估聚类效果。

什么是聚类？

聚类是无监督学习Python中的核心任务之一。它的目标是将一组对象划分为若干个“簇”（cluster），使得同一个簇内的对象彼此相似，而不同簇的对象差异较大。常见的应用场景包括客户分群、图像分割、异常检测等。

Python聚类算法实战指南（从零开始掌握KMeans聚类与无监督学习） Python聚类算法机器学习聚类无监督学习Python KMeans聚类实现第1张

KMeans聚类原理简介

KMeans 是最经典、最常用的机器学习聚类算法之一。其基本思想如下：

随机选择 K 个中心点（质心）；
将每个数据点分配给最近的质心，形成 K 个簇；
重新计算每个簇的质心（即该簇所有点的平均值）；
重复步骤 2 和 3，直到质心不再显著变化或达到最大迭代次数。

使用 Python 实现 KMeans 聚类

Python 的 scikit-learn 库提供了非常便捷的 KMeans 实现。下面我们通过一个完整示例来演示如何使用它。

1. 安装依赖

确保你已安装以下库：

pip install scikit-learn matplotlib numpy pandas

2. 生成模拟数据

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import make_blobs# 生成包含3个簇的模拟数据X, y_true = make_blobs(n_samples=300, centers=3, cluster_std=0.60, random_state=0)# 可视化原始数据plt.scatter(X[:, 0], X[:, 1], s=50)plt.title('原始数据分布')plt.show()

3. 应用 KMeans 聚类

from sklearn.cluster import KMeans# 创建KMeans模型，指定簇数为3kmeans = KMeans(n_clusters=3, random_state=0)# 拟合模型并预测簇标签y_pred = kmeans.fit_predict(X)# 获取聚类中心centers = kmeans.cluster_centers_# 可视化聚类结果plt.scatter(X[:, 0], X[:, 1], c=y_pred, s=50, cmap='viridis')plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75, marker='X')plt.title('KMeans聚类结果')plt.show()

如何选择合适的 K 值？

在实际应用中，我们往往不知道数据中到底有多少个簇。这时可以使用“肘部法则”（Elbow Method）来帮助确定最优 K 值。

# 计算不同K值下的SSE（簇内平方和）sse = []K_range = range(1, 11)for k in K_range:    kmeans = KMeans(n_clusters=k, random_state=0)    kmeans.fit(X)    sse.append(kmeans.inertia_)# 绘制肘部图plt.plot(K_range, sse, 'bo-')plt.xlabel('K (簇的数量)')plt.ylabel('SSE')plt.title('肘部法则确定最优K值')plt.grid(True)plt.show()

当 SSE 随 K 增加而下降的速度明显变缓时，对应的 K 值通常就是较优选择（即“肘部”位置）。