当前位置：首页 > Python > 正文

Scikit-learn机器学习入门指南（手把手教你用Python构建第一个机器学习模型）

主机测评网
Python
2025-12-17
930

在当今人工智能快速发展的时代，Scikit-learn 已成为 Python 中最受欢迎的机器学习库之一。无论你是数据科学初学者，还是希望快速上手实际项目的开发者，Scikit-learn 都能帮助你轻松实现分类、回归、聚类等常见任务。本教程将带你从零开始，使用 Python机器学习 工具 Scikit-learn 构建你的第一个模型。

什么是 Scikit-learn？

Scikit-learn（简称 sklearn）是一个基于 NumPy、SciPy 和 Matplotlib 的开源 Python 库，专为机器学习任务设计。它提供了大量简单高效的工具，用于数据挖掘和数据分析，且对初学者非常友好。

Scikit-learn机器学习入门指南（手把手教你用Python构建第一个机器学习模型） Scikit-learn教程 Python机器学习 Scikit-learn入门机器学习库第1张

安装 Scikit-learn

在开始之前，请确保你已安装 Python（建议 3.7+）。然后通过 pip 安装 Scikit-learn：

pip install scikit-learn

第一步：加载数据集

Scikit-learn 自带多个经典数据集，比如鸢尾花（Iris）数据集。我们将用它来演示一个简单的分类任务。

from sklearn.datasets import load_iris# 加载鸢尾花数据集iris = load_iris()X = iris.data  # 特征（如花瓣长度、宽度等）y = iris.target  # 标签（花的种类）print("特征形状:", X.shape)print("标签种类:", set(y))

第二步：划分训练集与测试集

为了评估模型效果，我们需要将数据分为训练集和测试集。

from sklearn.model_selection import train_test_split# 将数据划分为 80% 训练 + 20% 测试X_train, X_test, y_train, y_test = train_test_split(    X, y, test_size=0.2, random_state=42)

第三步：选择并训练模型

我们选择最常用的支持向量机（SVM）分类器作为示例：

from sklearn.svm import SVC# 创建 SVM 模型model = SVC(kernel='linear')# 在训练集上训练模型model.fit(X_train, y_train)

第四步：评估模型性能

使用测试集预测结果，并计算准确率：

from sklearn.metrics import accuracy_score# 预测测试集y_pred = model.predict(X_test)# 计算准确率accuracy = accuracy_score(y_test, y_pred)print(f"模型准确率: {accuracy:.2f}")

完整代码整合

以下是完整的可运行代码：

from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.svm import SVCfrom sklearn.metrics import accuracy_score# 1. 加载数据iris = load_iris()X, y = iris.data, iris.target# 2. 划分数据集X_train, X_test, y_train, y_test = train_test_split(    X, y, test_size=0.2, random_state=42)# 3. 创建并训练模型model = SVC(kernel='linear')model.fit(X_train, y_train)# 4. 预测与评估y_pred = model.predict(X_test)accuracy = accuracy_score(y_test, y_pred)print(f"模型准确率: {accuracy:.2f}")  # 通常输出 1.00（100%）