当前位置：首页 > Python > 正文

随机森林入门指南（Python语言实现随机森林基础教程）

主机测评网
Python
2025-12-23
1055

在机器学习的世界中，随机森林（Random Forest）是一种强大且易于使用的集成学习算法。它不仅准确率高、鲁棒性强，而且对初学者非常友好。本教程将带你从零开始，使用Python语言和流行的scikit-learn库，一步步构建一个基础的随机森林模型。

什么是随机森林？

随机森林是一种集成学习方法，它通过构建多个决策树并将它们的结果进行“投票”或“平均”来提高预测性能和防止过拟合。每棵树在训练时使用数据的一个随机子集（称为自助采样，Bootstrap Sampling），并且在每个节点分裂时只考虑特征的一个随机子集。这种双重随机性使得模型更加稳健。

随机森林入门指南（Python语言实现随机森林基础教程）随机森林 Python机器学习 scikit-learn随机森林随机森林入门教程第1张

准备工作：安装所需库

在开始之前，请确保你已经安装了以下Python库：

scikit-learn：用于机器学习建模
pandas：用于数据处理
numpy：用于数值计算

你可以使用以下命令安装它们（如果尚未安装）：

pip install scikit-learn pandas numpy

步骤一：导入必要的库

首先，我们需要导入构建随机森林所需的所有库：

import numpy as npimport pandas as pdfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score, classification_reportfrom sklearn.datasets import load_iris

步骤二：加载并准备数据

为了演示方便，我们将使用经典的Iris（鸢尾花）数据集。这个数据集包含150个样本，每个样本有4个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）和一个类别标签（三种鸢尾花之一）。

# 加载数据集data = load_iris()X = data.data  # 特征y = data.target  # 标签# 将数据分为训练集和测试集X_train, X_test, y_train, y_test = train_test_split(    X, y, test_size=0.3, random_state=42)

步骤三：创建并训练随机森林模型

现在，我们可以使用RandomForestClassifier类来创建模型。我们设置n_estimators=100表示使用100棵树，这是Python机器学习中常见的默认值。

# 创建随机森林分类器rf_model = RandomForestClassifier(    n_estimators=100,      # 树的数量    random_state=42,       # 随机种子，保证结果可复现    n_jobs=-1              # 使用所有CPU核心加速训练)# 训练模型rf_model.fit(X_train, y_train)

步骤四：评估模型性能

训练完成后，我们使用测试集来评估模型的准确率：

# 预测测试集y_pred = rf_model.predict(X_test)# 计算准确率accuracy = accuracy_score(y_test, y_pred)print(f"模型准确率: {accuracy:.2f}")# 打印详细分类报告print(classification_report(y_test, y_pred))

运行上述代码后，你可能会看到类似如下的输出：

模型准确率: 1.00              precision    recall  f1-score   support           0       1.00      1.00      1.00        19           1       1.00      1.00      1.00        13           2       1.00      1.00      1.00        13    accuracy                           1.00        45   macro avg       1.00      1.00      1.00        45weighted avg       1.00      1.00      1.00        45