当前位置：首页 > Rust > 正文

用Rust构建你的第一个随机森林模型（零基础入门Rust随机森林与机器学习）

主机测评网
Rust
2025-12-08
178

在当今的机器学习领域，Rust随机森林正逐渐成为高性能、安全可靠的替代方案。虽然 Rust 通常被认为是一门系统级语言，但它同样适用于数据科学和机器学习任务。本教程将带你从零开始，使用纯 Rust 实现一个简易版的随机森林模型，即使你是 Rust 编程新手，也能轻松上手！

用Rust构建你的第一个随机森林模型（零基础入门Rust随机森林与机器学习） Rust随机森林 Rust机器学习 Rust决策树 Rust编程教程第1张

什么是随机森林？

随机森林（Random Forest）是一种集成学习方法，它通过构建多个决策树并对它们的预测结果进行投票（分类）或平均（回归），从而提升模型的准确性和鲁棒性。它的核心思想是“三个臭皮匠，顶个诸葛亮”。

在本教程中，我们将聚焦于分类任务，并用 Rust 手动实现一个简化版的随机森林。这不仅能帮助你理解算法原理，还能掌握 Rust编程教程 中的关键概念，如结构体、泛型、所有权和迭代器。

准备工作：添加依赖

首先，创建一个新的 Rust 项目：

cargo new rust_random_forestcd rust_random_forest

然后，在 Cargo.toml 中添加必要的依赖：

[dependencies]rand = "0.8"nalgebra = "0.32"  # 可选：用于矩阵操作（本教程不强制使用）

我们主要使用 rand crate 来生成随机数，这是实现“随机”采样和特征选择的关键。

步骤 1：定义数据结构

我们需要表示样本、特征和标签。假设我们的数据集是二维向量（每个样本有多个数值特征），标签是整数（代表类别）。

// 定义样本：特征向量 + 标签#[derive(Clone)]struct Sample {    features: Vec,    label: i32,}// 数据集就是样本的集合type Dataset = Vec<Sample>;

步骤 2：实现单棵决策树（简化版）

为了简化，我们实现一个“桩树”（Stump Tree）——只做一次分裂的决策树。这虽不强大，但足以演示随机森林的核心机制。

use rand::seq::SliceRandom;use rand::thread_rng;#[derive(Clone)]struct DecisionStump {    feature_index: usize,    threshold: f64,    left_label: i32,    right_label: i32,}impl DecisionStump {    fn new() -> Self {        DecisionStump {            feature_index: 0,            threshold: 0.0,            left_label: 0,            right_label: 0,        }    }    fn fit(&mut self, data: &Dataset) {        let mut rng = thread_rng();        let n_features = data[0].features.len();        // 随机选择一个特征        self.feature_index = rng.gen_range(0..n_features);        // 随机选择一个阈值（这里简单取特征值的中位数附近）        let mut values: Vec<f64> = data.iter()            .map(|s| s.features[self.feature_index])            .collect();        values.sort_by(|a, b| a.partial_cmp(b).unwrap());        let mid = values.len() / 2;        self.threshold = values[mid];        // 统计左右子集的多数类        let (left_labels, right_labels): (Vec<_>, Vec<_>) = data.iter()            .partition(|s| s.features[self.feature_index] <= self.threshold);        self.left_label = Self::majority_vote(&left_labels);        self.right_label = Self::majority_vote(&right_labels);    }    fn predict(&self, sample: &Sample) -> i32 {        if sample.features[self.feature_index] <= self.threshold {            self.left_label        } else {            self.right_label        }    }    fn majority_vote(samples: &[&Sample]) -> i32 {        use std::collections::HashMap;        let mut counts = HashMap::new();        for s in samples {            *counts.entry(s.label).or_insert(0) += 1;        }        counts.into_iter().max_by_key(|&(_, count)| count).unwrap().0    }}

步骤 3：构建随机森林

现在，我们可以组合多棵决策树形成森林：

struct RandomForest {    trees: Vec<DecisionStump>,    n_trees: usize,}impl RandomForest {    fn new(n_trees: usize) -> Self {        RandomForest {            trees: Vec::new(),            n_trees,        }    }    fn fit(&mut self, data: &Dataset) {        let mut rng = thread_rng();        for _ in 0..self.n_trees {            // 随机有放回采样（Bootstrap）            let mut bootstrap_sample = Vec::new();            for _ in 0..data.len() {                let idx = rng.gen_range(0..data.len());                bootstrap_sample.push(data[idx].clone());            }            let mut tree = DecisionStump::new();            tree.fit(&bootstrap_sample);            self.trees.push(tree);        }    }    fn predict(&self, sample: &Sample) -> i32 {        let mut predictions = Vec::new();        for tree in &self.trees {            predictions.push(tree.predict(sample));        }        // 投票：返回出现最多的预测        DecisionStump::majority_vote(&predictions.iter().collect::>())    }}

步骤 4：测试模型

让我们用一个简单的数据集测试：

fn main() {    // 构造一个小数据集    let data = vec![        Sample { features: vec![1.0, 2.0], label: 0 },        Sample { features: vec![1.5, 1.8], label: 0 },        Sample { features: vec![5.0, 8.0], label: 1 },        Sample { features: vec![6.0, 9.0], label: 1 },        Sample { features: vec![1.2, 1.9], label: 0 },        Sample { features: vec![5.5, 7.5], label: 1 },    ];    let mut forest = RandomForest::new(10);    forest.fit(&data);    let test_sample = Sample { features: vec![5.2, 8.1], label: -1 };    let prediction = forest.predict(&test_sample);    println!("预测类别: {}", prediction); // 应该输出 1}