当前位置：首页 > Python > 正文

Python回归算法详解（从零开始掌握线性回归实现与应用）

主机测评网
Python
2025-12-06
949

在机器学习和数据科学领域，Python回归算法是最基础也是最重要的技术之一。无论你是刚接触编程的小白，还是希望巩固基础知识的进阶者，本文将手把手教你如何使用Python实现最经典的线性回归模型，并理解其背后的原理。

Python回归算法详解（从零开始掌握线性回归实现与应用） Python回归算法线性回归实现机器学习入门 Python数据分析第1张

什么是回归算法？

回归是一种用于预测连续数值输出的监督学习方法。例如，根据房屋面积预测房价、根据广告投入预测销售额等。其中，线性回归是最简单且广泛使用的回归算法，它假设输入特征与输出之间存在线性关系。

为什么选择Python实现回归？

Python拥有丰富的数据科学库（如NumPy、Pandas、Scikit-learn），使得Python数据分析和模型构建变得异常简单。即使是初学者，也能在几行代码内完成一个完整的回归任务。

动手实现：用Python编写线性回归

下面我们从零开始，不依赖高级库（如sklearn），仅用NumPy来实现一个简单的线性回归模型。这有助于你深入理解机器学习入门的核心逻辑。

步骤1：准备数据

我们先生成一组模拟数据：x为输入特征（如广告投入），y为真实目标值（如销售额）。

import numpy as npimport matplotlib.pyplot as plt# 设置随机种子，保证结果可复现np.random.seed(42)# 生成100个样本X = 2 * np.random.rand(100, 1)  # 广告投入（0~2万元）y = 4 + 3 * X.flatten() + np.random.randn(100)  # 真实销售额 = 4 + 3*x + 噪声

步骤2：定义线性回归模型

线性回归的目标是找到最佳拟合直线 y = w * x + b，其中 w 是权重（斜率），b 是偏置（截距）。我们使用最小二乘法来计算最优参数。

def linear_regression_fit(X, y):    """    使用正规方程求解线性回归参数    X: 输入特征 (n_samples, n_features)    y: 目标值 (n_samples,)    返回: 权重 w 和偏置 b    """    # 添加偏置项（全1列）    X_b = np.c_[np.ones((X.shape[0], 1)), X]  # 变为 [1, x]        # 正规方程: theta = (X^T X)^(-1) X^T y    theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)        b, w = theta_best[0], theta_best[1]    return w, b# 拟合模型w, b = linear_regression_fit(X, y)print(f"拟合结果: y = {b:.2f} + {w:.2f} * x")

步骤3：可视化结果

绘制原始数据点和拟合直线，直观查看模型效果。

# 预测X_new = np.array([[0], [2]])y_predict = b + w * X_new# 绘图plt.scatter(X, y, alpha=0.6, label='真实数据')plt.plot(X_new, y_predict, color='red', linewidth=2, label='拟合直线')plt.xlabel('广告投入（万元）')plt.ylabel('销售额（万元）')plt.legend()plt.title('线性回归拟合结果')plt.show()

使用Scikit-learn简化流程

在实际项目中，我们通常使用成熟的库来加速开发。以下是用Scikit-learn实现相同功能的代码：

from sklearn.linear_model import LinearRegressionmodel = LinearRegression()model.fit(X, y)print(f"Scikit-learn结果: y = {model.intercept_:.2f} + {model.coef_[0]:.2f} * x")