当前位置：首页 > Python > 正文

高效处理大型数据：Python稀疏矩阵压缩详解（从零开始掌握scipy.sparse的CSR、CSC等压缩格式）

主机测评网
Python
2025-12-18
154

在科学计算、机器学习和大数据处理中，我们经常会遇到稀疏矩阵（Sparse Matrix）——即绝大多数元素为零的矩阵。如果使用常规的二维数组（如NumPy的ndarray）来存储这类矩阵，不仅浪费大量内存，还会降低计算效率。因此，Python稀疏矩阵压缩技术应运而生。

本文将带你从零开始，深入浅出地理解什么是稀疏矩阵、为什么要压缩它，以及如何使用Python中的scipy.sparse模块高效地实现稀疏矩阵存储格式，特别聚焦于最常用的CSR（Compressed Sparse Row）格式。

什么是稀疏矩阵？

稀疏矩阵是指矩阵中非零元素的数量远小于总元素数量的矩阵。例如，一个1000×1000的矩阵（共100万个元素），如果只有1000个非零值，那么它的稀疏度高达99.9%！

高效处理大型数据：Python稀疏矩阵压缩详解（从零开始掌握scipy.sparse的CSR、CSC等压缩格式） Python稀疏矩阵压缩稀疏矩阵存储格式 scipy.sparse教程 CSR矩阵Python 第1张

为什么需要压缩稀疏矩阵？

节省内存：只存储非零元素及其位置，大幅减少内存占用。
提升计算速度：跳过零元素的运算，加快矩阵乘法、求解线性方程等操作。
适用于大规模问题：如自然语言处理中的词袋模型、推荐系统中的用户-物品交互矩阵等。

Python中如何实现稀疏矩阵压缩？

Python的科学计算生态中，scipy.sparse模块提供了多种稀疏矩阵的压缩格式，包括：

COO（Coordinate format）：用三个数组分别存储行索引、列索引和非零值。
CSC（Compressed Sparse Column）：按列压缩，适合列切片操作。
CSR（Compressed Sparse Row）：按行压缩，适合行切片和矩阵向量乘法——这是最常用的格式之一。

下面我们将通过代码演示如何创建和转换这些格式。

1. 创建一个稀疏矩阵（COO格式）

import numpy as npfrom scipy import sparse# 定义非零元素的位置和值row = [0, 1, 2, 2]col = [0, 1, 2, 3]data = [1, 2, 3, 4]# 创建COO格式稀疏矩阵（4x4）coo_matrix = sparse.coo_matrix((data, (row, col)), shape=(4, 4))print("COO格式稀疏矩阵：")print(coo_matrix.toarray())

输出结果：

[[1 0 0 0] [0 2 0 0] [0 0 3 4] [0 0 0 0]]

2. 转换为CSR格式（推荐用于计算）

CSR格式非常适合进行矩阵-向量乘法等操作，是CSR矩阵Python实践中最常用的形式。

# 将COO转为CSRcsr_matrix = coo_matrix.tocsr()print("CSR格式内部结构：")print("data:", csr_matrix.data)      # 非零值print("indices:", csr_matrix.indices)  # 列索引print("indptr:", csr_matrix.indptr)    # 行指针# 矩阵与向量相乘（高效！）vec = np.array([1, 1, 1, 1])result = csr_matrix.dot(vec)print("矩阵乘向量结果：", result)