当前位置：首页 > C > 正文

深入理解后缀数组（C语言实现详解与字符串处理实战）

主机测评网
C
2025-12-05
816

在计算机科学中，后缀数组（Suffix Array）是一种用于高效处理字符串问题的重要数据结构。它广泛应用于文本压缩、生物信息学中的DNA序列比对、全文搜索等领域。本教程将带你从零开始，用C语言一步步实现后缀数组，并解释其核心思想，即使你是编程小白也能轻松掌握。

什么是后缀数组？

给定一个字符串 S（例如 "banana"），它的所有后缀包括：

banana
anana
nana
ana
na
a

后缀数组就是将这些后缀按字典序排序后，记录它们原始起始位置的数组。

深入理解后缀数组（C语言实现详解与字符串处理实战）后缀数组 C语言实现后缀数组字符串算法后缀排序第1张

以 "banana" 为例，排序后的后缀顺序为：

a → 起始索引 5
ana → 起始索引 3
anana → 起始索引 1
banana → 起始索引 0
na → 起始索引 4
nana → 起始索引 2

因此，后缀数组为：[5, 3, 1, 0, 4, 2]。

为什么需要后缀数组？

相比暴力比较所有子串，后缀数组能将许多字符串操作的时间复杂度从 O(n²) 降低到 O(n log n) 甚至 O(n)。它是解决以下问题的关键工具：

最长公共前缀（LCP）
重复子串查找
字典序最小/最大循环移位

掌握C语言实现后缀数组是学习高级字符串算法的重要一步。

C语言实现后缀数组（基础版）

最直观的方法是生成所有后缀，然后使用标准库函数 qsort 进行排序。虽然效率不是最优（O(n² log n)），但逻辑清晰，适合初学者理解。

#include <stdio.h>#include <stdlib.h>#include <string.h>// 比较函数：用于 qsortint compare_suffixes(const void *a, const void *b) {    int i = *(const int*)a;    int j = *(const int*)b;    return strcmp(s + i, s + j); // s 是全局字符串}char s[1000]; // 全局字符串，便于 compare_suffixes 访问int main() {    printf("请输入一个字符串: ");    scanf("%s", s);    int n = strlen(s);        // 创建后缀起始索引数组    int *suffix_array = (int*)malloc(n * sizeof(int));    for (int i = 0; i < n; i++) {        suffix_array[i] = i;    }        // 排序后缀数组    qsort(suffix_array, n, sizeof(int), compare_suffixes);        // 输出结果    printf("后缀数组为: ");    for (int i = 0; i < n; i++) {        printf("%d ", suffix_array[i]);    }    printf("\n");        free(suffix_array);    return 0;}

⚠️ 注意：上面的代码使用了全局变量 s，这是为了简化 compare_suffixes 函数的编写。在实际项目中，建议通过结构体或额外参数传递字符串指针以提高代码可维护性。