当前位置：首页 > C > 正文

深入理解KMP算法（C语言实现高效字符串匹配教程）

主机测评网
C
2025-12-12
374

在计算机科学中，KMP算法（Knuth-Morris-Pratt算法）是一种高效的字符串匹配算法。它由Donald Knuth、Vaughan Pratt和James H. Morris于1977年共同提出。相比暴力匹配法，KMP算法通过预处理模式串（pattern），避免了主串指针的回溯，从而将时间复杂度从O(m×n)优化到O(m+n)，其中m是主串长度，n是模式串长度。

本教程将带你从零开始，用C语言实现KMP算法，并详细解释每一步的原理。即使你是编程小白，也能轻松掌握！

为什么需要KMP算法？

假设我们要在一个长文本（主串）中查找一个关键词（模式串）。最简单的方法是逐个字符比对，一旦不匹配就从主串的下一个位置重新开始。这种方法称为“暴力匹配”，效率低下。

而KMP算法的核心思想是：当发生不匹配时，利用已匹配部分的信息，跳过不必要的比较。这就需要一个“部分匹配表”（也叫next数组）来记录模式串中每个位置的最长相同前后缀长度。

深入理解KMP算法（C语言实现高效字符串匹配教程） KMP算法 C语言字符串匹配 KMP模式匹配高效字符串搜索第1张

步骤一：构建next数组

next数组是KMP算法的关键。对于模式串 pattern，next[i] 表示子串 pattern[0..i-1] 的最长相等前后缀的长度。

例如，模式串 "ABABC" 的 next 数组为：

next[0] = -1（约定）
next[1] = 0（"A" 没有真前缀/后缀）
next[2] = 0（"AB" 前后缀不相等）
next[3] = 1（"ABA" 的最长相同前后缀是 "A"）
next[4] = 2（"ABAB" 的最长相同前后缀是 "AB"）

下面是C语言实现next数组的函数：

void buildNext(char* pattern, int* next) {    int len = strlen(pattern);    next[0] = -1;    int i = 0, j = -1;    while (i < len - 1) {        if (j == -1 || pattern[i] == pattern[j]) {            i++;            j++;            next[i] = j;        } else {            j = next[j];        }    }}

步骤二：实现KMP匹配函数

有了next数组，我们就可以进行高效的字符串匹配了。主串指针永不回退，只根据next数组调整模式串的位置。

int kmpSearch(char* text, char* pattern) {    int textLen = strlen(text);    int patLen = strlen(pattern);    if (patLen == 0) return 0;    int* next = (int*)malloc(patLen * sizeof(int));    buildNext(pattern, next);    int i = 0, j = 0;    while (i < textLen && j < patLen) {        if (j == -1 || text[i] == pattern[j]) {            i++;            j++;        } else {            j = next[j];        }    }    free(next);    if (j == patLen) {        return i - j; // 返回首次匹配位置    }    return -1; // 未找到}

完整示例程序

下面是一个完整的C语言程序，演示如何使用KMP算法进行字符串匹配：

#include <stdio.h>#include <string.h>#include <stdlib.h>void buildNext(char* pattern, int* next) {    int len = strlen(pattern);    next[0] = -1;    int i = 0, j = -1;    while (i < len - 1) {        if (j == -1 || pattern[i] == pattern[j]) {            i++;            j++;            next[i] = j;        } else {            j = next[j];        }    }}int kmpSearch(char* text, char* pattern) {    int textLen = strlen(text);    int patLen = strlen(pattern);    if (patLen == 0) return 0;    int* next = (int*)malloc(patLen * sizeof(int));    buildNext(pattern, next);    int i = 0, j = 0;    while (i < textLen && j < patLen) {        if (j == -1 || text[i] == pattern[j]) {            i++;            j++;        } else {            j = next[j];        }    }    free(next);    if (j == patLen) {        return i - j;    }    return -1;}int main() {    char text[] = "ABABDABACDABABCABCABCABC";    char pattern[] = "ABABC";    int pos = kmpSearch(text, pattern);    if (pos != -1) {        printf("Pattern found at index %d\n", pos);    } else {        printf("Pattern not found\n");    }    return 0;}