当前位置：首页 > Python > 正文

高效字符串匹配利器：KMP算法详解（Python语言KMP算法实现从零入门）

主机测评网
Python
2025-12-16
951

在计算机科学中，KMP算法（Knuth-Morris-Pratt算法）是一种高效的字符串匹配算法。它由Donald Knuth、Vaughan Pratt和James H. Morris于1977年共同提出。与朴素的暴力匹配不同，KMP算法通过预处理模式串（pattern），避免了主串（text）指针的回溯，从而将时间复杂度从O(m×n)优化到O(m+n)，其中m是主串长度，n是模式串长度。

高效字符串匹配利器：KMP算法详解（Python语言KMP算法实现从零入门） KMP算法字符串匹配 Python实现KMP 模式匹配算法第1张

为什么需要KMP算法？

假设我们要在一个长文本中查找某个关键词。使用暴力匹配方法时，一旦字符不匹配，我们就把模式串向右移动一位，重新开始比较。这种方式在最坏情况下效率极低。

而Python实现KMP的核心思想是：当发生不匹配时，利用已匹配部分的信息，尽可能多地跳过不必要的比较，直接将模式串滑动到下一个可能匹配的位置。

KMP算法的关键：前缀函数（Partial Match Table）

KMP算法的核心在于构建一个“部分匹配表”（也称为next数组或failure function）。这个表记录了模式串中每个位置的最长相等前后缀长度。

例如，模式串 "ABABC" 的部分匹配表为：

索引0（'A'）：无前后缀 → 0
索引1（'B'）：前后缀不相等 → 0
索引2（'A'）：前缀'A' = 后缀'A' → 1
索引3（'B'）：前缀'AB' = 后缀'AB' → 2
索引4（'C'）：无相等前后缀 → 0

Python实现KMP算法步骤

我们将分两步实现KMP：

构建部分匹配表（next数组）
使用该表进行字符串匹配

第一步：构建部分匹配表

def build_next(pattern):    n = len(pattern)    next_arr = [0] * n    j = 0  # 指向前缀末尾    for i in range(1, n):        # 当前字符不匹配时，回退j        while j > 0 and pattern[i] != pattern[j]:            j = next_arr[j - 1]                # 如果匹配，延长公共前后缀        if pattern[i] == pattern[j]:            j += 1                next_arr[i] = j        return next_arr

第二步：执行KMP匹配

def kmp_search(text, pattern):    if not pattern:        return 0  # 空模式匹配在位置0        next_arr = build_next(pattern)    j = 0  # 模式串指针        for i in range(len(text)):        # 不匹配时，根据next数组回退        while j > 0 and text[i] != pattern[j]:            j = next_arr[j - 1]                # 匹配则前进        if text[i] == pattern[j]:            j += 1                # 完全匹配        if j == len(pattern):            return i - j + 1  # 返回起始位置        return -1  # 未找到

完整示例与测试

# 测试代码if __name__ == "__main__":    text = "ABABDABACDABABCABCABCABC"    pattern = "ABABC"        pos = kmp_search(text, pattern)    if pos != -1:        print(f"模式 '{pattern}' 在文本中首次出现的位置是: {pos}")    else:        print("未找到匹配")    # 输出: 模式 'ABABC' 在文本中首次出现的位置是: 9