当前位置：首页 > Python > 正文

高效字符串匹配利器：KMP算法详解（Python语言KMP算法实现从入门到精通）

主机测评网
Python
2025-12-18
802

在计算机科学中，KMP算法（Knuth-Morris-Pratt算法）是一种高效的字符串匹配算法。它由Donald Knuth、Vaughan Pratt和James H. Morris于1977年独立提出。与朴素的暴力匹配不同，KMP算法通过预处理模式串，避免了主串指针的回溯，从而将时间复杂度从O(mn)优化到O(m+n)，其中m是主串长度，n是模式串长度。

高效字符串匹配利器：KMP算法详解（Python语言KMP算法实现从入门到精通） KMP算法字符串匹配 Python实现KMP 模式匹配算法第1张

为什么需要KMP算法？

假设我们要在一个长文本（主串）中查找一个关键词（模式串）。最简单的方法是从主串的每个位置开始逐个字符比较，一旦不匹配就移动一位重新开始。这种方法在最坏情况下效率极低，例如主串为“AAAAAB”，模式串为“AAAB”时，会进行大量重复比较。

而Python实现KMP的核心思想是：当发生不匹配时，利用已匹配部分的信息，尽可能多地跳过不必要的比较。这依赖于一个称为“部分匹配表”（也叫next数组或失败函数）的预处理结果。

KMP算法的核心：构建部分匹配表（next数组）

部分匹配表记录了模式串中每个位置之前的子串的最长相等前后缀长度。例如，模式串“ABABC”的部分匹配表为[0, 0, 1, 2, 0]。

下面是如何用Python构建这个表：

def build_next(pattern):    """    构建KMP算法中的next数组（部分匹配表）    :param pattern: 模式串    :return: next数组    """    n = len(pattern)    next_arr = [0] * n    j = 0  # j表示当前最长相等前后缀的长度    for i in range(1, n):        # 当前字符不匹配时，回退j        while j > 0 and pattern[i] != pattern[j]:            j = next_arr[j - 1]                # 如果匹配，j加1        if pattern[i] == pattern[j]:            j += 1                next_arr[i] = j        return next_arr

完整的KMP匹配函数

有了next数组后，我们就可以高效地进行字符串匹配了。以下是完整的模式匹配算法实现：

def kmp_search(text, pattern):    """    使用KMP算法在text中搜索pattern    :param text: 主串    :param pattern: 模式串    :return: 所有匹配起始位置的列表    """    if not pattern:        return []        next_arr = build_next(pattern)    matches = []    j = 0  # 模式串的指针    for i in range(len(text)):        # 不匹配时，根据next数组回退        while j > 0 and text[i] != pattern[j]:            j = next_arr[j - 1]                # 匹配则前进        if text[i] == pattern[j]:            j += 1                # 完全匹配        if j == len(pattern):            matches.append(i - j + 1)            j = next_arr[j - 1]  # 继续寻找下一个匹配        return matches

使用示例

让我们看看如何使用上面的函数：

# 示例text = "ABABDABACDABABCABCABCABC"pattern = "ABABC"positions = kmp_search(text, pattern)print(f"模式 '{pattern}' 在文本中出现的位置: {positions}")# 输出: 模式 'ABABC' 在文本中出现的位置: [9]