在计算机科学中,KMP算法(Knuth-Morris-Pratt算法)是一种高效的字符串匹配算法。它由Donald Knuth、Vaughan Pratt和James H. Morris于1977年独立提出。与朴素的暴力匹配不同,KMP算法通过预处理模式串,避免了主串指针的回溯,从而将时间复杂度从O(mn)优化到O(m+n),其中m是主串长度,n是模式串长度。

假设我们要在一个长文本(主串)中查找一个关键词(模式串)。最简单的方法是从主串的每个位置开始逐个字符比较,一旦不匹配就移动一位重新开始。这种方法在最坏情况下效率极低,例如主串为“AAAAAB”,模式串为“AAAB”时,会进行大量重复比较。
而Python实现KMP的核心思想是:当发生不匹配时,利用已匹配部分的信息,尽可能多地跳过不必要的比较。这依赖于一个称为“部分匹配表”(也叫next数组或失败函数)的预处理结果。
部分匹配表记录了模式串中每个位置之前的子串的最长相等前后缀长度。例如,模式串“ABABC”的部分匹配表为[0, 0, 1, 2, 0]。
下面是如何用Python构建这个表:
def build_next(pattern): """ 构建KMP算法中的next数组(部分匹配表) :param pattern: 模式串 :return: next数组 """ n = len(pattern) next_arr = [0] * n j = 0 # j表示当前最长相等前后缀的长度 for i in range(1, n): # 当前字符不匹配时,回退j while j > 0 and pattern[i] != pattern[j]: j = next_arr[j - 1] # 如果匹配,j加1 if pattern[i] == pattern[j]: j += 1 next_arr[i] = j return next_arr有了next数组后,我们就可以高效地进行字符串匹配了。以下是完整的模式匹配算法实现:
def kmp_search(text, pattern): """ 使用KMP算法在text中搜索pattern :param text: 主串 :param pattern: 模式串 :return: 所有匹配起始位置的列表 """ if not pattern: return [] next_arr = build_next(pattern) matches = [] j = 0 # 模式串的指针 for i in range(len(text)): # 不匹配时,根据next数组回退 while j > 0 and text[i] != pattern[j]: j = next_arr[j - 1] # 匹配则前进 if text[i] == pattern[j]: j += 1 # 完全匹配 if j == len(pattern): matches.append(i - j + 1) j = next_arr[j - 1] # 继续寻找下一个匹配 return matches让我们看看如何使用上面的函数:
# 示例text = "ABABDABACDABABCABCABCABC"pattern = "ABABC"positions = kmp_search(text, pattern)print(f"模式 '{pattern}' 在文本中出现的位置: {positions}")# 输出: 模式 'ABABC' 在文本中出现的位置: [9]KMP算法是一种经典的字符串匹配技术,特别适合在大数据量下进行高效搜索。通过预处理模式串构建next数组,KMP避免了主串指针的回溯,显著提升了性能。掌握Python实现KMP不仅有助于理解算法设计思想,还能在实际项目中提升文本处理效率。
希望这篇教程能帮助你从零开始理解并实现KMP算法!如果你正在学习模式匹配算法,不妨动手敲一遍代码,加深理解。
本文由主机测评网于2025-12-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/2025129344.html