当前位置：首页 > Python > 正文

高效字符串搜索利器：BM算法详解（Python语言BM算法实现从零开始）

主机测评网
Python
2025-12-12
859

在计算机科学中，字符串匹配是一个基础而重要的问题。无论是文本编辑器中的“查找”功能，还是生物信息学中的DNA序列比对，都离不开高效的字符串搜索算法。今天，我们将深入浅出地讲解一种非常高效的字符串匹配算法——BM算法（Boyer-Moore算法），并用Python语言完整实现它，即使是编程小白也能轻松理解！

高效字符串搜索利器：BM算法详解（Python语言BM算法实现从零开始） BM算法 Boyer-Moore算法字符串匹配 Python实现BM算法第1张

什么是BM算法？

BM算法（全称 Boyer-Moore 算法）由 Robert S. Boyer 和 J Strother Moore 在1977年提出，是一种从右向左进行模式匹配的字符串搜索算法。与传统的暴力匹配（Brute Force）或KMP算法不同，BM算法通过两种启发式规则——坏字符规则（Bad Character Rule）和好后缀规则（Good Suffix Rule）——来跳过大量不必要的比较，从而在实际应用中表现出极高的效率。

BM算法的核心思想

BM算法从模式串（pattern）的末尾开始与主串（text）进行比较：

坏字符规则：当发生不匹配时，根据主串中导致不匹配的那个“坏字符”在模式串中的位置，决定模式串向右移动的距离。
好后缀规则：如果模式串的某一部分（后缀）已经匹配成功，但下一个字符不匹配，则利用这个“好后缀”在模式串中的其他出现位置来决定移动距离。

每次比较后，算法会选择两种规则中能移动更远的那个，从而最大化跳过的字符数。

Python实现BM算法

下面我们用Python语言一步步实现BM算法。为了便于理解，我们将分别实现坏字符规则和好后缀规则，最后整合成完整的BM算法。

1. 坏字符规则的预处理

def build_bad_char_table(pattern):    """    构建坏字符表：记录每个字符在模式串中最后一次出现的位置    """    bad_char = {}    m = len(pattern)    for i in range(m - 1):  # 不包括最后一个字符        bad_char[pattern[i]] = i    return bad_char

2. 好后缀规则的预处理

def build_good_suffix_table(pattern):    """    构建好后缀表    """    m = len(pattern)    suffix = [0] * m    good_suffix = [0] * (m + 1)    # 步骤1：计算suffix数组    suffix[m - 1] = m    g = m - 1    for i in range(m - 2, -1, -1):        if i > g and suffix[i + m - 1 - (m - 1 - g)] < i - g:            suffix[i] = suffix[i + m - 1 - (m - 1 - g)]        else:            if i < g:                g = i            while g >= 0 and pattern[g] == pattern[g + m - 1 - i]:                g -= 1            suffix[i] = i - g    # 步骤2：构建good_suffix数组    for i in range(m):        good_suffix[suffix[i]] = i    # 步骤3：处理未覆盖的位置    j = 0    for i in range(m - 1, -1, -1):        if suffix[i] == i + 1:            while j < m - 1 - i:                if good_suffix[j] == 0:                    good_suffix[j] = m - 1 - i                j += 1    return good_suffix

3. 完整的BM算法实现

def boyer_moore_search(text, pattern):    """    使用BM算法在text中搜索pattern    返回所有匹配的起始索引列表    """    if not pattern or not text:        return []    n = len(text)    m = len(pattern)    # 预处理    bad_char = build_bad_char_table(pattern)    good_suffix = build_good_suffix_table(pattern)    matches = []    s = 0  # 模式串在文本中的当前偏移量    while s <= n - m:        j = m - 1  # 从模式串末尾开始比较        # 从右向左比较        while j >= 0 and pattern[j] == text[s + j]:            j -= 1        if j < 0:  # 完全匹配            matches.append(s)            # 移动：使用好后缀规则            s += good_suffix[0]        else:            # 计算坏字符移动距离            bad_char_shift = j - bad_char.get(text[s + j], -1)            # 计算好后缀移动距离            good_suffix_shift = good_suffix[j + 1]            # 取最大值            s += max(bad_char_shift, good_suffix_shift)    return matches

4. 测试我们的实现

# 测试代码if __name__ == "__main__":    text = "ABAAABCDABCABC"    pattern = "ABC"    result = boyer_moore_search(text, pattern)    print(f"在文本 '{text}' 中找到模式 '{pattern}' 的位置: {result}")    # 输出: 在文本 'ABAAABCDABCABC' 中找到模式 'ABC' 的位置: [5, 8, 11]