当前位置：首页 > C > 正文

BM算法详解（C语言实现高效字符串匹配）

主机测评网
C
2025-12-09
795

在计算机科学中，BM算法（Boyer-Moore算法）是一种高效的字符串匹配算法，广泛应用于文本编辑器、搜索引擎和生物信息学等领域。与朴素的暴力匹配不同，BM算法通过从右向左比较模式串，并利用“坏字符规则”和“好后缀规则”跳过大量不必要的比较，从而显著提升匹配速度。

BM算法详解（C语言实现高效字符串匹配） BM算法 C语言字符串匹配 Boyer-Moore算法实现高效字符串搜索第1张

为什么选择BM算法？

对于长文本和短模式串的场景，C语言字符串匹配使用BM算法通常比KMP或朴素算法更快。尤其当模式串长度增加时，BM算法的平均时间复杂度可接近 O(n/m)，其中 n 是文本长度，m 是模式串长度。

BM算法核心思想

BM算法依赖两个预处理表：

坏字符规则（Bad Character Rule）：当发生不匹配时，根据文本中导致不匹配的“坏字符”在模式串中的位置决定滑动距离。
好后缀规则（Good Suffix Rule）：利用已匹配的后缀部分，在模式串中寻找相同子串以决定最大安全滑动距离。

C语言实现步骤

下面我们用C语言逐步实现一个简化但完整的BM算法。为便于理解，我们将先实现坏字符规则，再加入好后缀规则。

1. 构建坏字符表

void build_bad_char_table(char *pattern, int pat_len, int bad_char[256]) {    // 初始化所有ASCII字符的偏移为-1    for (int i = 0; i < 256; i++) {        bad_char[i] = -1;    }    // 记录每个字符在模式串中最右边的位置    for (int i = 0; i < pat_len; i++) {        bad_char[(unsigned char)pattern[i]] = i;    }}

2. BM主函数（仅坏字符规则）

int boyer_moore_search(char *text, char *pattern) {    int text_len = strlen(text);    int pat_len = strlen(pattern);        if (pat_len == 0) return 0;    if (text_len < pat_len) return -1;        int bad_char[256];    build_bad_char_table(pattern, pat_len, bad_char);        int shift = 0; // 当前模式串相对于文本的偏移    while (shift <= (text_len - pat_len)) {        int j = pat_len - 1; // 从模式串末尾开始比较                // 从右向左匹配        while (j >= 0 && pattern[j] == text[shift + j]) {            j--;        }                if (j < 0) {            // 完全匹配            return shift; // 返回首次匹配位置        } else {            // 计算滑动距离：坏字符位置决定            int bad_char_shift = j - bad_char[(unsigned char)text[shift + j]];            shift += (bad_char_shift > 1) ? bad_char_shift : 1;        }    }    return -1; // 未找到}

上面的代码实现了基本的BM算法，适用于大多数教学和简单应用场景。若需更高性能，可进一步加入好后缀规则。

完整示例与测试

#include <stdio.h>#include <string.h>// 此处插入上述两个函数...int main() {    char text[] = "ABAAABCDABCAB";    char pattern[] = "ABC";        int pos = boyer_moore_search(text, pattern);    if (pos != -1) {        printf("Pattern found at index %d\n", pos);    } else {        printf("Pattern not found\n");    }        return 0;}