当前位置：首页 > C++ > 正文

BM算法详解（C++语言实现高效字符串匹配）

主机测评网
C++
2025-12-12
1024

在计算机科学中，BM算法（Boyer-Moore算法）是一种高效的C++字符串匹配算法，广泛应用于文本编辑器、搜索引擎和生物信息学等领域。与传统的暴力匹配不同，BM算法通过“坏字符规则”和“好后缀规则”跳过不必要的比较，从而显著提升高效字符串搜索的性能。

什么是BM算法？

BM算法由Robert S. Boyer和J Strother Moore于1977年提出。它从模式串（pattern）的末尾开始匹配，并利用两个启发式规则来决定每次可以跳过多长的文本：

坏字符规则（Bad Character Rule）：当发生不匹配时，根据文本中导致不匹配的字符（坏字符）在模式串中的位置，决定向右移动的距离。
好后缀规则（Good Suffix Rule）：当模式串的某一部分（后缀）已经匹配成功，但下一个字符不匹配时，根据该后缀在模式串其他位置的出现情况来决定移动距离。

BM算法详解（C++语言实现高效字符串匹配） BM算法 C++字符串匹配 Boyer-Moore算法实现高效字符串搜索第1张

C++实现BM算法步骤

我们将分三步实现BM算法：

构建坏字符表（bad character table）
构建好后缀表（good suffix table）
主匹配函数，结合两个表进行高效搜索

完整C++代码实现

以下是完整的Boyer-Moore算法实现代码，包含详细注释，适合初学者理解：

#include <iostream>#include <vector>#include <algorithm>using namespace std;// 构建坏字符表void buildBadCharTable(const string& pattern, vector<int>& badChar) {    int m = pattern.length();    for (int i = 0; i < 256; ++i)        badChar[i] = -1;    for (int i = 0; i < m; ++i)        badChar[static_cast<unsigned char>(pattern[i])] = i;}// 构建好后缀表void buildGoodSuffixTable(const string& pattern, vector<int>& goodSuffix) {    int m = pattern.length();    vector<int> suffix(m, 0);    // 计算suffix数组    suffix[m - 1] = m;    int g = m - 1;    for (int i = m - 2; i >= 0; --i) {        if (i > g && suffix[i + m - 1 - (m - 1 - g)] < i - g)            suffix[i] = suffix[i + m - 1 - (m - 1 - g)];        else {            if (i < g) g = i;            while (g >= 0 && pattern[g] == pattern[g + m - 1 - i])                g--;            suffix[i] = i - g;        }    }    // 初始化goodSuffix表    for (int i = 0; i < m; ++i)        goodSuffix[i] = m;    // 应用suffix数组填充goodSuffix    int j = 0;    for (int i = m - 1; i >= -1; --i) {        if (i == -1 || suffix[i] == i + 1) {            while (j < m - 1 - i) {                if (goodSuffix[j] == m)                    goodSuffix[j] = m - 1 - i;                j++;            }        }    }    // 处理其他情况    for (int i = 0; i <= m - 2; ++i)        goodSuffix[m - 1 - suffix[i]] = m - 1 - i;}// BM算法主函数int boyerMooreSearch(const string& text, const string& pattern) {    int n = text.length();    int m = pattern.length();    if (m == 0) return 0;    vector<int> badChar(256, -1);    buildBadCharTable(pattern, badChar);    vector<int> goodSuffix(m, 0);    buildGoodSuffixTable(pattern, goodSuffix);    int s = 0; // 模式串相对于文本的偏移量    while (s <= n - m) {        int j = m - 1;        while (j >= 0 && pattern[j] == text[s + j])            j--;        if (j < 0) {            cout << "Pattern found at index " << s << endl;            s += (s + m < n) ? m - badChar[static_cast<unsigned char>(text[s + m])] : 1;        } else {            int badCharShift = j - badChar[static_cast<unsigned char>(text[s + j])];            int goodSuffixShift = goodSuffix[j];            s += max(badCharShift, goodSuffixShift);        }    }    return -1;}int main() {    string text = "ABAAABCDABCABC";    string pattern = "ABC";    boyerMooreSearch(text, pattern);    return 0;}