当前位置：首页 > C# > 正文

布隆过滤器（BloomFilter）的C#实现（从零开始构建高性能去重算法）

主机测评网
C#
2025-12-17
641

在处理海量数据时，我们经常需要快速判断某个元素是否“可能存在于”一个集合中。例如：防止缓存穿透、垃圾邮件过滤、网页爬虫去重等场景。这时候，布隆过滤器（Bloom Filter）就派上用场了！

本文将带你用C#语言从零实现一个布隆过滤器，即使你是编程小白，也能轻松理解并掌握这个高效的高性能去重算法。

什么是布隆过滤器？

布隆过滤器是一种空间效率极高的概率型数据结构，用于判断一个元素是否可能存在于一个集合中。它有两个特点：

如果布隆过滤器说“不存在”，那一定不存在；
如果布隆过滤器说“可能存在”，那它可能真的存在，也可能不存在（这就是所谓的“误判率”）。

布隆过滤器（BloomFilter）的C#实现（从零开始构建高性能去重算法）布隆过滤器 C#实现布隆过滤器教程 C#布隆过滤器代码高性能去重算法第1张

布隆过滤器的核心原理

布隆过滤器内部维护一个位数组（bit array），初始所有位都为0。当添加一个元素时，会通过多个不同的哈希函数对该元素进行哈希，得到多个索引位置，并将这些位置的值设为1。

查询时，同样用这些哈希函数计算出索引位置，如果所有位置都是1，则认为“可能存在”；只要有一个是0，就确定“不存在”。

C# 实现布隆过滤器

下面我们用 C# 编写一个完整的布隆过滤器类。我们将使用 .NET 内置的 BitArray 来表示位数组，并使用多个哈希函数（通过不同种子生成）来降低冲突率。

using System;using System.Collections;using System.Security.Cryptography;using System.Text;public class BloomFilter{    private readonly BitArray _bitArray;    private readonly int _hashFunctionCount;    private readonly int _bitArraySize;    public BloomFilter(int expectedItemCount, double falsePositiveRate = 0.01)    {        if (expectedItemCount <= 0)            throw new ArgumentException("Expected item count must be greater than zero.");        // 计算最优位数组大小 m        _bitArraySize = (int)Math.Ceiling(            -expectedItemCount * Math.Log(falsePositiveRate) / Math.Pow(Math.Log(2), 2)        );        // 计算最优哈希函数数量 k        _hashFunctionCount = (int)Math.Ceiling(            Math.Log(2) * _bitArraySize / expectedItemCount        );        _bitArray = new BitArray(_bitArraySize);    }    public void Add(string item)    {        if (string.IsNullOrEmpty(item)) return;        for (int i = 0; i < _hashFunctionCount; i++)        {            int hash = ComputeHash(item, i);            int index = Math.Abs(hash) % _bitArraySize;            _bitArray[index] = true;        }    }    public bool MightContain(string item)    {        if (string.IsNullOrEmpty(item)) return false;        for (int i = 0; i < _hashFunctionCount; i++)        {            int hash = ComputeHash(item, i);            int index = Math.Abs(hash) % _bitArraySize;            if (!_bitArray[index])                return false;        }        return true;    }    private static int ComputeHash(string input, int seed)    {        using (var sha256 = SHA256.Create())        {            byte[] bytes = Encoding.UTF8.GetBytes(input + seed);            byte[] hashBytes = sha256.ComputeHash(bytes);            // 取前4字节转为int            return BitConverter.ToInt32(hashBytes, 0);        }    }}

如何使用这个布隆过滤器？

下面是一个简单的使用示例：

class Program{    static void Main()    {        // 预期插入1000个元素，误判率1%        var bloomFilter = new BloomFilter(expectedItemCount: 1000, falsePositiveRate: 0.01);        bloomFilter.Add("apple");        bloomFilter.Add("banana");        bloomFilter.Add("cherry");        Console.WriteLine(bloomFilter.MightContain("apple"));   // True        Console.WriteLine(bloomFilter.MightContain("grape"));   // False（大概率）        Console.WriteLine(bloomFilter.MightContain("unknown")); // 可能False，也可能True（误判）    }}