当前位置：首页 > Java > 正文

Java布隆过滤器详解（从零开始掌握高效去重算法）

主机测评网
Java
2025-12-10
260

在大数据处理、缓存系统和网络爬虫等场景中，我们经常需要快速判断一个元素是否存在于一个庞大的集合中。如果使用传统的哈希表或集合结构，不仅内存消耗大，而且效率可能不高。这时，布隆过滤器（Bloom Filter）就派上了用场。

本文将带你从零开始，用 Java语言 实现一个简单的布隆过滤器，并深入理解其原理与应用场景。无论你是编程小白还是有一定经验的开发者，都能轻松上手！

什么是布隆过滤器？

布隆过滤器 是一种空间效率极高的概率型数据结构，用于判断一个元素“可能在集合中” 或 “绝对不在集合中”。它由 Burton Howard Bloom 在 1970 年提出。

它的核心思想是：使用多个哈希函数将元素映射到位数组（bit array）中的不同位置，并将这些位置置为 1。查询时，只要有一个位置为 0，就可以确定该元素不存在；如果所有位置都为 1，则认为该元素可能存在（存在误判率）。

Java布隆过滤器详解（从零开始掌握高效去重算法） Java布隆过滤器布隆过滤器实现布隆过滤器教程高效去重算法第1张

布隆过滤器的特点

✅ 空间效率高：相比 HashSet，占用内存少得多。
✅ 查询速度快：时间复杂度为 O(k)，k 为哈希函数个数。
❌ 存在误判：可能将不存在的元素判断为存在（但不会漏判）。
❌ 不支持删除：标准布隆过滤器无法安全删除元素（除非使用变种如 Counting Bloom Filter）。

Java 实现布隆过滤器

下面我们用 Java 手动实现一个简单的布隆过滤器。我们将使用 BitSet 来模拟位数组，并使用两个不同的哈希函数（实际应用中可使用更多）。

import java.util.BitSet;import java.util.Objects;public class BloomFilter {    private final BitSet bitSet;    private final int bitSize;    private final int hashFunctions;    public BloomFilter(int expectedInsertions, double falsePositiveRate) {        this.bitSize = (int) Math.ceil(            -expectedInsertions * Math.log(falsePositiveRate) / (Math.log(2) * Math.log(2))        );        this.hashFunctions = (int) Math.ceil((double) bitSize / expectedInsertions * Math.log(2));        this.bitSet = new BitSet(bitSize);    }    // 添加元素    public void add(String item) {        Objects.requireNonNull(item, "Item cannot be null");        for (int i = 0; i < hashFunctions; i++) {            int hash = hash(item, i);            bitSet.set(Math.abs(hash) % bitSize, true);        }    }    // 判断元素是否存在（可能误判）    public boolean mightContain(String item) {        Objects.requireNonNull(item, "Item cannot be null");        for (int i = 0; i < hashFunctions; i++) {            int hash = hash(item, i);            if (!bitSet.get(Math.abs(hash) % bitSize)) {                return false; // 绝对不存在            }        }        return true; // 可能存在    }    // 简单的哈希函数生成器    private int hash(String item, int seed) {        int hash = seed;        for (char c : item.toCharArray()) {            hash = hash * 31 + c;        }        return hash;    }    // 测试示例    public static void main(String[] args) {        BloomFilter bloomFilter = new BloomFilter(1000, 0.01); // 预期插入1000个元素，误判率1%        bloomFilter.add("apple");        bloomFilter.add("banana");        bloomFilter.add("orange");        System.out.println(bloomFilter.mightContain("apple"));   // true        System.out.println(bloomFilter.mightContain("grape"));   // false（大概率）        System.out.println(bloomFilter.mightContain("unknown")); // false（大概率）    }}