当前位置：首页 > Java > 正文

Java实现关联规则挖掘（从零开始掌握Apriori算法）

主机测评网
Java
2025-12-04
533

在当今大数据时代，关联规则挖掘是数据挖掘中一项非常重要的技术。它可以帮助我们发现大量交易数据中隐藏的有趣关系，比如“购买尿布的顾客也常常购买啤酒”。本教程将带你使用Java语言从零开始实现经典的Apriori算法，即使你是编程小白，也能轻松上手！

Java实现关联规则挖掘（从零开始掌握Apriori算法） Java关联规则 Apriori算法Java实现数据挖掘Java教程关联规则挖掘入门第1张

什么是关联规则？

关联规则是一种用于发现变量之间有趣关系的规则。最常见的应用场景是市场篮子分析（Market Basket Analysis）。例如：

如果顾客买了牛奶和面包，那么他很可能也会买黄油。
如果用户观看了《复仇者联盟》，那么他可能也会观看《钢铁侠》。

关联规则通常用形如 X → Y 的形式表示，其中 X 和 Y 是不相交的商品集合。衡量规则好坏的主要指标有：支持度（Support）和置信度（Confidence）。

Apriori 算法原理简介

Apriori算法是关联规则挖掘中最经典、最基础的算法之一。它的核心思想基于一个先验性质：任何频繁项集的所有非空子集也必须是频繁的。

算法步骤如下：

扫描数据库，找出所有满足最小支持度的单个商品（1-项集）。
基于k-项集生成(k+1)-项集候选集。
再次扫描数据库，计算每个候选集的支持度。
保留满足最小支持度的项集，重复步骤2-3，直到无法生成新的频繁项集。
从频繁项集中生成满足最小置信度的关联规则。

Java 实现 Apriori 算法

下面我们用 Java 编写一个简化版的 Apriori 算法。为了便于理解，我们将使用字符串列表来表示交易数据。

1. 准备交易数据

假设我们有以下5笔交易记录：

List<Set<String>> transactions = Arrays.asList(    Set.of("牛奶", "面包", "黄油"),    Set.of("牛奶", "尿布", "啤酒", "面包"),    Set.of("牛奶", "尿布", "啤酒", "可乐"),    Set.of("尿布", "啤酒"),    Set.of("牛奶", "尿布", "啤酒", "面包"));

2. 计算支持度

我们需要一个方法来计算某个项集在所有交易中出现的频率：

public static double calculateSupport(Set<String> itemset,                                       List<Set<String>> transactions) {    int count = 0;    for (Set<String> transaction : transactions) {        if (transaction.containsAll(itemset)) {            count++;        }    }    return (double) count / transactions.size();}

3. 生成候选集

从 k-项集生成 (k+1)-项集的关键是两两合并，并确保所有 k 子集都存在于频繁 k-项集中：

public static List<Set<String>> generateCandidates(        List<Set<String>> frequentItemsets, int k) {    List<Set<String>> candidates = new ArrayList<>();    for (int i = 0; i < frequentItemsets.size(); i++) {        for (int j = i + 1; j < frequentItemsets.size(); j++) {            Set<String> union = new HashSet<>(frequentItemsets.get(i));            union.addAll(frequentItemsets.get(j));            if (union.size() == k &&                 isAllSubsetsFrequent(union, frequentItemsets, k - 1)) {                candidates.add(union);            }        }    }    return candidates;}private static boolean isAllSubsetsFrequent(Set<String> itemset,                                            List<Set<String>> freqItemsets,                                            int subsetSize) {    // 检查所有大小为 subsetSize 的子集是否都在 freqItemsets 中    // 此处为简化，实际实现需递归或组合生成    return true; // 简化处理}

4. 主流程：找出所有频繁项集

public static List<Set<String>> findFrequentItemsets(        List<Set<String>> transactions, double minSupport) {    List<Set<String>> allFrequent = new ArrayList<>();        // Step 1: 找出频繁1-项集    Map<String, Integer> itemCount = new HashMap<>();    for (Set<String> t : transactions) {        for (String item : t) {            itemCount.put(item, itemCount.getOrDefault(item, 0) + 1);        }    }        List<Set<String>> currentFreq = new ArrayList<>();    for (Map.Entry<String, Integer> entry : itemCount.entrySet()) {        if ((double) entry.getValue() / transactions.size() >= minSupport) {            currentFreq.add(Set.of(entry.getKey()));        }    }    allFrequent.addAll(currentFreq);        // Step 2: 迭代生成更大项集    int k = 2;    while (!currentFreq.isEmpty()) {        List<Set<String>> candidates = generateCandidates(currentFreq, k);        List<Set<String>> nextFreq = new ArrayList<>();                for (Set<String> cand : candidates) {            if (calculateSupport(cand, transactions) >= minSupport) {                nextFreq.add(cand);            }        }                allFrequent.addAll(nextFreq);        currentFreq = nextFreq;        k++;    }        return allFrequent;}