当前位置：首页 > Python > 正文

哈夫曼树详解（Python语言实现哈夫曼编码与数据压缩算法）

主机测评网
Python
2025-12-18
551

在计算机科学中，哈夫曼树（Huffman Tree）是一种用于数据压缩的经典算法结构。它由 David A. Huffman 在 1952 年提出，广泛应用于文件压缩（如 ZIP、GZIP）、图像压缩（如 JPEG）等领域。本文将带你从零开始，使用 Python 语言 实现一个完整的 哈夫曼编码 系统，即使是编程小白也能轻松上手！

什么是哈夫曼树？

哈夫曼树是一种带权路径长度最短的二叉树，也称为最优二叉树。它的核心思想是：出现频率高的字符用较短的编码，出现频率低的字符用较长的编码，从而实现整体编码长度最小化。

哈夫曼树详解（Python语言实现哈夫曼编码与数据压缩算法）哈夫曼树 Python哈夫曼编码数据压缩算法哈夫曼树实现第1张

实现步骤概览

统计字符频率
构建优先队列（最小堆）
不断合并频率最小的两个节点，直到只剩一棵树
遍历哈夫曼树生成编码表
使用编码表压缩原始数据

Python 实现哈夫曼树

我们将使用 Python 的 heapq 模块来实现最小堆，并定义一个树节点类。

import heapqfrom collections import defaultdict, Counterclass Node:    def __init__(self, char=None, freq=0, left=None, right=None):        self.char = char      # 字符        self.freq = freq      # 频率        self.left = left      # 左子树        self.right = right    # 右子树    def __lt__(self, other):        # 用于 heapq 比较        return self.freq < other.freqdef build_huffman_tree(text):    """根据输入文本构建哈夫曼树"""    # 1. 统计字符频率    freq = Counter(text)        # 2. 创建优先队列（最小堆）    heap = []    for char, count in freq.items():        heapq.heappush(heap, Node(char, count))        # 3. 合并节点直到只剩一棵树    while len(heap) > 1:        left = heapq.heappop(heap)        right = heapq.heappop(heap)        merged = Node(freq=left.freq + right.freq, left=left, right=right)        heapq.heappush(heap, merged)        return heap[0] if heap else Nonedef generate_codes(root):    """遍历哈夫曼树，生成字符到编码的映射"""    codes = {}        def dfs(node, code):        if node:            if node.char is not None:  # 叶子节点                codes[node.char] = code or '0'  # 处理单字符情况            else:                dfs(node.left, code + '0')                dfs(node.right, code + '1')        dfs(root, '')    return codesdef huffman_encode(text):    """对文本进行哈夫曼编码"""    if not text:        return '', {}        root = build_huffman_tree(text)    codes = generate_codes(root)    encoded = ''.join(codes[char] for char in text)        return encoded, codesdef huffman_decode(encoded_text, codes):    """根据编码表解码哈夫曼编码"""    # 反转编码表：编码 -> 字符    reverse_codes = {v: k for k, v in codes.items()}        decoded = []    current_code = ''    for bit in encoded_text:        current_code += bit        if current_code in reverse_codes:            decoded.append(reverse_codes[current_code])            current_code = ''        return ''.join(decoded)

测试我们的哈夫曼编码器

现在我们来测试一下上面的代码：

# 测试示例text = "hello world"encoded, codes = huffman_encode(text)print("原始文本:", text)print("哈夫曼编码表:", codes)print("编码结果:", encoded)print("解码结果:", huffman_decode(encoded, codes))# 输出示例：# 原始文本: hello world# 哈夫曼编码表: {'h': '1100', 'e': '1101', 'l': '0', 'o': '10', ' ': '1110', 'w': '11110', 'r': '111110', 'd': '111111'}# 编码结果: 1100110100101110111101111100111111# 解码结果: hello world