当前位置：首页 > Python > 正文

哈夫曼编码详解（Python实现哈夫曼编码与数据压缩算法）

主机测评网
Python
2025-12-28
234

在计算机科学中，哈夫曼编码是一种广泛使用的数据压缩算法，它通过构建一棵哈夫曼树来为字符分配变长编码，出现频率高的字符使用较短的编码，频率低的则使用较长的编码，从而达到压缩的目的。本文将带你从零开始，用Python实现哈夫曼编码，即使是编程小白也能轻松理解！

什么是哈夫曼编码？

哈夫曼编码由David A. Huffman于1952年提出，是一种无损压缩方法。它的核心思想是：根据字符出现的频率构建一棵二叉树（即哈夫曼树），然后从根节点到每个叶子节点的路径就构成了该字符的编码（左路径为0，右路径为1）。

哈夫曼编码详解（Python实现哈夫曼编码与数据压缩算法）哈夫曼编码 Python实现哈夫曼编码数据压缩算法哈夫曼树构建第1张

Python实现步骤

我们将分以下几个步骤实现哈夫曼编码：

统计字符频率
构建优先队列（最小堆）
构建哈夫曼树
生成哈夫曼编码表
编码与解码函数

完整代码实现

下面是一个完整的、可运行的Python代码示例：

import heapqfrom collections import defaultdict, Counterclass Node:    def __init__(self, char, freq):        self.char = char        self.freq = freq        self.left = None        self.right = None    def __lt__(self, other):        return self.freq < other.freqdef build_huffman_tree(text):    # 统计字符频率    freq = Counter(text)        # 创建优先队列（最小堆）    heap = [Node(char, f) for char, f in freq.items()]    heapq.heapify(heap)        # 构建哈夫曼树    while len(heap) > 1:        left = heapq.heappop(heap)        right = heapq.heappop(heap)        merged = Node(None, left.freq + right.freq)        merged.left = left        merged.right = right        heapq.heappush(heap, merged)        return heap[0] if heap else Nonedef generate_codes(node, prefix="", codebook=None):    if codebook is None:        codebook = {}    if node is not None:        if node.char is not None:            codebook[node.char] = prefix        generate_codes(node.left, prefix + "0", codebook)        generate_codes(node.right, prefix + "1", codebook)    return codebookdef huffman_encode(text):    if not text:        return "", {}    root = build_huffman_tree(text)    codebook = generate_codes(root)    encoded_text = ''.join(codebook[char] for char in text)    return encoded_text, codebookdef huffman_decode(encoded_text, codebook):    # 反转编码表    reverse_codebook = {v: k for k, v in codebook.items()}    current_code = ""    decoded_text = ""    for bit in encoded_text:        current_code += bit        if current_code in reverse_codebook:            decoded_text += reverse_codebook[current_code]            current_code = ""    return decoded_text# 示例使用if __name__ == "__main__":    text = "hello world"    encoded, codes = huffman_encode(text)    print("原始文本:", text)    print("哈夫曼编码表:", codes)    print("编码结果:", encoded)    decoded = huffman_decode(encoded, codes)    print("解码结果:", decoded)