Fairy2i：2比特量化媲美FP16，大模型边缘部署新突破

无需重新训练，Fairy2i实现2比特量化媲美FP16。

北京大学团队提出一个通用框架——Fairy2i，该框架直接基于已有预训练模型进行极低比特量化。

Fairy2i：2比特量化媲美FP16，大模型边缘部署新突破 Fairy2i 2比特量化模型压缩边缘设备第1张

该框架通过广泛线性表示将实数模型无损转换为复数形式，再结合相位感知量化与递归残差量化，实现了在仅2比特的情况下，性能接近全精度模型的突破性进展。

以下是更多详细内容。

研究核心：复用真值权重与递归残差量化

大模型在推理时，通常因其庞大的参数存储和计算需求，难以在手机、汽车等边缘设备上高效部署。

传统的量化方法在将模型压缩到极低比特时，常面临性能严重下降的问题。Fairy2i针对性地解决了这一痛点，具体表现在：

1、广义线性表示：低成本无损继承，打通实数与复数桥梁

Fairy2i通过解决实数模型如何“变身”复数模型的问题，极大地降低了训练所需的成本。

团队证明了一个数学等价性：任何偶数维的实数线性层，都可以无损地重参数化为等价的“广义线性复数形式”。这意味着，完全可以直接加载LLaMA等模型的预训练权重，将其转换为复数形式，而无需改变原有的参数规模。

Fairy2i：2比特量化媲美FP16，大模型边缘部署新突破 Fairy2i 2比特量化模型压缩边缘设备第2张

2、相位感知量化：沿用{±1, ±i}高效编码

Fairy2i继承了iFairy的核心优势，利用单位圆上的四个四次单位根{+1, -1, +i, -i}作为码本，充分利用了2-bit的编码空间。

3、递归残差量化：极低代价消除误差

为了进一步逼近全精度性能，团队提出了递归残差量化机制。实验表明，仅需T=2的递归阶段，就能大幅消除量化噪声。

Fairy2i：2比特量化媲美FP16，大模型边缘部署新突破 Fairy2i 2比特量化模型压缩边缘设备第3张

实验结果显示，Fairy2i在LLaMA-2 7B模型上取得了令人瞩目的成绩。

在语言建模能力（C4数据集PPL）上，Fairy2i (2-bit)取得了7.85的极低困惑度。这一表现不仅显著优于现有的2-bit量化方法，甚至超越了部分3-bit量化模型。

Fairy2i：2比特量化媲美FP16，大模型边缘部署新突破 Fairy2i 2比特量化模型压缩边缘设备第4张

在下游任务（Zero-shot Accuracy）评测中，Fairy2i同样表现强劲，其平均准确率达到了62.00%。这一结果表明，Fairy2i几乎填平了超低比特量化带来的性能鸿沟。

Fairy2i的出现，不仅解决了预训练实数大模型难以高效量化的难题，还通过复数域技术充分挖掘超低比特量化的潜力，让大模型在边缘设备上的流畅运行成为可能。

本文由主机测评网于2026-05-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260545988.html