无需重新训练,Fairy2i实现2比特量化媲美FP16。
北京大学团队提出一个通用框架——Fairy2i,该框架直接基于已有预训练模型进行极低比特量化。
该框架通过广泛线性表示将实数模型无损转换为复数形式,再结合相位感知量化与递归残差量化,实现了在仅2比特的情况下,性能接近全精度模型的突破性进展。
以下是更多详细内容。
大模型在推理时,通常因其庞大的参数存储和计算需求,难以在手机、汽车等边缘设备上高效部署。
传统的量化方法在将模型压缩到极低比特时,常面临性能严重下降的问题。Fairy2i针对性地解决了这一痛点,具体表现在:
1、广义线性表示:低成本无损继承,打通实数与复数桥梁
Fairy2i通过解决实数模型如何“变身”复数模型的问题,极大地降低了训练所需的成本。
团队证明了一个数学等价性:任何偶数维的实数线性层,都可以无损地重参数化为等价的“广义线性复数形式”。这意味着,完全可以直接加载LLaMA等模型的预训练权重,将其转换为复数形式,而无需改变原有的参数规模。
2、相位感知量化:沿用{±1, ±i}高效编码
Fairy2i继承了iFairy的核心优势,利用单位圆上的四个四次单位根{+1, -1, +i, -i}作为码本,充分利用了2-bit的编码空间。
3、递归残差量化:极低代价消除误差
为了进一步逼近全精度性能,团队提出了递归残差量化机制。实验表明,仅需T=2的递归阶段,就能大幅消除量化噪声。
实验结果显示,Fairy2i在LLaMA-2 7B模型上取得了令人瞩目的成绩。
在语言建模能力(C4数据集PPL)上,Fairy2i (2-bit)取得了7.85的极低困惑度。这一表现不仅显著优于现有的2-bit量化方法,甚至超越了部分3-bit量化模型。
在下游任务(Zero-shot Accuracy)评测中,Fairy2i同样表现强劲,其平均准确率达到了62.00%。这一结果表明,Fairy2i几乎填平了超低比特量化带来的性能鸿沟。
Fairy2i的出现,不仅解决了预训练实数大模型难以高效量化的难题,还通过复数域技术充分挖掘超低比特量化的潜力,让大模型在边缘设备上的流畅运行成为可能。
本文由主机测评网于2026-05-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545988.html