当前位置:首页 > 科技资讯 > 正文

Fairy2i:2比特量化媲美FP16,大模型边缘部署新突破

无需重新训练,Fairy2i实现2比特量化媲美FP16

北京大学团队提出一个通用框架——Fairy2i,该框架直接基于已有预训练模型进行极低比特量化。

Fairy2i:2比特量化媲美FP16,大模型边缘部署新突破 Fairy2i  2比特量化 模型压缩 边缘设备 第1张

该框架通过广泛线性表示将实数模型无损转换为复数形式,再结合相位感知量化与递归残差量化,实现了在仅2比特的情况下,性能接近全精度模型的突破性进展。

以下是更多详细内容。

研究核心:复用真值权重与递归残差量化

大模型在推理时,通常因其庞大的参数存储和计算需求,难以在手机、汽车等边缘设备上高效部署。

传统的量化方法在将模型压缩到极低比特时,常面临性能严重下降的问题。Fairy2i针对性地解决了这一痛点,具体表现在:

1、广义线性表示:低成本无损继承,打通实数与复数桥梁

Fairy2i通过解决实数模型如何“变身”复数模型的问题,极大地降低了训练所需的成本。

团队证明了一个数学等价性:任何偶数维的实数线性层,都可以无损地重参数化为等价的“广义线性复数形式”。这意味着,完全可以直接加载LLaMA等模型的预训练权重,将其转换为复数形式,而无需改变原有的参数规模。

Fairy2i:2比特量化媲美FP16,大模型边缘部署新突破 Fairy2i  2比特量化 模型压缩 边缘设备 第2张

2、相位感知量化:沿用{±1, ±i}高效编码

Fairy2i继承了iFairy的核心优势,利用单位圆上的四个四次单位根{+1, -1, +i, -i}作为码本,充分利用了2-bit的编码空间。

3、递归残差量化:极低代价消除误差

为了进一步逼近全精度性能,团队提出了递归残差量化机制。实验表明,仅需T=2的递归阶段,就能大幅消除量化噪声。

Fairy2i:2比特量化媲美FP16,大模型边缘部署新突破 Fairy2i  2比特量化 模型压缩 边缘设备 第3张

性能表现:表现强劲,性能逼近FP16

实验结果显示,Fairy2i在LLaMA-2 7B模型上取得了令人瞩目的成绩。

在语言建模能力(C4数据集PPL)上,Fairy2i (2-bit)取得了7.85的极低困惑度。这一表现不仅显著优于现有的2-bit量化方法,甚至超越了部分3-bit量化模型。

Fairy2i:2比特量化媲美FP16,大模型边缘部署新突破 Fairy2i  2比特量化 模型压缩 边缘设备 第4张

在下游任务(Zero-shot Accuracy)评测中,Fairy2i同样表现强劲,其平均准确率达到了62.00%。这一结果表明,Fairy2i几乎填平了超低比特量化带来的性能鸿沟。

Fairy2i的出现,不仅解决了预训练实数大模型难以高效量化的难题,还通过复数域技术充分挖掘超低比特量化的潜力,让大模型在边缘设备上的流畅运行成为可能。