2比特復數模型媲美全精度!北大通用框架讓大模型在手機上也能流暢運行
無需重新訓練,模型壓縮實現2比特媲美FP16。
近日,北京大學團隊提出一個直接基于已有預訓練模型進行極低比特量化的通用框架——Fairy2i。

該框架通過廣泛線性表示將實數模型無損轉換為復數形式,再結合相位感知量化與遞歸殘差量化,實現了在僅2比特的情況下,性能接近全精度模型的突破性進展。
下面是更多詳細內容。
研究核心:復用真值權重與遞歸殘差量化
眾所周知,大模型在推理時,通常因其龐大的參數存儲和計算需求,難以在手機、汽車等邊緣設備上高效部署。
傳統的量化方法在將模型壓縮到極低比特(如1-2比特)時,常面臨性能嚴重下降的問題,尤其是在直接復用預訓練模型的情況下,難以在壓縮和精度之間找到平衡。
Fairy2i針對性地解決了這一痛點,具體表現在:
1、廣義線性表示:低成本無損繼承,打通實數與復數橋梁
在“架構”上,Fairy2i通過解決實數模型如何“變身”復數模型的問題,極大地降低了訓練所需的成本。
不同于iFairy等需要花費高昂算力從頭預訓練(Pre-training from scratch)的方式,Fairy2i選擇了一條更高效的“繼承”之路。
團隊證明了一個數學等價性:任何偶數維的實數線性層,都可以無損地重參數化為等價的 “廣義線性復數形式”(Widely-Linear Complex Form)。
這意味著,完全可以直接加載LLaMA等模型的預訓練權重,將其轉換為復數形式,而無需改變原有的參數規模。
這種策略不僅完美避開了從零構建復數模型所需的龐大算力消耗,且在量化前保持模型的推理結果完全不變,為后續的超低比特量化提供了完美的起點。

2、相位感知量化:沿用{±1, ±i}高效編碼
在“量化”上,Fairy2i繼承了iFairy的核心優勢。
它利用單位圓上的四個四次單位根{+1, -1, +i, -i}作為碼本,相比于實數域的二值(+1, -1)或三值(+1, 0, -1)量化,復數域的這四個點充分利用了2-bit的編碼空間,具有更高的信息密度和更好的對稱性。
3、遞歸殘差量化:極低代價消除誤差
為了進一步逼近全精度性能,團隊提出了遞歸殘差量化(Recursive Residual Quantization) 機制。
既然一次量化有誤差,那就對“誤差”再進行一次量化,Fairy2i將權重表示為幾個低比特項的和。
實驗表明,僅需T=2的遞歸階段(即等效2-bit),就能大幅消除量化噪聲。

另外,與iFairy一樣,Fairy2i在推理時同樣具備“無乘法”的特性。
由于權重被量化為{±1, ±i}的組合,推理時的矩陣乘法被轉化為簡單的加法、減法和數據交換(Swap)操作。
更為精妙的是,Fairy2i的遞歸殘差計算是數據獨立的,這意味著多個階段的計算可以并行處理,在提升精度的同時,幾乎不會增加推理延遲。
性能表現:表現強勁,性能逼近FP16
實驗結果顯示,Fairy2i在LLaMA-2 7B模型上取得了令人矚目的成績。
在語言建模能力(C4數據集PPL)上,Fairy2i (2-bit)取得了7.85的極低困惑度。
這一表現不僅顯著優于現有的2-bit量化方法,甚至超越了部分3-bit量化模型,性能直逼全精度FP16水平 (6.63)。

在下游任務(Zero-shot Accuracy)評測中,Fairy2i同樣表現強勁,其平均準確率達到了62.00%。
這一結果表明,Fairy2i幾乎填平了超低比特量化帶來的性能鴻溝,與全精度模型(64.72%)僅有一步之遙,實現了在極低比特預算下的性能飛躍。
Fairy2i的出現,不僅解決了預訓練實數大模型難以高效量化的難題,還通過復數域技術充分挖掘超低比特量化的潛力,讓大模型在邊緣設備上的流暢運行成為可能。
值得注意的是,受限于算力資源,目前的Fairy2i僅使用了300億(30B) token進行訓練。
團隊堅信,復數表示擁有尚未被完全挖掘的卓越容量。隨著未來在更大規模數據集上的持續訓練,Fairy2i有望不僅匹敵,甚至在精度上徹底反超原始的全精度基座模型。
目前,相關論文已公開,這項技術或將成為大模型在邊緣設備普及的關鍵推手。
團隊特別致謝:該研究得到了九章云極www.alayanew.com和大灣區大學的大力支持。
論文鏈接:https://arxiv.org/abs/2512.02901
HuggingFace:https://huggingface.co/PKU-DS-LAB/Fairy2i-W2
GitHub: https://github.com/PKULab1806/Fairy2i-W2
modelscope:https://modelscope.cn/models/PKULab1806/Fairy2i-W2


































