新型AI芯片能耗重大突破,已登Nature子刊
該研究由來自香港大學、香港科技大學和西電杭州研究院的團隊共同完成。論文第一作者為香港大學博士生洪海橋。香港大學的劉正午博士、李燦教授和黃毅(Ngai Wong)教授為共同通訊作者,合作者還包括張薇教授(港科大)、毛偉教授(西電)等。
AI 浪潮席卷全球,但算力功耗的 “電費焦慮” 也隨之而來。傳統馮?諾依曼架構下,數據在 CPU 和內存間 “疲于奔命”,消耗了大量能量。
存算一體(Compute-in-memory, CIM)技術被寄予厚望。它直接在內存里 “算”,通過在模擬域執行高效的乘加運算,被視為消除數據搬運瓶頸的終極方案之一。
但,這只是故事的一半。模擬計算的結果,最終必須通過 “翻譯官”—— 模數轉換器(ADC)—— 變回數字信號,才能進行后續處理。
然而這個 “翻譯官” 的開銷,卻成了新的 “攔路虎”。
在一篇新發表于《自然?通訊》(Nature Communications)的研究中,來自香港大學、香港科技大學和西電杭州研究院的團隊指出,在先進的存算一體系統中,ADC 可能消耗高達 87% 的總能量和 75% 的芯片面積!

- 論文《Memristor-based adaptive analog-to-digital conversion for efficient and accurate compute-in-memory》
- 論文鏈接:https://www.nature.com/articles/s41467-025-65233-w
這個占據絕對大頭的能耗組件,幾乎抵消了存算一體本應帶來的巨大能效優勢,成了整個架構中最亟待解決的瓶頸。
英雄的隱痛:為什么存算一體繞不開 ADC?
要理解這個瓶頸,我們得先看 AI 到底在 “算什么”。
正如《Nature》上的一篇綜述(Lanza 等人,2025)所指出的,AI 應用的核心是海量的向量矩陣乘法。傳統架構(如 CPU)必須將這些運算分解成無數個單獨的步驟,在內存和處理器之間來回倒騰數據。這個過程極其低效:Lanza 等人的文章分析,數據傳輸帶來的能耗可能是計算本身的 200 倍,并帶來巨大的延遲。
存算一體通過在內存陣列(例如憶阻器)中直接利用物理定律(如歐姆定律和基爾霍夫定律)并行完成 VMM,完美解決了這個問題。
但魔鬼藏在細節中。模擬計算的結果是連續的電流或電壓,而數字世界只認 0 和 1。ADC 就是這個翻譯官。問題是,這個來自傳統混合信號領域的 “翻譯官”,他的工作方式極其 “一刀切”,在這種新型 AI 芯片中格格不入。

傳統 ADC 采用的是 “均勻量化”(Uniform Quantization)。無論信號長什么樣,都用一組固定的、等距的量化邊界去 “切割”。
但這和神經網絡的實際情況完全不符。研究人員展示,不同網絡層的輸出信號分布千差萬別(如上圖 Conv 1, 2, 3 所示),有的像正態分布,有的則是偏態或局部均勻的。用一套固定的邊界去衡量千變萬化的計算信號,必然導致在信號密集的區域 “分不清”,在信號稀疏的區域又 “浪費” 了邊界,結果就是精度嚴重損失,AI 芯片推理效果不盡人意。
為了彌補這種損失,設計者被迫使用更高精度的 ADC(即更密集的邊界),但這又會導致 ADC 的硬件開銷(功耗和面積)呈指數級暴漲,陷入了惡性循環。
讓量化邊界學會自適應
既然固定的邊界不行,那讓它 “活動” 起來不就好了嗎?
港大團隊的思路是:既然你是固定的,那我就把你變成 “活” 的。他們看中了 “憶阻器”(Memristor)。
憶阻器是一種神奇的納米器件,它的電阻值不是固定的,而是可以通過施加電壓來編程,并且斷電后也能 “記住” 這個狀態。

簡單的融合替換難以產生突破性的作用,團隊利用憶阻器設計了一種全新的 “量化單元”(Q-cell),它本質上是一個模擬內容可尋址存儲器。通過改變憶阻器的電阻值,研究人員可以在硬件上隨意編程設置 ADC 的量化邊界。
這樣一來,ADC 就能 “看菜下碟”:
研究團隊使用算法(如 Lloyd-Max)先分析 AI 模型每一層輸出的數據到底長什么樣,然后尋找出一套最優的、非均勻的量化邊界,最后再通過憶阻器把這套 “定制邊界” 寫入硬件。
不止是 “量體裁衣”,更是 “瘦身革命”
這種 “量體裁衣” 的自適應方法(Adaptive Quantization),效果立竿見影。
在 VGG8 網絡和 CIFAR-10 數據集上,4-bit 精度下,傳統均勻量化的準確率僅為 52.3%,而自適應 ADC 能飆升到 88.9%。在 5-bit 精度下,憶阻器 ADC 也達到了 89.55% 的高準確率,逼近理想性能。
在更具挑戰性的 ResNet18 網絡上,這種優勢依然明顯,相較于均勻量化,自適應方案帶來了顯著的精度提升。

如果只是更準,那還不夠。憶阻器 ADC 的真正殺手锏,在于它為整個存算一體系統帶來的 “減負” 效應。
首先,ADC 本身的效率。與公開發表的 SOTA 設計相比,這款憶阻器 ADC 在 5-bit 精度下,實現了 15.1 倍 的能效提升和 12.9 倍 的面積縮減。
更關鍵的是系統層面。當這個高效 ADC 被集成回存算一體系統后:
在 VGG8 網絡中,ADC 模塊的系統能耗占比從 79.8% 猛降至 22.5%(系統總能耗降低 57.2%),面積占比也從 47.6% 降至 16.9%(系統總面積降低 30.7%)。

在 ResNet18 上,也實現了類似的 56.9% 的能耗和 25.1% 的面積節省。
這意味著,存算一體系統中最臃腫、最耗電的那個部件,被徹底 “馴服” 了。
這項工作為解決混合信號存算一體中的 ADC 瓶頸提供了一個全新的、硬件友好的范例,為實現高效、準確的下一代 AI 硬件鋪平了道路。



































