新型AI芯片能耗重大突破，已登Nature子刊

2025-11-25 09:06:31

人工智能新聞

在一篇新發表于《自然?通訊》（Nature Communications）的研究中，來自香港大學、香港科技大學和西電杭州研究院的團隊指出，在先進的存算一體系統中，ADC 可能消耗高達 87% 的總能量和 75% 的芯片面積！

該研究由來自香港大學、香港科技大學和西電杭州研究院的團隊共同完成。論文第一作者為香港大學博士生洪海橋。香港大學的劉正午博士、李燦教授和黃毅（Ngai Wong）教授為共同通訊作者，合作者還包括張薇教授（港科大）、毛偉教授（西電）等。

AI 浪潮席卷全球，但算力功耗的 “電費焦慮” 也隨之而來。傳統馮?諾依曼架構下，數據在 CPU 和內存間 “疲于奔命”，消耗了大量能量。

存算一體（Compute-in-memory, CIM）技術被寄予厚望。它直接在內存里 “算”，通過在模擬域執行高效的乘加運算，被視為消除數據搬運瓶頸的終極方案之一。

但，這只是故事的一半。模擬計算的結果，最終必須通過 “翻譯官”—— 模數轉換器（ADC）—— 變回數字信號，才能進行后續處理。

然而這個 “翻譯官” 的開銷，卻成了新的 “攔路虎”。

論文《Memristor-based adaptive analog-to-digital conversion for efficient and accurate compute-in-memory》
論文鏈接：https://www.nature.com/articles/s41467-025-65233-w

這個占據絕對大頭的能耗組件，幾乎抵消了存算一體本應帶來的巨大能效優勢，成了整個架構中最亟待解決的瓶頸。

英雄的隱痛：為什么存算一體繞不開 ADC？

要理解這個瓶頸，我們得先看 AI 到底在 “算什么”。

正如《Nature》上的一篇綜述（Lanza 等人，2025）所指出的，AI 應用的核心是海量的向量矩陣乘法。傳統架構（如 CPU）必須將這些運算分解成無數個單獨的步驟，在內存和處理器之間來回倒騰數據。這個過程極其低效：Lanza 等人的文章分析，數據傳輸帶來的能耗可能是計算本身的 200 倍，并帶來巨大的延遲。

存算一體通過在內存陣列（例如憶阻器）中直接利用物理定律（如歐姆定律和基爾霍夫定律）并行完成 VMM，完美解決了這個問題。

但魔鬼藏在細節中。模擬計算的結果是連續的電流或電壓，而數字世界只認 0 和 1。ADC 就是這個翻譯官。問題是，這個來自傳統混合信號領域的 “翻譯官”，他的工作方式極其 “一刀切”，在這種新型 AI 芯片中格格不入。

傳統 ADC 采用的是 “均勻量化”（Uniform Quantization）。無論信號長什么樣，都用一組固定的、等距的量化邊界去 “切割”。

但這和神經網絡的實際情況完全不符。研究人員展示，不同網絡層的輸出信號分布千差萬別（如上圖 Conv 1, 2, 3 所示），有的像正態分布，有的則是偏態或局部均勻的。用一套固定的邊界去衡量千變萬化的計算信號，必然導致在信號密集的區域 “分不清”，在信號稀疏的區域又 “浪費” 了邊界，結果就是精度嚴重損失，AI 芯片推理效果不盡人意。

為了彌補這種損失，設計者被迫使用更高精度的 ADC（即更密集的邊界），但這又會導致 ADC 的硬件開銷（功耗和面積）呈指數級暴漲，陷入了惡性循環。

讓量化邊界學會自適應

既然固定的邊界不行，那讓它 “活動” 起來不就好了嗎？

港大團隊的思路是：既然你是固定的，那我就把你變成 “活” 的。他們看中了 “憶阻器”（Memristor）。

憶阻器是一種神奇的納米器件，它的電阻值不是固定的，而是可以通過施加電壓來編程，并且斷電后也能 “記住” 這個狀態。

簡單的融合替換難以產生突破性的作用，團隊利用憶阻器設計了一種全新的 “量化單元”（Q-cell），它本質上是一個模擬內容可尋址存儲器。通過改變憶阻器的電阻值，研究人員可以在硬件上隨意編程設置 ADC 的量化邊界。

這樣一來，ADC 就能 “看菜下碟”：

研究團隊使用算法（如 Lloyd-Max）先分析 AI 模型每一層輸出的數據到底長什么樣，然后尋找出一套最優的、非均勻的量化邊界，最后再通過憶阻器把這套 “定制邊界” 寫入硬件。

不止是 “量體裁衣”，更是 “瘦身革命”

這種 “量體裁衣” 的自適應方法（Adaptive Quantization），效果立竿見影。

在 VGG8 網絡和 CIFAR-10 數據集上，4-bit 精度下，傳統均勻量化的準確率僅為 52.3%，而自適應 ADC 能飆升到 88.9%。在 5-bit 精度下，憶阻器 ADC 也達到了 89.55% 的高準確率，逼近理想性能。

在更具挑戰性的 ResNet18 網絡上，這種優勢依然明顯，相較于均勻量化，自適應方案帶來了顯著的精度提升。

如果只是更準，那還不夠。憶阻器 ADC 的真正殺手锏，在于它為整個存算一體系統帶來的 “減負” 效應。

首先，ADC 本身的效率。與公開發表的 SOTA 設計相比，這款憶阻器 ADC 在 5-bit 精度下，實現了 15.1 倍的能效提升和 12.9 倍的面積縮減。

更關鍵的是系統層面。當這個高效 ADC 被集成回存算一體系統后：

在 VGG8 網絡中，ADC 模塊的系統能耗占比從 79.8% 猛降至 22.5%（系統總能耗降低 57.2%），面積占比也從 47.6% 降至 16.9%（系統總面積降低 30.7%）。

在 ResNet18 上，也實現了類似的 56.9% 的能耗和 25.1% 的面積節省。

這意味著，存算一體系統中最臃腫、最耗電的那個部件，被徹底 “馴服” 了。

這項工作為解決混合信號存算一體中的 ADC 瓶頸提供了一個全新的、硬件友好的范例，為實現高效、準確的下一代 AI 硬件鋪平了道路。

責任編輯：張燕妮來源：機器之心

AI 芯片技術

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

新型AI芯片能耗重大突破，已登Nature子刊

英雄的隱痛：為什么存算一體繞不開 ADC？

讓量化邊界學會自適應

不止是 “量體裁衣”，更是 “瘦身革命”