AGI 的標尺,別再“糊”論 AGI:一份來自頂尖學者的量化評估藍圖

大家好,我是肆〇柒。最近,由Center for AI Safety、斯坦福大學、MIT、牛津大學、紐約大學、蒙特利爾大學(Mila)等 29 家頂尖研究機構的數十位學者共同發布了一篇里程碑式論文——《A Definition of AGI》。這篇論文首次將“通用人工智能”從哲學爭論拉回工程可測領域,提出了一套基于人類認知架構的、可手動評估的 AGI 量化框架。今天,我們就來看看這套框架如何為當前 AI 系統體檢,以及為何 GPT-5 的 AGI 得分僅為 57%。

GPT-4和GPT-5的能力。圖中結果,GPT-5以“自動”模式回答問題
"我們離 AGI 還有多遠?"這一問題的答案長期以來如同水中月影,隨著 AI 能力的不斷提升而不斷漂移。當專用 AI 系統掌握曾經被認為需要人類智慧的任務時,"AGI"的評判標準也隨之改變。現在看,通用人工智能可能是人類歷史上最重要的技術發展,然而這一術語本身卻令人沮喪地模糊不清,成為一個不斷移動的目標點。這種模糊性不僅引發了無休止的爭論,更阻礙了對真實進展的客觀評估。由數十位頂尖學者聯合提出的量化評估框架,正試圖將 AGI 從哲學討論拉回工程可測領域,為這一關鍵問題提供一把清晰的"標尺"。
為何需要可操作的 AGI 定義?
隨著專用 AI 系統在數學、藝術等領域超越人類表現,"AGI"的標準也在不斷變化。這種現象不僅助長了無益的爭論,更掩蓋了當今 AI 與真正通用智能之間的差距。當下,盡管大語言模型在復雜基準測試上表現令人印象深刻,但這些系統缺乏許多對人類類通用智能至關重要的核心認知能力,使其本質上仍是狹窄領域的專家。
實質上,人類是目前唯一存在的通用智能體,因此評估 AGI 必須以人類為唯一參照系。通用智能需要的不僅是狹窄領域的專門表現,還包括體現人類認知廣度和深度的技能。該框架明確區分了"人類水平 AI"與"經濟水平 AI"——后者如 OpenAI 和微軟曾考慮將 AGI 定義為能創造 1000 億美元價值的 AI。框架聚焦于評估"受過良好教育的個體通常具備的核心認知能力",而非所有受過良好教育個體的綜合知識和技能總和。
這一區分至關重要,因為專用 AI 可以在不具備通用性的情況下極具經濟價值。該框架刻意關注核心認知能力,而非運動技能或觸覺感知等物理能力,目的是為了測量心智的能力,而非其執行器或傳感器的質量。這種定位使框架成為一個真正以人類認知為基準的評估工具。
理論基礎:CHC 人類認知能力模型
該框架的理論基礎源于 Cattell-Horn-Carroll(CHC)理論,這是經過百年來對各種認知能力測試的迭代因子分析提煉出的最實證化的模型。論文中有指出,在 1990 年代至 2000 年代,幾乎所有主要的臨床、個別施測的人類智力測試都迭代修訂為基于 CHC 模型的測試設計藍圖,證明了其在心理測量學中的權威地位。

十大核心認知組件
CHC 理論將人類認知能力分為不同層級:頂層是一般智力(g),中層是寬域能力(如流體推理、晶體知識等),底層是窄域能力(如歸納、聯想記憶等)。這一層次結構為 AGI 評估提供了系統化的分解方法。這個框架將通用智能分解為十個核心認知組件(寬域能力)和眾多窄域認知能力。解決與這些能力相對應的所有任務意味著 AGI 得分為 100%。
框架并非簡單照搬 CHC 模型,而是進行了針對性改造。它聚焦于核心認知能力,排除了身體/運動等非核心維度。同時,框架不將 AGI 與經濟價值 AI 混為一談,因為專用 AI 可以在不具備通用性的情況下極具經濟價值。這種科學化的改造使框架既保持了心理測量學的嚴謹性,又適應了 AI 評估的特殊需求。
相比其他定義方式,如有研究提出的"基于性能百分位的 AGI 級別",該框架的優勢在于其對人類認知架構的系統性借鑒。而且,盡管即興推理測試(通常稱為流體智力)是人類在其他認知測試中表現的有力預測指標,但這種相關性不一定適用于 AI 系統。這表明,簡單地將人類認知評估方法直接應用于 AI 系統可能產生誤導,需要更全面的多維度評估。
AGI 評估框架:十大認知維度
本框架將 AGI 分解為十個核心認知組件,每個組件源自 CHC 寬域能力并等權重分配(10%),以優先考慮廣度并覆蓋認知的主要領域。
1.通用知識(K)領域 測試大多數受過良好教育的人所熟悉的或足夠重要的知識。它細分為常識(2%)、科學(2%)、社會科學(2%)、歷史(2%)和文化(2%)。評估標準具體明確:常識要求系統在常識物理測試中準確率超過 85%;科學要求在 ARC Challenge 測試中準確率超過 85%;社會科學要求在社會常識問答中準確率超過 85%;歷史要求在歷史事實問答中準確率超過 90%;文化要求理解文學、藝術和文化習俗。創作素材強調,測試關注的是普遍性知識,而非專業知識深度。


2.閱讀與寫作(RW)領域 細分為字母-單詞能力(1%)、閱讀理解(3%)、寫作能力(3%)和英語使用知識(3%),關注從基本解碼到復雜理解、創作和使用的全過程。字母-單詞能力測試識別字母和解碼單詞的能力;閱讀理解評估理解連接性話語的能力,要求在復雜文檔理解測試中準確率超過 55%;寫作能力細分為句子級、段落級和文章級;英語使用知識測試英語寫作中關于大寫、標點、用法和拼寫的知識。這一領域評估的是語言的實際應用能力,而非機械記憶。


3.數學能力(M)領域 覆蓋算術(2%)、代數(2%)、幾何(2%)、概率(2%)和微積分(2%),測試數學知識和技能的深度和廣度。評估方法從基本計算能力(如"9 × 10 × 11")到復雜方程求解(如"解方程:2x + 3 = 7"),再到空間關系理解(如"計算底邊為 5、高為 8 的三角形面積"),全面測試系統在不同數學領域的能力。


4.即興推理(R)領域 評估解決無法僅依靠先前學習習慣的新問題的能力。它包括演繹(2%)、歸納(4%)、心智理論(2%)、規劃(1%)和適應(1%)。演繹能力測試從一般陳述推理出邏輯結論的能力;歸納能力測試觀察現象并發現潛在原理的能力;心智理論測試理解他人心理狀態的能力;規劃測試制定行動序列的能力;適應測試環境變化時調整策略的能力。這一領域測試的是靈活解決新問題的能力,而非依賴預先訓練的模式。


以下是維度的具體定義:演繹推理(2%):從一般性陳述或前提中推理出邏輯上必然的結論。歸納推理(4%):發現決定現象行為的潛在原理或規則。心智理論(2%):將心理狀態歸因于他人,并理解這些狀態可能與自身不同。規劃(1%):制定一系列行動以實現特定目標。適應(1%):從一系列簡單的績效反饋中推斷出未明確說明的分類規則。
5.工作記憶(WM)領域 評估暫時存儲和操作信息的能力,細分為文本工作記憶(2%)、聽覺工作記憶(2%)、視覺工作記憶(4%)和跨模態工作記憶(2%)。文本工作記憶包括回憶(1%)和轉換序列(1%);視覺工作記憶包括空間導航記憶(1%)和長視頻問答(1%),測試系統在視覺信息處理方面的能力。這一領域對評估系統處理復雜、多步驟任務的能力至關重要。


6.長期記憶存儲(MS)領域 是最大的瓶頸,當前模型得分接近 0%。它細分為聯想記憶(4%)、意義記憶(3%)和逐字記憶(3%)。聯想記憶測試"鏈接先前不相關信息的能力",如記住用戶特定的郵件簽名要求;意義記憶測試"編碼和回憶經歷和敘事語義的能力",如記住短篇小說的情節;逐字記憶測試"精確存儲和重現信息的能力",如精確回憶購物清單。沒有持續學習能力,AI 系統會遭受“健忘癥”,限制其效用,迫使 AI 在每次交互中重新學習上下文。


7.長期記憶提取(MR)領域 測試長期記憶訪問的流暢性和精確性,分為流暢性(6%)和幻覺(4%)。流暢性測試生成連貫內容的能力;幻覺測試避免捏造信息的能力。當前AI系統可以快速從參數中檢索許多概念,但經常產生幻覺,如錯誤地描述"拿破侖·波拿巴贏得南非戰役的關鍵策略",而歷史上拿破侖從未在南非進行過戰役。

8.視覺處理(V)領域 評估處理和解釋視覺信息的能力,包括感知(4%)、視覺生成(3%)、視覺推理(2%)和空間掃描(1%)。感知測試識別和區分視覺輸入的能力;視覺生成測試合成圖像和短視頻的能力;視覺推理測試理解圖像信息并進行邏輯推理的能力;空間掃描測試處理和操作空間信息的能力。這一領域測試系統的視覺理解和生成能力,而非簡單的圖像識別準確率。


9.聽覺處理(A)領域 評估處理和解釋聽覺信息的能力,包括語音處理(1%)、語音識別(4%)、聲音識別(3%)、節奏能力(1%)和音樂能力(1%)。語音處理測試識別和區分聲音的能力;語音識別測試將語音轉換為文本的能力;節奏能力測試識別和維持音樂節拍的能力。這一領域對評估系統在語音交互、多媒體理解等方面的能力至關重要。


10.處理速度(S)領域 測試基本認知操作準確執行的速率,細分為十個 1% 的能力。處理速度是執行簡單認知任務的速率,包括感知速度-搜索、感知速度-比較、閱讀速度、寫作速度、數字熟練度等。例如,感知搜索測試掃描圖像或文本的能力,如"確定列表中不匹配的姓名對";感知比較測試比較兩個或多個刺激的能力,如"找出最大的數字'48291, 93652, 12844, 59277'"。


這個框架的評估方法具有獨特優勢:框架的定義不是自動評估也不是數據集。相反,它指定了大量明確定義的任務,用于測試特定認知能力。是否 AI 能解決這些任務可以由任何人手動評估。這使得框架"比固定自動 AI 能力數據集更廣泛、更穩健,能夠適應不斷發展的技術環境。
實證結果與"鋸齒狀能力"現象
框架的應用揭示了當前 AI 系統的"鋸齒狀能力"特征。數據顯示 GPT-4 的 AGI Score 為 27%,而 GPT-5 達到 57%。這種不均衡發展凸顯了特定瓶頸。

GPT-4(2023)和GPT-5(2025)的AGI分數總結,表頭的字母簡寫對應到上文中所闡述的十大維度縮寫
當下 AI 系統表現出高度不均勻或“鋸齒狀”的認知特征。在知識密集型任務上表現強勁,但在基礎認知機制(如記憶、感知、速度)上存在明顯短板。例如,長期記憶存儲(MS)是最顯著的瓶頸,如上文提到過,沒有持續學習能力,AI 系統會遭受“健忘癥”,限制其效用,迫使 AI 在每次交互中重新學習上下文。
更值得注意的是能力扭曲現象:AI 系統通過兩種主要方式掩蓋真實能力局限:
1. 用工作記憶模擬長期存儲:依賴超長上下文窗口來維持對話連續性。這兩者,一個顯著的扭曲是依賴大規模上下文窗口(工作記憶)來補償長期記憶存儲的缺乏。實踐中使用這些長上下文來管理系統狀態和吸收信息(例如整個代碼庫)。然而,這種方法效率低下,計算成本高昂,并可能使系統的注意力機制過載。它最終無法擴展到需要數天或數周積累上下文的任務。
2. 用外部檢索掩蓋內部記憶提取不可靠:當系統無法從參數中可靠提取知識時,依賴檢索增強生成(RAG)技術。外部搜索與內部檢索:長期記憶提取(MR)中的不精確性——表現為幻覺或虛構——通常通過集成外部搜索工具來緩解,這一過程稱為檢索增強生成(RAG)。然而,對 RAG 的依賴是一種能力扭曲,掩蓋了 AI 記憶中兩個不同的基本弱點。首先,它補償了無法可靠訪問 AI 龐大但靜態的參數知識。其次,更重要的是,它掩蓋了缺乏動態、經驗性記憶——一個持久的、可更新的私人交互和長期上下文演化的存儲。
論文中還提出警示:誤將這些扭曲視為真正的認知廣度可以導致對 AGI 何時到來的錯誤評估。這些扭曲也可能誤導人們認為智力過于“鋸齒狀”而無法系統理解。
框架引入了一個有力的引擎類比:將 AI 系統比作高性能引擎,整體智力是“馬力”,一個人工心智,就像一臺引擎,最終受其最弱組件的限制。目前,AI “引擎”的幾個關鍵部件高度缺陷,這嚴重限制了系統的整體“馬力”,而無論其他組件如何優化。

基于McGrew和Schneider(2018)的處理器模型
這一觀點深刻揭示了 AGI 實現的系統性挑戰。實現 AGI 需要解決各種重大挑戰。例如,機器學習社區的 ARC-AGI 挑戰旨在衡量抽象推理,體現在即興推理(R)任務中。Meta 創建包含直觀物理理解的世界模型的嘗試體現在視頻異常檢測任務(V)中。空間導航記憶(WM)的挑戰反映了李飛飛創辦的 World-Labs 的核心目標。這些具體挑戰說明了 AGI 不是單一技術突破,而是需要在多個認知領域同時取得進展。
對 AGI 研究的啟示
該框架不僅是評估工具,更是 AGI 研發的路線圖。實現 AGI 需要解決各種重大挑戰,包括 Meta 的世界模型創建嘗試、World-Labs 的空間導航記憶目標,以及 ARC-AGI 挑戰中的抽象推理能力。這些具體研究方向為 AGI 開發提供了清晰的技術路徑。
研究者必須警惕"虛假通用性"。簡單的 AGI Score 總和可能具有誤導性。總和可能掩蓋瓶頸能力中的關鍵故障。例如,AGI Score 為 90% 但長期記憶存儲(MS)為 0% 的 AI 系統會因“健忘癥”而功能受損,盡管總分很高。因此,這個框架研究,推薦報告 AI 系統的認知概況而不僅僅是 AGI Score,以避免被表面的高分掩蓋關鍵缺陷。
框架還清晰區分了 AGI 與其他相關概念:
- 大流行 AI:能設計制造新病原體的 AI
- 網絡戰 AI:能發動大規模網絡攻擊的 AI
- 自維持 AI:能自我維護和修復的 AI
- 遞歸 AI:無需人類研究人員即可自我改進的 AI
- 超級智能:在幾乎所有領域都超越人類的 AI
- 替代 AI:在幾乎所有任務上比人類更有效且經濟的 AI
超級智能是一種在幾乎所有感興趣領域都大大超過人類認知表現的 AI。替代 AI 是一種在幾乎所有任務上都比人類更有效且經濟的 AI,使人類勞動在經濟上變得過時。這些區分有助于更精準地討論 AI 發展的不同路徑,避免概念混淆。
此外,AGI 研究應關注系統性短板,特別是長期記憶存儲(MS)和長期記憶提取(MR)領域。復雜認知任務很少僅利用單一領域。例如,解決高級數學問題需要數學能力(M)和即興推理(R)。心智理論問題需要即興推理(R)以及通用知識(K)。圖像識別涉及視覺處理(V)和通用知識(K)。 這表明各認知維度之間的相互依賴性,單一維度的突破不足以實現真正的 AGI。
值得注意的是,該框架也存在明確局限性。其中,對智能的概念化并非詳盡無遺,刻意排除了某些能力,如 Gardner 多元智能理論中提出的動覺能力;其次,示例主要針對英語語言,不具備文化中立性。未來研究可以包括在不同語言和文化背景下調整這些測試。此外,通用知識測試必然具有選擇性,無法評估可能的主題領域廣度。100%的 AGI 分數代表在這些測試維度上達到“高度熟練”的受過良好教育的個體,而非僅指擁有大學學位的受教育程度。這些局限性提醒我們在使用框架時應保持理性,避免過度解讀評估結果。
總結
這篇論文,通過系統審視這一基于人類認知架構的 AGI 評估框架,我們可以清晰地看到當前 AI 系統的真實能力狀況。框架將 AGI 從模糊的哲學概念轉化為可量化的工程問題,通過十個核心認知維度——通用知識、閱讀與寫作、數學能力、即興推理、工作記憶、長期記憶存儲、長期記憶提取、視覺處理、聽覺處理和處理速度——為評估 AI 系統的通用性提供了全面標準。
實證數據揭示了一個關鍵事實:盡管 GPT-5 相比 GPT-4 有顯著進步(AGI Score 從 27% 提升至 57%),但當前 AI 系統仍表現出"鋸齒狀能力"特征:在知識密集型任務上表現突出,但在基礎認知機制(尤其是長期記憶存儲)上存在嚴重缺陷。這種不均衡發展通過"能力扭曲"(如用超長上下文窗口模擬長期記憶、用外部檢索掩蓋內部知識不可靠)部分掩蓋,但無法替代真正的認知廣度。
這一框架的核心價值在于它為 AGI 研究提供了明確的路線圖。通過識別關鍵瓶頸(如長期記憶存儲)和系統性短板,研究者可以更有針對性地解決 AGI 實現過程中的核心挑戰。同時,框架強調 AGI 評估應關注認知架構的完整性,而非單一維度的突破,提醒我們不要被片面的性能指標所迷惑。
這個框架的研究,推薦報告 AI 系統的認知概況而不僅僅是 AGI Score,因為總和可能掩蓋瓶頸能力中的關鍵故障。這一建議對 AI 的研究具有重要意義:它促使我們超越簡單的總分比較,深入理解系統在不同認知維度上的表現,從而獲得更準確的能力評估。AGI 要求的不僅是狹窄領域的專門表現,還包括體現人類認知的廣度和深度的技能。這一理念將重新定義 AGI 研究的范式,從追求單一任務上的超越人類表現,轉向構建具有完整認知架構的真正通用人工智能。
當 AGI 研究采納這種多維、人類對齊的評估標準,我們將能夠避免"內卷式進步"和對 AGI 進展的誤判,為真正通用人工智能的到來提供清晰的衡量標尺。正如這篇論文中所揭示的,AGI 不是單一維度的突破,而是認知架構完整性的實現——當最薄弱的環節達到人類水平,我們才能說 AGI 真正到來。這一科學、系統的評估方法,將為人類探索通用人工智能的旅程提供不可或缺的導航工具。


































