當人工智能推理遭遇瓶頸：大型推理模型的崩潰

2025-06-13 01:00:00

OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思維模型——這些“大型推理模型”聲勢浩大地問世，有望在機器解決復雜問題方面取得突破。與之前那些僅僅通過模式匹配完成任務的模型不同，這些系統顯然能夠進行“真正的”推理，甚至擁有與人類思維相符的內心獨白。

最近，我們聽說人工智能已經學會了思考。OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思維模型——這些“大型推理模型”聲勢浩大地問世，有望在機器解決復雜問題方面取得突破。與之前那些僅僅通過模式匹配完成任務的模型不同，這些系統顯然能夠進行“真正的”推理，甚至擁有與人類思維相符的內心獨白。它們會停頓、思考、再三思量，最終通過看似真實的沉思得出答案。

對于我們這些構建智能代理人工智能系統的人來說，推理能力是真正自主的基石。在 Craine，我們將推理能力定位為遵循腳本的簡單自動化與能夠適應、制定戰略并協調復雜操作的真正人工智能代理之間的關鍵區別。例如，當我們談論自主基礎設施時，我們本質上依賴于這些系統推理新情況、權衡相互競爭的優先級并在壓力下做出合理決策的能力。推理革命有望提供這些能力——人工智能系統能夠像熟練的人類操作員一樣思考問題，但速度更快、更一致。這一承諾支撐了自主代理管理一切（從云基礎設施到業務運營）而無需持續人工監督的整個愿景。

但革命性的主張有一點需要革命性的證據。蘋果研究團隊的一項新研究《思考的幻覺》提供了這方面的證據，而這并不是我們所期望的。研究人員使用精心控制的謎題環境而不是通常的數學基準，系統地測試了這些推理模型是否真的能夠推理，或者它們是否只是非常復雜的模仿。他們的發現挑戰了我們所知的關于推理革命的一切。這些模型不僅會在問題變得越來越難時遇到性能瓶頸；它們還會做出一些更奇怪、更令人不安的事情：它們完全放棄思考，在應該最努力的時候減少推理努力。看著馬拉松運動員在接近比賽最陡峭的山坡時放棄并放棄，這真是一場悲劇。

為什么謎題比數學考試更勝一籌

蘋果的研究人員沒有向這些模型拋出更多 MATH-500 問題（這些基準問題可能會被訓練數據污染），而是構建了更好的東西：可控的謎題環境。我認為這就像在無法控制交通的公共道路上測試汽車性能，與在可以精確調整每個變量的封閉測試跑道上測試汽車性能之間的區別。研究人員需要干凈的實驗環境，他們可以像調節音量旋鈕一樣調節復雜性，同時保持底層邏輯的一致性。

他們使用了四個看似簡單的謎題：漢諾塔、西洋跳棋、渡河和積木世界。每個謎題都允許研究人員通過調整一個參數來控制復雜性：更多圓盤、更多西洋跳棋、更多人、更多積木。至關重要的是，這些謎題內置模擬器，不僅可以驗證最終答案，還可以驗證過程中的每一步。與要么正確要么錯誤的數學題不同，這些環境讓研究人員可以窺視推理過程本身，精確觀察模型在何處以及如何出錯。這基本上就像是批改期末考試和坐在學生旁邊看著他們解答每個試題之間的區別。

令人驚訝的表現前景

蘋果研究人員還發現了一些意料之外的發現：推理模型并不會隨著問題難度的增加而逐漸變差。相反，研究人員發現了三種截然不同的性能機制，顛覆了傳統觀念。在低復雜度水平下——你期望任何優秀的人工智能都能處理這類問題——標準大語言模型(LLM) 實際上表現優于那些所謂的高級推理模型。我們指的是更高的準確率和更高的效率。這就像發現福特福克斯比蘭博基尼能更快更便宜地帶你去雜貨店一樣。推理模型對簡單問題進行了過度思考，將計算資源浪費在了那些需要直接執行的任務的復雜內部思考上。

在中等復雜度范圍內，推理模型終于證明了其存在的合理性。所有額外的思考時間都在這里得到了回報，推理模型展現出比標準模型明顯的優勢。這是大多數基準測試和演示所關注的最佳點——復雜程度足以需要真正的問題解決，但又不會復雜到完全失效。這是一個“金發姑娘區”，推理模型看起來確實令人印象深刻，似乎也驗證了所有關于其功能的炒作。

但接下來是第三種情況，事情才真正令人不安。超過一定的復雜度閾值后，兩種模型都會經歷研究人員所說的“徹底崩潰”——不是逐漸退化，而是徹底失效。準確率降至零。這就像觸及事件視界，推理功能完全失效。尤其令人不安的是，無論模型有多少可用的計算預算，這種崩潰都會發生。它們并非耗盡了令牌，也不是達到了上下文限制；而是觸及了更根本的問題——在復雜性增加的情況下，維持連貫推理的能力受到了阻礙。

違反直覺的崩潰：解決更難的問題需要更少的思考

隨著謎題復雜度的增加，推理模型不僅性能下降，反而減少了思考的投入。盡管擁有充足的令牌預算和計算資源，但當問題需要更仔細的思考時，這些模型的推理軌跡卻開始縮短。這就像一位外科醫生在復雜的手術中途因為情況變得過于復雜而放下手術刀一樣。

研究人員在多個前沿模型（o3-mini、DeepSeek-R1、Claude-3.7-Sonnet with thinking）中追蹤了這一“擴展限制”，發現其規律始終如一。隨著問題變得越來越復雜，模型最初會增加推理工作量，這與人們預期的直觀模式一致。但隨后，當接近研究人員設定的各模型的臨界復雜性閾值時，發生了一些奇怪的事情：即使問題客觀上變得更加困難，推理工作量也開始下降。這些模型并沒有達到技術極限——它們的運行速度遠低于其代數限制，并且剩余充足的推理預算。

就像之前討論過的“對齊偽造”一樣，這種違反直覺的行為引發了人們對自主系統信任的深刻質疑。如果我們最先進的推理模型在面對真正的復雜性時都能系統地減少工作量，那么當我們將它們部署到現實世界中，而問題并沒有明確的難度標簽時，會發生什么？在關鍵任務應用中——無論是管理云基礎設施、協調應急響應，還是做出財務決策——我們需要的是能夠在情況艱難時挺身而出的系統，而不是在推理能力最關鍵的時候默默放棄的系統。其影響遠超學術基準，涉及到我們日益依賴的人工智能系統的基本可靠性。

深入探究：“思想”內部發生了什么

蘋果的研究人員做了大多數人工智能評估完全忽略的事情——他們打開了黑匣子，探究這些模型推理過程中究竟發生了什么。通過分析模型在“思考”過程中生成的中間解，他們揭示了我們剛才討論的那些性能模式背后的機制。簡單問題中的過度思考行為？事實證明，模型通常會在早期識別出正確的解決方案，但隨后仍會繼續探索錯誤的路徑，將剩余的計算資源浪費在無用的思考上。與此同時，對于模型完全崩潰的復雜問題，推理軌跡顯示出更令人不安的情況——它們在整個思考過程中根本無法生成任何正確的解決方案。

研究人員進行了一項實驗，這本應是推理模型的一次突破：他們提供了解決漢諾塔難題的完整、循序漸進的算法。想象一下食譜式的說明，模型只需遵循菜譜，而無需發明一道新菜。然而，這些模型在與從頭開始解決問題時完全相同的復雜度閾值下失敗了。這種限制比創造力或策略更深，指向了更根本的東西。即使解決了問題，這些模型也無法在更長的序列中保持邏輯一致性。當數字填色和抽象推理在同樣的點上失敗時，我們看到的是架構限制，而不是問題解決的限制。

這對人工智能機構意味著什么

這些發現對我來說尤其令人震驚，尤其是考慮到我們邁向人工智能代理（AI Agency）的軌跡——能夠自我修復、自我維持、無需人工干預即可適應和響應的系統。在最近發表的關于 AgentOps 的論文中，預測距離自主代理成為從云基礎設施到業務運營等所有領域管理的主流還需要 24-36 個月的時間。但蘋果的研究揭示了這一基礎中的一個根本性漏洞：如果我們最先進的推理系統在面對真正的復雜性時能夠系統地減少工作量，我們又如何能相信它們能夠協調運行我們關鍵系統的自主代理呢？

我們必須思考這對我們正在構建的代理未來意味著什么。當您的工程機構需要排除跨多個微服務的級聯故障時，或者當您的安全機構必須應對復雜的攻擊媒介時，這些都不是簡單且有解決方案的問題。它們正是蘋果研究表明推理模型會完全崩潰的那種高復雜性場景。當您依賴自治系統來維持正常運行時間、保護數據或協調應急響應時，隨著問題變得越來越困難，推理工作量的減少變得令人恐懼。其影響遠遠超出了學術基準，還涉及到我們越來越信任的關鍵業務運營自治系統的可靠性。如果驅動這些自治機構的推理引擎在最需要仔細思考的時候放棄思考，那么整個 AgentOps 愿景將面臨一個根本性的瓶頸，無論框架多么復雜都無法克服。

重新調整預期

蘋果的研究迫使我們直面一個令人不安的事實：當前的推理模型不僅僅是遇到了性能瓶頸——它們還表現出根本性的擴展限制，這表明它們處理復雜問題的方式存在缺陷。我們面臨的并非我們可以通過工程手段規避的逐漸退化，而是隨著挑戰的加劇，推理工作實際上會減少，這是一個硬性上限。當我們最復雜的人工智能系統在思考最關鍵的時候系統性地放棄思考時，這并非軟件缺陷或訓練數據問題。我們面臨的是架構約束，它挑戰了當前設計的整個推理模型的前提。

其更廣泛的影響遠不止學術難題，而是我們正在關鍵基礎設施中快速部署的自主系統的基礎。如果推理模型無法在復雜場景中保持邏輯一致性——即使提供了明確的算法——這對我們通往真正自主人工智能的道路意味著什么？或許，推理革命并非我們所想的突破，而是一個代價高昂的彎路，它讓我們看到當前方法的根本缺陷。問題不在于我們能否突破這些限制，而在于我們是否建立在正確的基礎上。當最先進的推理系統隨著復雜性的增加而減少工作量時，我們或許需要重新思考的不僅僅是如何構建人工智能，還有我們期望它能夠可靠地實現什么。

責任編輯：龐桂玉來源：數據驅動智能

人工智能大型推理模型推理模型

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看