国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

當人工智能推理遭遇瓶頸:大型推理模型的崩潰

人工智能
OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思維模型——這些“大型推理模型”聲勢浩大地問世,有望在機器解決復雜問題方面取得突破。與之前那些僅僅通過模式匹配完成任務的模型不同,這些系統顯然能夠進行“真正的”推理,甚至擁有與人類思維相符的內心獨白。

最近,我們聽說人工智能已經學會了思考。OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思維模型——這些“大型推理模型”聲勢浩大地問世,有望在機器解決復雜問題方面取得突破。與之前那些僅僅通過模式匹配完成任務的模型不同,這些系統顯然能夠進行“真正的”推理,甚至擁有與人類思維相符的內心獨白。它們會停頓、思考、再三思量,最終通過看似真實的沉思得出答案。

對于我們這些構建智能代理人工智能系統的人來說,推理能力是真正自主的基石。在 Craine,我們將推理能力定位為遵循腳本的簡單自動化與能夠適應、制定戰略并協調復雜操作的真正人工智能代理之間的關鍵區別。例如,當我們談論自主基礎設施時,我們本質上依賴于這些系統推理新情況、權衡相互競爭的優先級并在壓力下做出合理決策的能力。推理革命有望提供這些能力——人工智能系統能夠像熟練的人類操作員一樣思考問題,但速度更快、更一致。這一承諾支撐了自主代理管理一切(從云基礎設施到業務運營)而無需持續人工監督的整個愿景。

但革命性的主張有一點需要革命性的證據。蘋果研究團隊的一項新研究《思考的幻覺》提供了這方面的證據,而這并不是我們所期望的。研究人員使用精心控制的謎題環境而不是通常的數學基準,系統地測試了這些推理模型是否真的能夠推理,或者它們是否只是非常復雜的模仿。他們的發現挑戰了我們所知的關于推理革命的一切。這些模型不僅會在問題變得越來越難時遇到性能瓶頸;它們還會做出一些更奇怪、更令人不安的事情:它們完全放棄思考,在應該最努力的時候減少推理努力。看著馬拉松運動員在接近比賽最陡峭的山坡時放棄并放棄,這真是一場悲劇。

為什么謎題比數學考試更勝一籌

蘋果的研究人員沒有向這些模型拋出更多 MATH-500 問題(這些基準問題可能會被訓練數據污染),而是構建了更好的東西:可控的謎題環境。我認為這就像在無法控制交通的公共道路上測試汽車性能,與在可以精確調整每個變量的封閉測試跑道上測試汽車性能之間的區別。研究人員需要干凈的實驗環境,他們可以像調節音量旋鈕一樣調節復雜性,同時保持底層邏輯的一致性。

他們使用了四個看似簡單的謎題:漢諾塔、西洋跳棋、渡河和積木世界。每個謎題都允許研究人員通過調整一個參數來控制復雜性:更多圓盤、更多西洋跳棋、更多人、更多積木。至關重要的是,這些謎題內置模擬器,不僅可以驗證最終答案,還可以驗證過程中的每一步。與要么正確要么錯誤的數學題不同,這些環境讓研究人員可以窺視推理過程本身,精確觀察模型在何處以及如何出錯。這基本上就像是批改期末考試和坐在學生旁邊看著他們解答每個試題之間的區別。

令人驚訝的表現前景

蘋果研究人員還發現了一些意料之外的發現:推理模型并不會隨著問題難度的增加而逐漸變差。相反,研究人員發現了三種截然不同的性能機制,顛覆了傳統觀念。在低復雜度水平下——你期望任何優秀的人工智能都能處理這類問題——標準大語言模型(LLM) 實際上表現優于那些所謂的高級推理模型。我們指的是更高的準確率和更高的效率。這就像發現福特福克斯比蘭博基尼能更快更便宜地帶你去雜貨店一樣。推理模型對簡單問題進行了過度思考,將計算資源浪費在了那些需要直接執行的任務的復雜內部思考上。

在中等復雜度范圍內,推理模型終于證明了其存在的合理性。所有額外的思考時間都在這里得到了回報,推理模型展現出比標準模型明顯的優勢。這是大多數基準測試和演示所關注的最佳點——復雜程度足以需要真正的問題解決,但又不會復雜到完全失效。這是一個“金發姑娘區”,推理模型看起來確實令人印象深刻,似乎也驗證了所有關于其功能的炒作。

但接下來是第三種情況,事情才真正令人不安。超過一定的復雜度閾值后,兩種模型都會經歷研究人員所說的“徹底崩潰”——不是逐漸退化,而是徹底失效。準確率降至零。這就像觸及事件視界,推理功能完全失效。尤其令人不安的是,無論模型有多少可用的計算預算,這種崩潰都會發生。它們并非耗盡了令牌,也不是達到了上下文限制;而是觸及了更根本的問題——在復雜性增加的情況下,維持連貫推理的能力受到了阻礙。

違反直覺的崩潰:解決更難的問題需要更少的思考

隨著謎題復雜度的增加,推理模型不僅性能下降,反而減少了思考的投入。盡管擁有充足的令牌預算和計算資源,但當問題需要更仔細的思考時,這些模型的推理軌跡卻開始縮短。這就像一位外科醫生在復雜的手術中途因為情況變得過于復雜而放下手術刀一樣。

研究人員在多個前沿模型(o3-mini、DeepSeek-R1、Claude-3.7-Sonnet with thinking)中追蹤了這一“擴展限制”,發現其規律始終如一。隨著問題變得越來越復雜,模型最初會增加推理工作量,這與人們預期的直觀模式一致。但隨后,當接近研究人員設定的各模型的臨界復雜性閾值時,發生了一些奇怪的事情:即使問題客觀上變得更加困難,推理工作量也開始下降。這些模型并沒有達到技術極限——它們的運行速度遠低于其代數限制,并且剩余充足的推理預算。

就像之前討論過的“對齊偽造”一樣,這種違反直覺的行為引發了人們對自主系統信任的深刻質疑。如果我們最先進的推理模型在面對真正的復雜性時都能系統地減少工作量,那么當我們將它們部署到現實世界中,而問題并沒有明確的難度標簽時,會發生什么?在關鍵任務應用中——無論是管理云基礎設施、協調應急響應,還是做出財務決策——我們需要的是能夠在情況艱難時挺身而出的系統,而不是在推理能力最關鍵的時候默默放棄的系統。其影響遠超學術基準,涉及到我們日益依賴的人工智能系統的基本可靠性。

深入探究:“思想”內部發生了什么

蘋果的研究人員做了大多數人工智能評估完全忽略的事情——他們打開了黑匣子,探究這些模型推理過程中究竟發生了什么。通過分析模型在“思考”過程中生成的中間解,他們揭示了我們剛才討論的那些性能模式背后的機制。簡單問題中的過度思考行為?事實證明,模型通常會在早期識別出正確的解決方案,但隨后仍會繼續探索錯誤的路徑,將剩余的計算資源浪費在無用的思考上。與此同時,對于模型完全崩潰的復雜問題,推理軌跡顯示出更令人不安的情況——它們在整個思考過程中根本無法生成任何正確的解決方案。

研究人員進行了一項實驗,這本應是推理模型的一次突破:他們提供了解決漢諾塔難題的完整、循序漸進的算法。想象一下食譜式的說明,模型只需遵循菜譜,而無需發明一道新菜。然而,這些模型在與從頭開始解決問題時完全相同的復雜度閾值下失敗了。這種限制比創造力或策略更深,指向了更根本的東西。即使解決了問題,這些模型也無法在更長的序列中保持邏輯一致性。當數字填色和抽象推理在同樣的點上失敗時,我們看到的是架構限制,而不是問題解決的限制。

這對人工智能機構意味著什么

這些發現對我來說尤其令人震驚,尤其是考慮到我們邁向人工智能代理(AI Agency)的軌跡——能夠自我修復、自我維持、無需人工干預即可適應和響應的系統。在最近發表的關于 AgentOps 的論文中,預測距離自主代理成為從云基礎設施到業務運營等所有領域管理的主流還需要 24-36 個月的時間。但蘋果的研究揭示了這一基礎中的一個根本性漏洞:如果我們最先進的推理系統在面對真正的復雜性時能夠系統地減少工作量,我們又如何能相信它們能夠協調運行我們關鍵系統的自主代理呢?

我們必須思考這對我們正在構建的代理未來意味著什么。當您的工程機構需要排除跨多個微服務的級聯故障時,或者當您的安全機構必須應對復雜的攻擊媒介時,這些都不是簡單且有解決方案的問題。它們正是蘋果研究表明推理模型會完全崩潰的那種高復雜性場景。當您依賴自治系統來維持正常運行時間、保護數據或協調應急響應時,隨著問題變得越來越困難,推理工作量的減少變得令人恐懼。其影響遠遠超出了學術基準,還涉及到我們越來越信任的關鍵業務運營自治系統的可靠性。如果驅動這些自治機構的推理引擎在最需要仔細思考的時候放棄思考,那么整個 AgentOps 愿景將面臨一個根本性的瓶頸,無論框架多么復雜都無法克服。

重新調整預期

蘋果的研究迫使我們直面一個令人不安的事實:當前的推理模型不僅僅是遇到了性能瓶頸——它們還表現出根本性的擴展限制,這表明它們處理復雜問題的方式存在缺陷。我們面臨的并非我們可以通過工程手段規避的逐漸退化,而是隨著挑戰的加劇,推理工作實際上會減少,這是一個硬性上限。當我們最復雜的人工智能系統在思考最關鍵的時候系統性地放棄思考時,這并非軟件缺陷或訓練數據問題。我們面臨的是架構約束,它挑戰了當前設計的整個推理模型的前提。

其更廣泛的影響遠不止學術難題,而是我們正在關鍵基礎設施中快速部署的自主系統的基礎。如果推理模型無法在復雜場景中保持邏輯一致性——即使提供了明確的算法——這對我們通往真正自主人工智能的道路意味著什么?或許,推理革命并非我們所想的突破,而是一個代價高昂的彎路,它讓我們看到當前方法的根本缺陷。問題不在于我們能否突破這些限制,而在于我們是否建立在正確的基礎上。當最先進的推理系統隨著復雜性的增加而減少工作量時,我們或許需要重新思考的不僅僅是如何構建人工智能,還有我們期望它能夠可靠地實現什么。

責任編輯:龐桂玉 來源: 數據驅動智能
相關推薦

2025-04-10 08:23:11

2021-01-27 17:41:11

人工智能AI邊緣人工智能

2025-06-10 03:30:00

2025-06-17 08:40:44

2025-06-27 08:40:00

模型推理AI

2025-02-07 16:45:21

無服務器AI推理

2025-09-15 09:43:33

分層推理模型循環網絡推理

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-03-05 00:22:00

2025-05-30 02:00:00

獎勵模型RRMAI

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-06-11 14:39:50

AILLMMistral

2022-07-31 23:46:57

人工智能語言模型感知力

2025-10-10 09:02:16

2025-05-28 10:10:20

2024-09-24 11:01:03

2025-05-13 05:11:00

推理模型微調

2018-03-23 09:14:46

人工智能云計算機器學習

2025-01-15 13:01:07

2020-05-11 19:43:21

AI人工智能存儲性能
點贊
收藏

51CTO技術棧公眾號

噜噜噜在线观看免费视频日韩 | jazzjazz国产精品麻豆| 小明精品国产一区二区三区| 在线免费视频一区| 每日更新在线观看av| 亚洲免费精品| 色狠狠一区二区三区香蕉| 一区二区久久久久久| 午夜欧美一区二区三区在线播放| 色诱女教师一区二区三区| 亚洲熟妇无码一区二区三区导航| 91地址最新发布| 伊人色综合久久| 不卡av免费在线观看| 精品一卡二卡三卡四卡日本乱码 | 国产激情小视频在线| 国产精品天干天干在线综合| 欧美 另类 交| 香蕉国产精品偷在线观看不卡| 日产精品久久久一区二区福利| 天堂综合在线播放| 亚洲性夜色噜噜噜7777| 手机在线免费av| 91精品国产综合久久香蕉麻豆 | 午夜欧美福利视频| 国产精品综合av一区二区国产馆| 精品九九九九| 在线不卡亚洲| 国产欧美韩日| 亚洲一级一区| 好吊色欧美一区二区三区| 欧美日韩国产精品一区二区亚洲| 国产精品在线看| 日本电影一区二区| 国产啪精品视频网站| 成人亚洲一区| 国产日本欧美一区| 色88久久久久高潮综合影院| 国产精品黄色影片导航在线观看| 国产欧美日韩精品一区二区三区| 国产91九色视频| 欧美精品尤物在线观看| 国产自产女人91一区在线观看| 色婷婷一区二区三区| 91老司机精品视频| 欧美日韩hd| 欧美日韩综合久久| 精品一区二区国语对白| 国产精品videossex国产高清 | 在线看的黄色网址| 欧美高清在线一区| 国产黄色一级电影| 欧美午夜精品久久久久久浪潮| 男人天堂网在线| 欧美老年两性高潮| 丁香花视频在线观看| 亚洲免费影视第一页| 韩国精品视频在线观看| 欧美专区18| 国产精品xvideos88| 亚洲综合av影视| 亚洲视频播放| 一区在线电影| 99久久久久免费精品国产 | 久久精品一区八戒影视| 日本成人黄色网址| 黑丝美女久久久| 欧美一区二区三区| 中文在线不卡视频| 国内成人自拍| 欧美一级二级三级| 久久女同性恋中文字幕| 黄色国产网站| 欧美一区二区人人喊爽| 日本精品裸体写真集在线观看| 久久久噜久噜久久综合| 欧美日韩在线大尺度| 亚洲小说欧美另类激情| 亚洲欧洲日产国产综合网| 91美女视频在线| 日韩亚洲国产中文字幕| 91欧美在线| 欧美 国产 精品| 亚洲一区二区三区四区五区黄| 日本激情在线观看| 久久成人亚洲精品| 欧美freesex交免费视频| 欧美做受777cos| 午夜在线成人av| 手机看片久久| 91精品久久久久久久| 国产一区二区久久| 一区二区三区四区在线免费视频| 日韩精品亚洲视频| 91麻豆国产自产在线观看亚洲 | 国产一区二区在线网站| 成人在线视频首页| 三级毛片在线免费看| 中文字幕成人精品久久不卡| 国产精品99一区二区三| 欧美日本视频在线观看| 欧美人xxxx| 亚洲第一福利专区| 免费在线黄网站| 欧美伊人久久久久久午夜久久久久| 国产综合视频在线观看| 中文字幕一区二区三区乱码图片| 亚洲性无码av在线| 成人羞羞网站入口免费| 日韩av资源在线| 欧美在线欧美在线| 亚洲欧洲精品一区二区三区 | 日本一区二区三区四区五区六区| 91福利视频久久久久| 国产精品豆花视频| 国产激情二区| 国产精品88av| 午夜视频在线免费| 亚洲偷熟乱区亚洲香蕉av| 香蕉国产精品| 国产视频在线视频| 亚洲精品综合精品自拍| 欧美人成在线| 成人拍拍拍在线观看| 亚洲黄在线观看| 欧美破处大片在线视频| 久久久国际精品| 国产福利图片| 久久天天躁日日躁| 三级在线观看一区二区| 草久在线视频| 78m国产成人精品视频| 懂色av一区二区三区免费看| av在线免费观看网址| 91亚洲永久免费精品| 国产精品超碰97尤物18| 欧美性片在线观看| 亚洲一区二区三区免费看 | 久久久久久久久一区| 亚洲成av人在线观看| 精品国产一区二区三区不卡蜜臂| 欧洲精品一区二区三区久久| 日韩精品一区二区在线| 亚洲欧洲综合| 国产色a在线| 91人成网站www| 亚洲成人免费在线观看| 九九免费精品视频在线观看| 在线免费视频一区| 午夜精品免费视频| 中文字幕一区三区| 国产精品主播在线观看| 狠狠热免费视频| 欧美黑人国产人伦爽爽爽| 91视频免费观看| 一区三区自拍| www.99.热| 国产精品免费在线免费| 亚洲一区在线观看视频| 深爱激情综合| 夜色福利资源站www国产在线视频 夜色资源站国产www在线视频 | 欧美成ee人免费视频| 在线观看www91| 狠色狠色综合久久| 免费不卡视频| 五月天亚洲综合情| 亚洲欧洲国产伦综合| 国产九九视频一区二区三区| 欧美激情喷水| 国产xxxxx在线观看| 高清欧美性猛交xxxx| 亚洲欧美日本韩国| 日韩中文字幕高清在线观看| 国产精品久久一区二区三区不卡| 痴汉一区二区三区| 亚洲国产精品电影在线观看| 国产一区不卡精品| 国产一精品一av一免费爽爽| 91视频免费版污| 国产区精品视频| 91精品在线一区二区| 国产精品自拍一区| 精品少妇一区| 福利在线视频导航| 51xx午夜影福利| 性欧美激情精品| 精品国产1区2区| 人禽交欧美网站| 高清国产一区二区三区四区五区| caoporn超碰国产公开| 99r国产精品视频| 日韩av在线不卡| 日韩一区在线播放| 亚洲美女视频在线免费观看| 天天综合网站| 中文天堂av| 亚洲一区二区精品在线| 午夜精品福利视频| 欧美日韩国产在线播放网站| 丁香亚洲综合激情啪啪综合|