狂奔AGI，Claude年終封王！自主編碼近5小時震驚全網

2025-12-22 09:06:00

人工智能新聞

AI是否已撞上天花板？這份「最重要的圖表」直擊靈魂：2019-2025年任務時長每幾個月翻倍，揭示編碼智能體從「短跑選手」向「馬拉松冠軍」的華麗蛻變。AGI不是夢，而是觸手可及的現實！

2025年就要結束了，原來真正的高手，隱藏在「民間」！

不是谷歌、不是OpenAI，是Anthropic王者編程模型Claude Opus 4.5。

在METR最新公布報告稱，Claude Opus 4.5已能夠持續自主編碼「長達5小時不崩」。

就連OpenAI最強編程模型——GPT-5.1-Codex-Max也甘拜下風。

現如今，全網都在為Claude Opus 4.5編碼實力震撼。

AI編碼智能體能處理的任務時長不僅在指數級增長——其增速還在持續提升！

2019-2024年：任務時長每7個月翻一倍

2024-2025年：任務時長每4個月翻一倍

很多人第一次看到這條曲線，會本能地搖頭。

有人不理解。有人不愿意接受。

但一個事實越來越清晰：AI編碼智能體能連續完成的任務，正在從「分鐘級」沖向「小時級」，并且加速度還在上升。

網友認為這是關于AI最重要的圖表：

這張圖為什么被稱為「最重要的圖表」？

因為它在回應一個關鍵的問題：

AI是否撞墻了？AGI是不是另一個烏托邦？2025年，AI到底進步了多少？

普通用戶感知不強，很正常。對大多數人來說，模型早就能應付日常提問：

「推薦部電影」「解釋這個概念」「寫段文案」。

但真正的變化發生在另一條戰線上：編碼智能體。

而這恰恰是多數人（包括記者與政策制定者）難以觸及的形態。

這些進展看似微小，但累積起來卻意義非凡。

2026年4月，首批AI智能體將能獨立完成一個完整的人類工作日；

2026年底，AI能完成半周的任務量；

2027年底，AI能完成2個月的任務量；

2028年底，AI能完成人類好幾個月的工作量；

到2030年，AI能承擔一些小型企業或組織的大部分管理工作。

AI指數級增長

智能體時代已來

為了量化比較AI與人類能力，今年3月METR提出了一個新指標：50%任務完成時間跨度（50%-task-completion time horizon）。

換句話，把AI當新人：給它一項工作，看它做到「50%的概率能做成」時，這項工作的人類平均耗時有多久。

GPT-5.1-Codex-Max，已能完成長達2小時53分鐘的軟件工程任務（成功率50%），能力較o1提升4倍。

而Claude Opus 4.5的50%時間跨度約為4小時49分鐘。這已是迄今為止公布的最長的時間跨度。

盡管50%任務完成時間跨度較長，但Opus 4.5模型的80%時間跨度僅為27分鐘，與過往模型表現相當，且低于GPT-5.1-Codex-Max模型的32分鐘。

但Opus 4.5在50%與80%時間跨度之間的差距，反映出它的邏輯成功率曲線更為平緩，這意味著Opus模型在耗時較長的任務上具有差異化優勢。

甚至有人認為，Claude Code已足夠接近通用人工智能的定義。

最后這個說法或許夸張——卻折射出某種現實。

2025年堪稱AI討論最混沌的一年，實際進展與輿論焦點之間的裂痕從未如此巨大。

但明年或將迎來轉變——當編碼智能體的影響力滲透至社會經濟各個角落時，人們終將目睹它的威力。但愿到那時，我們還能來得及做好充分準備。

AGI逼近

記憶成最后關卡

智能體能把任務做得越來越久，并不奇怪。

此前的研究普遍指向四大原因：

推理更強：能把大任務拆成小任務
工具更熟：會寫代碼、會查網頁、會跑腳本
自糾錯更穩：出錯后能回滾、能重試、能繼續推進
收益非遞減：變準一點點，能做的任務跨度會暴增

例如，新一代模型能更好地規劃子任務、調用外部工具（如代碼編寫、網頁瀏覽）并在出錯時自我糾正，從而在長達數小時的任務鏈條中保持高成功率。

當然，在暢想美好前景的同時，我們也要看到目前的局限。

但當任務跨度從「小時」走向「工作日」，新的麻煩會冒出來：

上下文會丟：越做越忘前面說過什么
偏差會積累：小錯誤滾成大災難
目標會漂移：做著做著就跑題

說到底，它們都指向同一個核心：長期記憶。

記憶：通往AGI的最后難題

AI幾乎所有能力短板，最后都會牽扯到記憶。

你可以把當前大模型想成：一個極聰明、反應極快，但「下班就失憶」的新人。

它能寫代碼、能推理、能寫文章。但會話一結束，它幾乎不記得自己做過什么。

現在很多智能體的「記憶」，主要靠兩種拼裝：

強檢索工具：需要時去搜（像在代碼庫里 grep）
總結壓縮塞進上下文：把過去內容壓成幾段話，再喂回去

雖然信息檢索技術已有不小進展，但即便是當前最優秀的RAG（檢索增強生成）系統，其準確率也只有約90%。

不斷擴大的上下文窗口，確實在改善這個問題：更大的窗口意味著可以將更多數據同時輸入模型，從而支持模型更有效地在龐大的記憶索引中「閱讀」。

但即便如此，要達到AGI級別的「細致入微」的記憶水平，仍然需要在底層架構上突破。

而且，更大的問題是：沒有任何系統真正實現了「自我學習」。

沒有長期記憶，AI就無法像人一樣「越用越聰明」，無法從錯誤中學習，更談不上積累「常識」和「智慧」。

僅僅「記住」還不夠，智能體必須能從經驗中主動「學習」。

與智能體不同，人類大腦擅長將短期經歷轉化為長期記憶，在日積月累中形成知識網絡和經驗教訓。

AGI若想達到人類智能的廣度與深度，同樣需要這樣的記憶系統。

業界普遍認為，記憶是通用智能最后但最關鍵的一塊拼圖。

換言之，AI現有的「算力」和「智力」，或許已逼近AGI所需，唯一欠缺的是像人一樣擁有持久而豐富的記憶。

誰能最先破解「記憶難題」，誰就將在這場AGI競賽中占據決定性優勢。

明年的突破

長期被動記憶

現在的智能體擁有非常強大的「搜索」，比如使用Cursor時，你會發現它幾乎能完美從整個代碼庫中檢索信息。

但它們用的依然是「主動記憶」機制：智能體需要自己去「找」記憶，而不是這些記憶自然存在于它的思維中。

這遠遠不夠。

一個運行文本搜索工具grep的智能體，不等于擁有有效記憶的智能體。就像一個計算器并不等于一個數學家。

給智能體一個「搜索記憶工具」不是解決方案。

那么，真正強大的AI記憶系統需要具備什么？

真正的記憶，必須是像人類一樣，無需檢索、直接知道。

而目前的被動記憶機制還非常原始，一旦任務復雜度稍微提升，就會徹底崩塌，智能體又回到「全靠搜索」的狀態。

紐約通用智能公司創始人Andrew Pignanelli預期，未來12個月AI行業會在「被動記憶系統」上取得顯著進展。

在接下來的一年中，記憶系統（尤其是智能體的學習能力）將成為AI世界的核心議題，并被正式確認為通向AGI的最后一步。

OpenAI成功推出ChatGPT記憶功能后，Claude近期已跟進，而其他各大模型公司也將紛紛完善自家記憶系統。

長期記憶工具的接入體驗將顯著提升，尤其隨著上下文窗口的持續擴展；
「睡眠時間智能體」會在你不知情的情況下，閱讀你的郵件、文件和表格，構建背景知識和個性化記憶；
「實時智能體」將在檢索信息方面趨近完美，你的偏好、語言風格、行為習慣都會被快速融入其中。

短期內，自動注入上下文的方式還不會特別自然，為了更準確的記憶檢索，大家普遍都會接受「響應更慢」的現實。

但隨著AI變得越來越「懂你」，你對AI的依賴也會越來越強。

在消費者端，人們可能注意到「對話開始前有點卡」，但不知道背后是一個龐大的記憶系統在默默運行。

到今年年底，「上下文腐爛」問題（context rot）也將被攻克，方式包括：

啟用「遺忘機制」；
專為長期對話設計的上下文清理系統；
更先進的「上下文檢索」技術（能從巨大信息堆中精準抽出關鍵內容）

未來，用戶將不再通過文件樹導航信息，而是由AI智能體直接幫你檢索和訪問所需數據。像Replit和Lovable這樣的代碼生成平臺已經在這方面先行一步。

明年春天（2026年）很可能出現由「新一代多模態大模型」與「注意力機制之外的記憶系統」結合帶來的突破。

未來12個月內，「記憶+學習」領域可能會出現突破性進展。

OpenAI等領軍團隊都在全力攻關持續學習和自我記憶技術；一旦他們取得突破，并將其應用在頂尖模型上，我們也許會驚呼：AGI已經出現了。

AGI曙光已現

綜合當前的發展態勢，可以說：AGI已不再是遙不可及的科幻夢想，而可能近在咫尺。

這種預測并非無穴來風。

回顧過去一年，我們多次低估了AI進化的速度。

GPT-5雖然發布時評價褒貶不一，但其實在長任務執行方面比前代有了大幅提高；Claude 4.5的驚艷表現，更是證明了進步的非線性：當關鍵技術取得突破時，曲線會突然躍升。

如今，你可以在網上了解到，隨著機器智能成為首要的生產要素，正在涌現出新型組織。

這是首次，這一新要素為我們人類提供了改進流程本身的思路。依靠AI，微型團隊，竟能產出超越過去數十人甚至上百人團隊的工作成果，尤其是在某些專注的軟件領域，生產力增長令人震驚。

這種爆發式的效率，真的很難不讓人感到興奮。

這是某種意義上的「阿特拉斯卸下重擔」的時刻，是智能生產力「起飛」的征兆。

與2023年那種詩意盎然的「AI覺醒敘事」相比，如今的這一切，顯得更平實務實，但更加震撼，更加真實。

如果記憶問題迎來解決，AI能力或將再次爆發。

屆時，AI智能體將不僅僅是無休止重復勞作的「工具」，而會變成越用越聰明、與您一同成長的「數字同事」。

它能記住你的偏好。

它能記住你踩過的坑。

它能從項目里提煉經驗。

然后在下一次合作里，主動幫你把效率再推高一截。

這正是許多人對AGI在人類社會角色的愿景。

責任編輯：張燕妮來源：新智元

AI 編程模型

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看