Anthropic全新方案:破解AI Agent "罷工、斷片"難題
圖片
當前 AI Agent的能力日益強大,開始需要承接需要數(shù)小時甚至數(shù)天才能完成的復雜任務 —— 比如:從零構(gòu)建一個生產(chǎn)級別的 Web 應用。
但現(xiàn)實是,AI Agent在跨多個上下文窗口工作時,常常陷入 "失憶返工"" 半途而廢 " 的困境。
Anthropic 推出了一套針對長時運行 AI 代理的高效 harness 方案,成功解決了這一行業(yè)痛點。
一、一個令人頭疼的現(xiàn)實問題
想象一下:你有一個軟件開發(fā)項目,但參與的工程師每次換班都會完全失憶:不記得之前寫了什么代碼、完成了什么功能、遇到了什么問題。這聽起來像噩夢,但這正是當前AI代理在長任務中面臨的真實困境。
Anthropic的研究團隊發(fā)現(xiàn),即使是最先進的Claude模型,在嘗試構(gòu)建復雜應用(比如克隆claude.ai網(wǎng)站)時,也會出現(xiàn)兩種典型失敗模式:
- 一口吃成胖子:試圖一次性完成整個項目,結(jié)果在實現(xiàn)中途就用光了上下文窗口,留下半成品代碼
- 提前交卷:看到有些功能已完成,就過早宣布項目完成,實際上還差得遠
這背后的本質(zhì)是缺乏結(jié)構(gòu)化的工作框架 —— 既沒有明確的任務分解,也沒有標準化的交接機制,導致 AI 代理的工作陷入混亂。
二、雙代理架構(gòu):Initializer + Coder的絕妙配合
Anthropic的解決方案:將長任務分解為兩個專門的代理角色
2.1 Initializer Agent(初始化代理)
- 使命:項目啟動時,初始化代理的核心任務是建立一套讓后續(xù)工作可落地、可追溯的基礎(chǔ)環(huán)境
- 核心任務:
生成 init.sh 腳本:一鍵啟動開發(fā)服務器,解決后續(xù)代理 "不知如何運行項目" 的問題;
創(chuàng)建 claude-progress.txt 進度文件:記錄各階段工作內(nèi)容,成為跨會話的 "交接賬本";
初始化 Git 倉庫:通過版本控制留存所有修改記錄,方便后續(xù)回滾錯誤代碼;
編寫結(jié)構(gòu)化功能清單(feature_list.json):將用戶模糊需求拆解為具體可測試的功能點(如 "用戶點擊新建聊天按鈕可創(chuàng)建對話"),每個功能標記初始狀態(tài)為 "未通過",明確全量需求邊界。
2.2 Coding Agent(編碼代理)
- 使命:后續(xù)所有會話由編碼代理接手,核心原則是 "一次只做一件事,做完留好交接痕",在每個會話中穩(wěn)步推進一個功能
- 工作流:
啟動會話先 "摸清狀況":運行 pwd 確認工作目錄,讀取進度文件、Git 日志和功能清單,快速銜接前文工作;
增量開發(fā):每次僅選擇一個優(yōu)先級最高的未完成功能進行開發(fā),避免多任務導致的混亂;
嚴格測試驗證:使用瀏覽器自動化工具(如 Puppeteer)模擬人類用戶進行端到端測試,僅在功能完全可用時才將狀態(tài)改為 "通過";
清潔狀態(tài)收尾:完成開發(fā)后提交 Git 版本(附詳細說明),更新進度文件,確保代碼無重大 bug、文檔完整,讓下一個代理可直接接手。
2.3 關(guān)鍵配套機制
- 格式規(guī)范:功能清單采用 JSON 格式而非 Markdown,減少 AI 誤刪、誤改的風險;
- 強制約束:通過明確指令禁止刪除或修改功能測試項,避免因需求遺漏導致的產(chǎn)品缺陷;
- 預檢查機制:每個會話啟動時先運行基礎(chǔ)功能測試,若發(fā)現(xiàn)項目處于崩潰狀態(tài),優(yōu)先修復而非繼續(xù)開發(fā)新功能。
三、解決了長時 AI 代理的四大核心問題
問題癥狀 | Initializer解決方案 | Coding解決方案 |
過早宣布勝利 | 創(chuàng)建詳細的功能清單 | 每次只專注一個功能 |
遺留 bug 或無文檔 | 建立Git版本控制 | 會話結(jié)束時保持代碼整潔 |
功能未完成就標記完成 | 制定嚴格的測試標準 | 必須進行端到端測試,通過實測才可更新狀態(tài) |
每次重啟都要重新探索 | 編寫環(huán)境初始化腳本init.sh | 按標準流程快速上手 |
Anthropic在 claude.ai 克隆版的測試中,AI 代理能夠持續(xù)迭代 200 + 功能,每個會話都能基于前序工作穩(wěn)步推進,不再出現(xiàn)大規(guī)模返工或需求遺漏的情況。即使遇到瀏覽器原生彈窗識別等視覺能力限制,也能通過工具調(diào)用彌補部分短板。
四、Agent未來探索方向:多代理分工與跨領(lǐng)域拓展
- 多代理專業(yè)化分工:未來可能引入測試專屬代理、代碼優(yōu)化代理等細分角色,進一步提升各環(huán)節(jié)效率;
- 跨領(lǐng)域適配:目前方案優(yōu)化于全棧 Web 開發(fā),后續(xù)將探索把這套工程化思路應用到科研、金融建模等其他長周期任務中。
Anthropic還貼心的提供了一套demo 感興趣的可以玩一玩Autonomous Coding Agent Demo
https://github.com/anthropics/claude-quickstarts/tree/main/autonomous-coding https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents
























