Meta ARE:構建大規模agent測試環境的開源利器
Meta 論文(ARE: scaling up agent environments and evaluations)開源了Meta agent研究環境(ARE)。ARE + Gaia2 — 一個用于在現實的、時間驅動環境中構建和壓力測試agent系統的研究平臺和基準。論文介紹了一個模塊化模擬器(ARE)和一個移動端風格基準(Gaia2),強調異步事件、寫入操作驗證以及在嘈雜、動態環境中的多agent協調。
圖片
ARE:模擬器 --所有內容都建模為應用程序、事件、通知和場景 ;時間持續流動,即使在agent思考時也是如此,因此慢速模型會錯過截止時間 ;agent使用工具、接收異步通知,并在有向無環圖定義的規則下運行。
圖片
圖片
Gaia2:基準測試 --在類似智能手機的世界中有1,120個場景,包含12個應用程序(聊天、日歷、購物、郵件等) ;六種主要挑戰類型:搜索、執行、適應性、時間、模糊性和agent間協作(示例見第12-14頁,GUI截圖中顯示了事件圖) ;場景可驗證:通過硬檢查(ID、順序)和軟LLM判斷(內容)將預言機寫入操作與agent操作進行比較。
結果: 沒有單一模型占主導地位:GPT-5"高"推理在困難任務上領先,但在時間關鍵任務上崩潰。Claude-4 Sonnet在速度與準確性之間取得平衡,但成本更高。開源模型(如Kimi-K2)在適應性方面顯示出潛力。擴展曲線趨于平緩,顯示在相同框架上投入更多計算資源的收益遞減。
圖片
強推理模型經常在及時性方面失敗("逆向擴展"效應)。即時模式實驗證實,當截止時間很重要時,長時間推理會有害。多agent設置幫助較弱的模型更好地協調,但對最強系統產生混合結果。
圖片
本文轉載自??AI帝國??,作者:無影寺

















