国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

從物競天擇到智能進化,首篇自進化智能體綜述的ASI之路

人工智能 新聞
通過這份全面的綜述,研究者和開發者可以獲得一個結構化的視角,來理解、比較并設計下一代更強大、更魯棒的自適應智能體系統。

近年來,大語言模型(LLM)已展現出卓越的通用能力,但其核心仍是靜態的。面對日新月異的任務、知識領域和交互環境,模型無法實時調整其內部參數,這一根本性瓶頸日益凸顯。

當我們將視野從提升靜態模型的規模,轉向構建能夠實時學習和適應的動態智能體時,一個全新的范式——自進化智能體(Self-evolving Agents)——正引領著人工智能領域的變革。

然而,盡管學術界與工業界對自進化智能體的興趣與日俱增,但整個領域仍缺乏一個系統性的梳理與頂層設計。多數研究將「演化」作為智能體整體框架的一個子集,未能深入回答該領域三個最根本的問題:智能體的哪些部分應該演化(What)?演化何時發生(When)?以及,演化如何實現(How)?

為應對上述挑戰,普林斯頓大學聯合多所頂尖機構的研究者們聯合發布了首個全面且系統的自進化智能體綜述。該綜述旨在為這一新興領域建立一個統一的理論框架和清晰的路線圖,最終為實現通用人工智能(AGI)乃至人工超級智能(ASI)鋪平道路。

圖片

  • 論文標題:A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence
  • 論文地址:https://arxiv.org/pdf/2507.21046
  • GitHub:https://github.com/CharlesQ9/Self-Evolving-Agents
  • X (Twitter):https://x.com/JiahaoQiu99/status/1950093150003089823

自進化智能體的形式化定義

為確保研究的嚴謹性,該綜述首先為「自進化智能體」提供了一套形式化的定義,為整個領域的研究和討論奠定了數學基礎。

  • 環境(Environment):智能體所處的環境被定義為一個部分可觀察馬爾可夫決策過程(POMDP)。這個環境包含了智能體需要實現的潛在目標(Goals)、環境的內部狀態(States)、智能體可以執行的動作(Actions,如文本推理、工具調用)、狀態轉移概率,以及用于評估的反饋/獎勵函數(Reward Function)。智能體無法完全觀測到環境的全部狀態,只能接收到觀測(Observations)。
  • 智能體系統(Agent System):一個智能體系統(Π)被解構為四個核心組成部分:
  • 架構(Γ):決定了系統的控制流程或多智能體間的協作結構。
  • 模型({ψi}):底層的語言模型或多模態模型。
  • 上下文({Ci}):包含提示(Prompts)和記憶(Memory)等信息。
  • 工具集({Wi}):智能體可用的工具或 API 集合。
  • 自進化策略(Self-evolving Strategy):這是定義的核心。一個自進化策略被形式化為一個轉換函數 f。該函數接收當前智能體系統(Π)、其在任務中生成的軌跡(τ)以及獲得的反饋(r)作為輸入,然后輸出一個全新的、經過演化的智能體系統(Π')。這個過程 Π' = f(Π, τ, r) 精確地描述了「進化」這一行為。
  • 終極目標(Objective):自進化智能體的設計目標,是構建一個最優的自進化策略 f,使得智能體在一系列連續任務上的累積效用(Cumulative Utility)最大化。這為所有演化方法提供了一個統一的優化方向。

圖片

核心框架:四大維度定義智能體演化

圖片

該綜述的核心貢獻是圍繞「What、When、How、Where」四個維度,構建了一個用于分析和設計自進化智能體的完整框架,并系統梳理了相關的前沿技術。

圖片

What to Evolve?(演化什么?)

此維度明確了智能體系統中可以進行自我提升的四大核心支柱:

  • 模型(Models):這是智能體認知能力的核心。演化可以發生在兩個層面:一是決策策略(Policy)的優化,例如通過自我生成挑戰性任務(如 SCA)或利用自然語言反饋進行在線微調(如 SELF、TextGrad),直接更新模型參數;二是經驗(Experience)的積累與學習,智能體通過與環境交互(如 Reflexion 的自我反思機制、RAGEN 的強化學習框架)將成功或失敗的經驗轉化為學習信號,驅動迭代改進。
  • 上下文(Context):這是塑造智能體行為的動態信息流。演化體現在兩個方面:一是記憶(Memory)的演化,智能體需要學會動態管理其長期記憶,例如通過 Mem0 框架中的 ADD/MERGE/DELETE 機制來保持記憶的一致性,或像 Expel 一樣從經驗中提煉出可泛化的規則和見解;二是指令提示(Prompt)的自動化優化,從簡單的候選提示生成(如 APE),到將整個工作流視為可微分程序進行聯合優化的復雜框架(如 DSPy),再到面向多智能體系統的通信模式優化(如 MASS)。
  • 工具(Tools):這是智能體與外部世界交互的橋梁,也是能力拓展的關鍵。其演化路徑可分為三步:首先是新工具的自主創造(Creation),智能體或通過探索式學習(如 Voyager),或通過響應式代碼生成(如 Alita)來彌補能力短板;其次是已有工具的精通(Mastery),通過自我糾錯循環(如 LearnAct)來修復和完善工具的功能與文檔;最后是管理與選擇(Management & Selection),當工具庫變得龐大時,智能體需要高效地檢索和組合工具,例如 ToolGen 將工具調用轉化為生成問題,而 AgentSquare 則通過元學習自動尋找最優的組件配置。
  • 架構(Architecture):這是智能體系統的頂層設計。演化既可以針對單智能體,例如優化其內部固定的工作流節點(如 TextGrad),甚至賦予其重寫自身源代碼的能力(如 Darwin G?del Machine);也可以針對多智能體系統,例如通過蒙特卡洛樹搜索等方法自動發現最優的協作流程(如 AFlow),或利用多智能體強化學習(如 ReMA)來共同演化出高效的協同策略。

圖片

When to Evolve?(何時演化?)

演化的時機決定了學習與任務執行的關系,主要分為兩大模式,每種模式下都可以運用上下文學習(ICL)、監督微調(SFT)和強化學習(RL)等范式。

  • 測試時自進化(Intra-test-time Self-evolution):這指的是在任務執行期間發生的實時適應。當智能體在解決某個特定問題時遇到障礙,它會即時啟動學習機制。例如,AdaPlanner 通過 ICL 在執行中動態修正計劃;一些前沿工作探索了利用「self-edits」指令觸發即時 SFT 來更新模型權重;而 LADDER 框架則通過 RL 機制實現了「即時技能獲取」,在遇到難題時當場進行針對性訓練。
  • 測試間自進化(Inter-test-time Self-evolution):這是在任務執行之后發生的、更主流的演化模式。智能體利用已完成任務的經驗積累,對自身能力進行迭代更新,為未來任務做準備。例如,STaR 和 SiriuS 等方法通過 SFT 范式,讓模型從自己成功或失敗的推理鏈中生成新的訓練數據,實現「自舉式」提升;而 RAGEN 和 WebRL 等框架則利用 RL,在任務間歇期通過大量與環境的交互來優化策略。

圖片

How to Evolve?(如何演化?)

實現演化的具體方法論,即智能體如何將經驗和反饋轉化為能力提升,主要分為三大范式。

  • 基于獎勵的演化(Reward-based Evolution):這是最核心的演化驅動力,通過設計不同形式的獎勵信號來引導智能體。獎勵信號可以是非常豐富的:
  • 文本反饋(Textual Feedback):利用自然語言提供詳細、可解釋的改進建議,比單一的標量獎勵更具指導性(如 Reflexion)。
  • 內部獎勵(Internal Rewards):利用模型自身的置信度或不確定性作為獎勵,實現無外部監督的自我評估與校準(如 CISC)。
  • 外部獎勵(External Rewards):來自環境的直接反饋(如工具執行成功/失敗)、多數投票或顯式規則。
  • 隱式獎勵(Implicit Rewards):從沒有明確標記為「獎勵」的信號中學習,例如直接從模型 logits 中提取內生的獎勵函數。
  • 模仿與演示學習(Imitation & Demonstration Learning):智能體通過學習高質量的范例來提升能力,尤其適用于有充足專家數據或可以自生成高質量軌跡的場景。學習來源可以是自我生成的演示(如 STaR)、跨智能體的演示(如從共享的經驗庫中學習),或是兩者的混合。
  • 基于種群的演化方法(Population-based & Evolutionary Methods):這種方法借鑒生物進化思想,同時維護多個智能體變體或團隊,通過選擇、變異、競爭等機制并行探索廣闊的解空間,從而發現傳統優化方法難以觸及的新穎策略與架構。其演化對象可以是單個智能體(如 Darwin G?del Machine 的開放式代碼進化),也可以是多智能體系統(如 EvoMAC 的「文本反向傳播」機制)。

圖片

Where to Evolve?(在何處演化?)

此維度明確了自進化智能體的應用場域,展示了其在不同類型任務中的演化路徑。

  • 通用領域演化(General Domain Evolution):這類智能體旨在成為多才多藝的數字助手,其演化目標是拓展在廣泛任務上的通用能力。實現這一目標的機制包括:
  • 記憶機制:智能體通過總結歷史成敗經驗,形成可復用的知識(如 Tips、Shortcuts),以應對未來的新任務。
  • 模型-智能體協同進化:智能體與其輔助模型(如獎勵模型、世界模型)共同進化,通過相互促進來提升整體性能和泛化能力。
  • 課程驅動訓練:系統能夠根據智能體的表現自動生成難度適宜的任務,形成一個自適應的「課程表」(如 WebRL),引導智能體由易到難地擴展能力。
  • 特定領域演化(Specialized Domain Evolution):這類智能體則專注于在某一垂直領域內「深耕」,通過演化成為該領域的專家。論文展示了其在多個領域的應用潛力:
  • 編碼(Coding):智能體可以自主修改代碼庫(如 SICA),或通過多智能體協作進行代碼生成、測試和優化。
  • 圖形用戶界面(GUI):智能體通過與桌面、網頁和移動應用的真實交互來學習,從失敗軌跡中反思,或自動從界面中挖掘功能,實現對圖形界面的精準操控。
  • 金融(Financial):智能體通過在模擬和真實環境中進行交易,不斷迭代和優化其量化策略與領域知識庫(如 QuantAgent)。
  • 醫療(Medical):智能體在模擬醫院中「行醫」以提升診斷能力(如 Agent Hospital),或作為虛擬生物學家進行藥物靶點發現(如 OriGene)。
  • 教育(Education):智能體可以作為個性化導師,根據學生的反應調整教學策略(如 PACE),或作為教師助手,通過多智能體對抗來優化課程計劃。

圖片

評估、挑戰與未來展望

除了構建核心理論框架,該綜述還詳細探討了自進化智能體的評估范式。評估自進化智能體不能再局限于靜態的準確率,而必須考察其動態能力。

論文提出了五大評估目標:適應性(Adaptivity)、知識保留(Retention)、泛化性(Generalization)、效率(Efficiency)和安全性(Safety),并將其評估模式分為靜態評估、短時程自適應評估和長時程終身學習評估,為衡量這一新物種的能力提供了標尺。

圖片

圖片

最后,該綜述為領域的未來發展指明了方向,包括個性化 AI 智能體、提升泛化與跨域適應能力、構建安全可控的智能體、以及探索多智能體生態系統等關鍵挑戰。

通過這份全面的綜述,研究者和開發者可以獲得一個結構化的視角,來理解、比較并設計下一代更強大、更魯棒的自適應智能體系統。正如文中所指出的,自進化智能體的發展是通往人工超級智能(ASI)的關鍵基石,而解決好其在演化過程中的安全性、泛化性與可控性等挑戰,將是未來研究的重中之重。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-22 08:24:15

2025-06-25 01:00:00

智能體蒸餾AI

2024-10-23 08:16:58

RAG智能進化

2024-09-03 11:31:04

2023-06-06 10:19:28

2025-03-26 09:30:00

AI人工智能AIOps

2023-07-07 07:06:47

2025-09-18 10:10:31

2019-03-08 09:54:29

華為

2024-06-13 09:20:26

2025-08-21 14:14:17

2025-10-17 09:09:46

2019-05-09 22:10:36

AI

2019-04-28 09:19:33

存儲

2024-07-23 14:10:48

2024-04-08 07:52:24

2021-02-07 10:01:31

AI 數據人工智能

2021-09-07 10:06:00

人工智能機器學習技術

2025-09-23 01:00:00

點贊
收藏

51CTO技術棧公眾號

国产亚洲福利| 4438全国亚洲精品观看视频| 三年中国中文在线观看免费播放| 伊人亚洲福利一区二区三区| 国产精品美女久久久久久2018| 91欧美国产| 毛片大全在线观看| 无码人妻丰满熟妇区五十路百度| 国产主播喷水一区二区| 欧美一区二区三区爱爱| 久久女同互慰一区二区三区| 欧美第十八页| 中文不卡1区2区3区| www.国产精| 日韩激情视频| 久久男人av资源网站| 欧美日韩情趣电影| 99久久精品国产精品久久| 色小子综合网| 女生影院久久| 最新亚洲伊人网| 91看片淫黄大片91| 国产日本欧美一区| 怡红院精品视频| 色综合咪咪久久| 国产aⅴ精品一区二区三区色成熟| 美女少妇全过程你懂的久久| 欧美1—12sexvideos| 国产精品三级a三级三级午夜 | 阳光姐妹淘韩国版| 亚洲综合视频一区| 国产精品久久精品| 日韩激情av在线播放| 亚洲国产精品一区二区久久| 国产一区二区在线观看视频| 天天操综合网| 欧美激情三级免费| 2021中文字幕一区亚洲| 亚洲一级特黄| 国产女人18毛片水真多18精品| 午夜免费视频在线国产| 欧美在线观看视频网站| 欧美精品与人动性物交免费看| 国产91ⅴ在线精品免费观看| 日韩电影大全免费观看2023年上| 欧美日韩另类在线| 久久久美女毛片| 日本亚洲一区二区| 婷婷精品进入| 北条麻妃一区二区三区在线观看| 国产探花视频在线观看| 夜色福利资源站www国产在线视频| 亚洲中文字幕无码专区| 日韩欧美国产二区| 成人国产精品色哟哟| 色综合久久悠悠| 日韩理论片久久| 欧美午夜精品久久久| 亚洲欧美日韩国产手机在线| av一区二区三区在线| 久久激情视频| 中文字幕人成人乱码| 欧美日韩精品一区二区三区在线观看| 爱搞国产精品| 91高清在线视频| 天天综合入口| 老熟妇仑乱视频一区二区| 看全色黄大色大片| 欧美一区少妇| 99精品国产一区二区| 国产精品成人aaaaa网站| 欧美成人精品xxx| 国产性猛交xxxx免费看久久| 亚洲精品一区二区三区福利| 欧美理论电影在线| 一本到一区二区三区| 亚洲一区二区美女| 国产精品欧美综合在线| kk眼镜猥琐国模调教系列一区二区| 久久精品国产久精国产爱| 久久久久99| 国产精品一区亚洲| 欧美日韩福利| 综合久久十次| 一区二区三区国产精华| 日韩精品久久久久久久电影99爱| 欧美男男freegayvideosroom| 中文在线综合| 日本亚州欧洲精品不卡| 日韩黄色在线| 精品福利在线| 国内精品伊人| 福利一区视频| 国产一区高清| 不卡一区视频| 警花av一区二区三区| 国产精品麻豆| 日本精品视频| 成人午夜大片| 欧美日韩导航| 精品国产一区二区三区久久久蜜臀| 亚洲日产av中文字幕| 婷婷精品视频| 国产91精品对白在线播放| 伊人成综合网yiren22| 蜜臀91精品国产高清在线观看| 蜜桃一区二区三区| 成人高清av| 亚洲蜜桃视频| 亚洲性感美女99在线| 国产日韩高清一区二区三区在线| 国产日韩欧美三区| 日本亚洲免费观看| 国产中文字幕精品| 成人av电影免费在线播放| 91免费看视频| 欧美巨大xxxx| 亚洲男人的天堂网站| 久久午夜夜伦鲁鲁一区二区| 亚洲国产日韩一区| 日韩av在线免费| 亚洲性视频网站| 久久久极品av| 国产视频一区不卡| 国产免费又粗又猛又爽| 国产视频一区三区| 亚洲免费精彩视频| 成人免费在线视频观看| 国产精品视频九色porn| 国产精品久久午夜| 亚洲制服丝袜av| 在线观看视频一区二区欧美日韩| 欧美一区二区在线不卡| 日韩不卡在线观看| 亚洲免费av电影| 欧美成人免费全部| 热草久综合在线| 91影院未满十八岁禁止入内| 欧美日韩精品久久| 妺妺窝人体色777777| 99热在线免费观看| 日中文字幕在线| 性xxxxfjsxxxxx欧美| 成人黄色视屏网站| 群体交乱之放荡娇妻一区二区| 久久裸体网站| 亚洲综合精品| 成人午夜免费av| 亚洲精品亚洲人成人网| 欧美性受极品xxxx喷水| 亚洲激情小视频| 欧美丰满片xxx777| 51国偷自产一区二区三区| 亚洲欧美电影在线观看| 欧美日韩亚洲一二三| 午夜成人影视| gratisvideos另类灌满| 91成人福利社区| 成人影院天天5g天天爽无毒影院 | 偷偷要91色婷婷| 日韩一区二区三区视频| 久久精品91久久久久久再现| 国产精品视频免费在线观看| 日韩激情久久| 亚洲国产高清av| 91电影在线播放| 欧美日韩尤物久久| 欧美丝袜丝交足nylons172| 久久经典综合| 久久精品亚洲乱码伦伦中文 | 久久精品国产免费看久久精品| 国产三级一区二区三区| 色av成人天堂桃色av| 中文字幕亚洲一区二区三区| 国产精品99免视看9| 亚洲成人在线视频网站| 男女无套免费网站| 婷婷色在线资源| 日本久久成人网| 日韩成人免费电影| 亚洲欧美日韩系列| 亚洲大胆人体av| 欧洲精品在线视频| 一本一道久久久a久久久精品91| 九色porny自拍| 欧美videos另类精品| 亚洲国产精品一区二区第一页| 激情文学综合丁香| 精品国产一二三四区| 欧美国产成人精品| 午夜精品久久久内射近拍高清 | 亚洲欧美日韩精品| 欧美孕妇性xx| 色综合久久久久久久久五月| 成人在线看片网站| 在线观看的黄色| 91久久夜色精品国产按摩| 成人av片在线观看| 欧美一区二区三区免费| 国产成人avxxxxx在线看|