国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

當提示詞優化器學會進化,竟能勝過強化學習

人工智能 新聞
這篇論文提出的 GEPA(Genetic-Pareto)采用了一種名為 reflective prompt evolution(反思式提示詞進化)的技術,可以實現比 GRPO 高 20% 的性能,同時還能將 rollout 次數減少到原來的 1/35。

僅靠提示詞優化就能超越 DeepSeek 開發的 GRPO 強化學習算法?

是的,你沒有看錯。近日上線 arXiv 的一篇論文正是憑此吸引了無數眼球。

圖片

這篇論文提出的 GEPA(Genetic-Pareto)采用了一種名為 reflective prompt evolution(反思式提示詞進化)的技術,可以實現比 GRPO 高 20% 的性能,同時還能將 rollout 次數減少到原來的 1/35。

圖片

那么,GEPA 究竟是如何做到這一點的呢?讓我們翻開這篇來自 UC 伯克利和斯坦福等多家機構的論文一探究竟。

圖片


  • 論文標題:GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2507.19457

GEPA:反思式提示詞進化

GEPA 的全稱是 Genetic-Pareto(遺傳-帕累托),這是一種用于復合式 AI 系統的樣本高效型優化器,其核心原理包括:

  • 遺傳式提示詞進化
  • 利用自然語言反饋的反思
  • 基于帕累托的候選選擇

下圖給出了 GEPA 的概況。

圖片

下面則給出了 GEPA 的算法。

圖片

GEPA 的輸入是一個復合 AI 系統 Φ,其中包含待優化的簡單提示詞、訓練數據集 D_train、該任務的標準評估指標 μ、反饋函數 μ_f 以及總部署預算 B。

遺傳式優化循環

給定一個復合 AI 系統 Φ,優化過程的目標是確定一組參數 ?Π, Θ?_Φ,以最大化其在任務分布上的得分。

GEPA 首先會初始化一個候選池 P,其中候選項是該復合系統中一個帶有可學習參數 ?Π, Θ?_Φ 的具體實例。

一開始,該候選池僅包含基礎系統的參數 —— 這是唯一候選。然后,GEPA 進入優化循環,迭代地提出新的候選項并將其添加到池中,持續此過程直至耗盡評估預算。

通過突變或雜交修改現有候選集,GEPA 可以迭代式地提出效果越來越好的候選項。相關信息則來自收集的 rollout 的學習信號以及跟蹤每個新候選集的祖先。這使得 GEPA 能夠在優化過程中沿著遺傳樹積累經驗教訓。每個新候選項都會繼承其父級的學習信號,以及當前 rollout 的信號。

在每次迭代中,GEPA 都會從候選池中識別出有希望的候選項(候選項選擇),并提議一個新的候選項(可能通過基于反思反饋對模塊中的提示詞執行突變,或在兩個候選項之間進行雜交)并在小批量任務上評估這個新變體。如果新提出的候選項在本地小批量數據上相對于其父集表現出更高的性能,GEPA 會將該新候選項添加到候選池 P 中。這需要跟蹤內部數據結構,包括跟蹤新候選項的祖先,以及在 D_pareto(用于候選項選擇的驗證集)上對新候選項進行全面評估。

預算耗盡后,GEPA 將返回在 D_pareto 上總體性能最佳的候選項。

反思式提示詞突變

在復合 AI 系統執行過程中生成的自然語言軌跡能夠體現其中間推理和底層推理步驟,從而提供對每個模塊行為和職責的豐富可見性。

當這些軌跡與系統的最終結果(例如成功或失敗)配對時,就能提供重要的診斷價值,從而幫助將錯誤或成功追溯到做出的具體決策 —— 可達模塊級別。

然后,LLM 可以通過反思利用這些軌跡進行隱式 credit 分配,將最終結果的成敗歸因到相關模塊。這種反思過程可用于對各個模塊進行有針對性的更新,從而對整個系統的行為進行大規模且有效的更新。

GEPA 的操作如下:給定一個在優化循環的當前迭代中進行突變的候選模塊,GEPA 使用候選參數更新系統,在系統中選擇一個目標模塊進行改進(通過循環調度確保所有模塊都收到更新),并在從訓練數據集中采樣的小批量上生成一些 rollout,記錄它們的結果(成功 / 失敗)。

通過檢查系統的執行軌跡,GEPA 可以識別目標模塊的輸入、輸出和推理。據此,GEPA 使用 LLM 反思性地檢查這些信息,將成功或失敗歸因于模塊提示詞的元素,并為目標模塊提出新的指令。然后,一個新的候選模塊被提出,作為當前指令的副本,目標模塊的提示詞也更新為新提出的提示詞。

GEPA 用于執行反思提示詞更新的元提示詞可見原論文附錄部分。

評估軌跡作為診斷信號:雖然系統自身的執行軌跡已經提供了有用的信息,可以成功進行反思和提示詞更新,但該團隊發現了另一個高度診斷性的信息來源:評估指標 μ。

通常,評估指標 μ 會應用豐富的策略來執行評估,以得出最終分數。例如,代碼評估環境會運行一系列步驟(編譯、執行、性能分析等),每個步驟都會生成自然語言軌跡,然后提供標量獎勵。

該團隊建議,除了系統自身的執行軌跡之外,還應使用這些評估軌跡來執行反思信用分配和有針對性的提示詞更新。GEPA 將其操作化為對評估指標 μ 的簡單更新,以創建反饋函數 μ_f,該函數會識別評估指標執行過程中生成的相關文本軌跡,并返回最終分數以及反饋文本 (feedback_text)。只要可用,這樣的反饋函數還可以提供模塊級反饋(例如,在 multi-hop 系統中,評估器可以在系統每一跳之后提供反饋)。

基于帕累托的候選選擇

GEPA 是一種高度模塊化的算法,能夠支持在每次優化迭代中選擇候選的各種策略。最關鍵的是,候選選擇策略的選擇決定了優化器所采用的探索 - 利用權衡。

一種簡單的策略是始終選擇池中表現最佳的候選。然而,這可能導致優化器陷入提示詞空間內的局部最優:一旦找到占優策略,就很難超越它,優化器會在沒有學習新的、可能更好的策略的情況下耗盡其預算。

圖 6a 展示了使用此策略生成的示例搜索樹。具體來說,請注意搜索過程如何找到一個新的策略(第一個子節點),然后不斷嘗試改進它,但在多次迭代中都失敗了,最終耗盡了所有的 rollout 預算。

圖片

為了解決這個問題,GEPA 采用了基于帕累托的 illumination 策略(Mouret & Clune,2015),如算法 2 所示。

圖片

具體來說,GEPA 會確定池中所有候選項中每個訓練實例所取得的最高分數,從而創建一個迄今為止優化過程所取得分數的「帕累托前沿」。然后,GEPA 會編制一份至少在一項訓練任務中取得最佳分數的候選項列表。這會實現對候選池的過濾,篩選出那些采用了「獲勝」策略的候選項,從而保留在任何反思突變中發現的所有寶貴見解。

接下來,GEPA 會修剪那些嚴格占優的候選項:例如,如果候選項 2 僅在任務 1 上取得最佳分數,但候選項 3 在任務 1 和任務 2 上都取得了相同的最佳分數,則將候選項 2 移除。

最后,GEPA 會從修剪后的列表中隨機抽取一個候選項,為在更多訓練實例中取得最佳分數的候選項分配更高的選擇概率。

在實踐中,該策略有助于 GEPA 避免陷入局部最優,而無需過度擴大搜索范圍。通過將資源集中在那些已經展現出有效「獲勝」策略的有潛力的候選項上,GEPA 可有效地平衡探索與利用,從而能夠在優化預算范圍內持續改進。

GEPA 表現如何?

該團隊也通過實驗驗證了 GEPA 的表現,并將結果總結成了 5 點觀察。

圖片

觀察 1:反思式提示詞進化具有極高的樣本效率,其性能甚至超越權重空間強化學習。

在所有四個基準測試中,GEPA 在復合 AI 系統中展現出了快速的適應性和強大的泛化能力 —— 其性能比 GRPO(使用 LoRA 進行 24,000 次 rollout)高 19%,同時 rollout 次數減少到了其 1/35。

圖片

觀察 2:反思式提示詞進化可使單獨的指令優化性能優于聯合式指令和少樣本優化。

該團隊使用兩個領先模型(GPT-4.1 mini 和 Qwen3 8B)在四個不同的任務中對 GEPA 與 MIPROv2(一種最先進的聯合式指令和少樣本優化器)進行了比較。

實驗發現,GEPA 在所有設置下均始終優于 MIPROv2,在 GPT-4.1 mini 上實現了高達 11.1% 的優勢,在 Qwen3 8B 上實現了高達 10.3% 的優勢。此外,在所有基準測試和兩個模型中,GEPA 和 GEPA+Merge 的總增益均是 MIPROv2 基線的兩倍以上(分別為 +16.02% 和 +14.29%,而 MIPROv2 為 +7.04%)。

值得注意的是,不同于與先前的一些研究結果(指令優化主要通過準樣本 (Quasi-Exemplars) 實現改進),GEPA 的提示詞通常包含完成任務的詳細聲明式指令,如圖 2 所示。

圖片

觀察 3:下一候選項的選擇策略對優化軌跡和最終性能有顯著影響,其中基于帕累托的采樣方法具有明顯的優勢。

GEPA 的目標是通過利用新版本中的反饋來迭代優化提示詞。為了測試基于帕累托的候選選擇策略的效果,該團隊考慮了一個簡單的基準來實例化 SelectCandidate 策略:始終選擇當前表現最佳的候選項。

如表 2 中的消融結果所示,這種方法通常會導致對提示詞搜索空間的探索不夠理想,最終導致性能不佳 —— 采用基于帕累托的采樣策略的 GEPA 比 SelectBestCandidate 策略的性能高出 8.17%,在所有基準測試中保持了 +6.4% 的總體優勢。

圖片

圖 6 展示了這種簡單策略與該團隊提出的基于帕累托的采樣策略在優化軌跡上的顯著差異。

始終選擇當前最佳候選往往會在下一次迭代中立即帶來改進,但隨后會導致優化器停滯,耗盡其整個部署預算來嘗試進一步改進該特定候選。相比之下,該團隊基于帕累托的采樣方法通過考慮所有 Pareto 最優候選(代表迄今為止發現的所有「獲勝」策略)來擴展搜索范圍,從而確保在探索和利用權衡之間取得緊密平衡 —— 最終在相同的部署預算內收斂到性能更高的解答。

觀察 4:經過指令優化的提示詞比少樣本演示提示詞計算成本更低,泛化能力更強。

除了強大的泛化能力外,反思式進化的指令還具有顯著的實用優勢:它們通常比少樣本演示提示詞更短,因此計算效率更高。這種優勢在復雜任務中尤為明顯,因為即使是單個少樣本演示也可能非常長。當使用最新技術優化少樣本示例時,問題會進一步加劇。諸如 MIPROv2 等先進方法,可以聯合優化多個演示以便同時使用,從而進一步增加提示詞長度。

觀察 5:系統感知型雜交策略可以帶來巨大的收益,但突變和雜交之間的最優預算分配以及何時調用合并仍需進一步研究。

該團隊確定了一種獨特的系統感知型雜交策略,并將其做成了一個操作 Merge。

GEPA+Merge 的性能比 GEPA 高出 5%,在 GEPA 已經擁有的強勁性能基礎上再提升 2%。詳細結果見表 1。該團隊將這些收益歸因于 GEPA+Merge 能夠識別不同的優化譜系,這些譜系已經學習了互補策略(通過演化不同的模塊),并通過從每個譜系中挑選不同模塊的最佳版本來合并它們,從而提出一個單一的最優候選方案。

最后,如果你也疑惑 GEPA 的讀音是什么又怎么與 JEPA 區分,Yann LeCun 發推給出了相當詳細的解釋:

圖片


責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-04-23 10:12:14

算法強化學習

2024-05-30 16:37:29

2022-09-04 14:38:00

世界模型建模IRIS

2025-04-01 09:10:00

2023-04-06 16:29:18

模型AI

2017-03-28 10:15:07

2023-06-25 11:30:47

可視化

2025-07-24 09:05:00

2021-10-11 09:51:38

谷歌人工智能強化學習

2020-05-06 16:07:05

百度飛槳

2025-06-03 06:12:03

2025-02-10 13:50:00

算法模型訓練

2018-06-21 08:51:29

強化學習算法人工智能

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2019-05-28 11:11:27

強化學習AI深度學習

2025-10-11 04:00:00

2025-03-25 09:12:00

LIMAI模型

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2025-07-01 09:05:28

點贊
收藏

51CTO技術棧公眾號

av在线私库| 自拍偷拍亚洲激情| 超碰成人在线免费观看| 日日夜夜精品视频免费| 亚洲国产一区二区三区在线播| 日本91福利区| 中文字幕第一页亚洲| 国产91丝袜在线18| 国产一级片黄色| 亚洲精品伦理在线| 国产高清免费在线播放| 精品国产欧美一区二区| 日韩中文在线播放| 久久青草精品视频免费观看| 天天av综合| 天堂社区 天堂综合网 天堂资源最新版| 欧美热在线视频精品999| 夜级特黄日本大片_在线| 91理论片午午论夜理片久久| 丁香花在线电影| 亚洲视频在线观看| aiai久久| 国产精品久久久久久久久久久久冷| 亚洲在线日韩| 国产女主播自拍| 自拍偷拍欧美精品| 日本成人在线播放| 最好看的2019的中文字幕视频| 视频精品在线观看| 蜜桃精品久久久久久久免费影院| 丁香婷婷综合激情五月色| 欧美精品第三页| 91福利在线观看| 久久精品国产福利| 亚洲一区国产精品| 99久久久久久| 男人的天堂在线免费视频| 日韩在线视频国产| 综合久久久久| 国产一区视频网站| 九七久久人人| 国产精品久久久久久妇女| 亚洲精品在线观看免费| 欧美美女直播网站| 欧美一区二区三区四区高清| 日韩毛片一区| 91亚洲va在线va天堂va国| 国产91在线|亚洲| 在线视频毛片| 亚洲欧美在线磁力| 小处雏高清一区二区三区| 日韩一级特黄毛片| 色呦呦国产精品| 深夜激情久久| 欧美一区视久久| 亚洲人精品午夜| 激情亚洲影院在线观看| 国产免费一区| 国产精品丝袜91| 九九精品调教| 国产伦精品一区二区三区免 | 中文字幕av一区二区三区免费看 | 亚洲精品在线视频| 红桃成人av在线播放| 精品人妻少妇一区二区| 欧美一卡2卡三卡4卡5免费| 免费久久久久久久久| 成人av在线不卡| 91精品国产手机| 亚洲成av人片一区二区密柚| heyzo国产| 亚洲成在人线av| 黄色成人91| 性视频在线播放| 欧美大学生性色视频| 日韩高清国产一区在线| 欧美91精品久久久久国产性生爱| 久久久久久久久亚洲| 国产成人免费视频网站| 黄色网页在线免费看| 999日本视频| 亚洲午夜久久久久久久久久久| 国产一区二区三区免费观看在线 | 国产精品麻豆免费版| 欧美一区二区三区……| 国产精品久久久久久久9999| 国产成人无码一二三区视频| 国产精品青青草| 免费黄网站在线播放| 九九热这里只有精品6| 蜜臂av日日欢夜夜爽一区| 日韩二区三区| 国产精品高潮在线| 国产精品白丝在线| 日韩08精品| 男人天堂999| 一区二区三区四区视频| 久久国产精品免费| 国产精品久久麻豆| 国产女主播一区二区| 一本高清dvd不卡在线观看| 婷婷伊人综合| 美臀av在线| 国产美女久久精品香蕉69| 亚洲视频一区二区在线| 韩国精品福利一区二区三区| 亚洲色图 在线视频| 久久人91精品久久久久久不卡| 久久久www成人免费无遮挡大片 | 日韩欧美激情电影| 国产成人av| 日本一区影院| 色噜噜狠狠色综合网图区 | 国产欧美日韩麻豆91| 一区二区三区欧美日韩| 久久久九九九九| 午夜av一区二区| 国产欧美精品一区| 国产精品性做久久久久久| 久久久久av| 波多野结衣精品久久| 欧美亚洲人成在线| 无码少妇一区二区三区芒果| 欧美成人精品不卡视频在线观看| 国产欧美精品一区二区色综合| 成人免费在线电影网| 男女羞羞网站| 91精品国产综合久久久久久丝袜| 在线精品亚洲一区二区不卡| 老司机午夜精品| 成人免费在线观看视频| 精品免费国产一区二区| 9.1国产丝袜在线观看| 午夜精品福利一区二区三区av| 国自产拍偷拍福利精品免费一 | 亚洲精品乱码久久久久久日本蜜臀| 国产免费av一区二区三区| 可以在线观看的黄色| 神马欧美一区二区| 在线观看国产精品91| 国产精品美女久久久久av爽李琼| 人人狠狠综合久久亚洲婷| 91精彩视频在线播放| 特级西西444| 久久久久久香蕉网| 日本乱人伦aⅴ精品| 六月丁香综合在线视频| 年轻的保姆91精品| 翔田千里一区| 亚洲欧美日韩另类精品一区二区三区| 国产香蕉精品视频一区二区三区| 国产精品麻豆视频| 午夜欧美理论片| 欧美日韩在线观看一区二区 | 一区二区三区日本| 国产亚洲一区二区三区不卡| 欧洲一区av| 亚洲欧美日韩在线综合| 久久久精品影院| 亚洲婷婷综合色高清在线| 伊人精品成人久久综合软件| 人人鲁人人莫人人爱精品| 石原莉奈一区二区三区高清在线| 欧美激情第一页在线观看| 九九九久久久久久| 欧美吻胸吃奶大尺度电影| 成人黄色一级视频| 久久精品国产亚洲夜色av网站 | 国产日韩av网站| 91精品中国老女人| 日韩国产中文字幕| 亚洲激情成人在线| 看国产成人h片视频| 九九综合在线| 男女羞羞在线观看| 在线天堂视频| 天天夜碰日日摸日日澡性色av| 91系列在线观看| 欧美理论电影在线播放| 3d动漫精品啪啪一区二区竹菊| 久久久久9999亚洲精品| 亚洲欧美高清| 国产亚洲第一伦理第一区| 成人性生交大片免费观看网站| 在线影院自拍| 亚洲精品久久久久久久蜜桃臀| www 成人av com| 黄色小网站在线观看| 欧美日韩精品久久| 欧美二三四区| 无码人妻精品一区二区三区99v| 99中文字幕| 欧美有码在线观看视频| 精品国内亚洲在观看18黄| 亚洲国内精品在线| 欧美一区二区在线不卡| 色欧美片视频在线观看在线视频| 一区二区三区日韩欧美| 国产精品美女久久久久aⅴ国产馆 国产精品美女久久久久av爽李琼 国产精品美女久久久久高潮 | 日韩欧美一区二区三区免费观看|