微軟 Agentic 組織：下一代 AI 系統

作者：PaperAgent 2025-11-13 17:35:18

人工智能

你面對一道復雜數學題，不是一個人死磕，而是能瞬間召喚3-4個"分身"同時從不同角度進攻，還能動態調配任務、合并成果。這不是科幻，而是LLM通過強化學習學會的真本事。

大家好！今天要聊的這篇論文特別有意思——它讓LLM從單打獨斗的推理者，進化成了會帶團隊的項目經理。微軟研究院提出了一種全新的推理范式：AsyncThink（異步思維）。

想象一下：你面對一道復雜數學題，不是一個人死磕，而是能瞬間召喚3-4個"分身"同時從不同角度進攻，還能動態調配任務、合并成果。這不是科幻，而是LLM通過強化學習學會的真本事。

?? 為什么需要"異步思維"？

傳統LLM推理就像一條單行道：Chain-of-Thought（CoT）必須一個字一個字按順序生成。雖然有效，但效率低下。近年來流行的并行思考（Parallel Thinking）雖然能生成多條獨立推理路徑再投票表決，但存在致命短板：

三種思維范式對比

圖1：三種思維范式的本質區別。AsyncThink的精髓在于"動態組織"——不是簡單地并行，而是學會何時分叉、何時聚合

延遲陷阱：必須等最慢的那條路徑完成
僵硬結構：手工設計的固定流程，無法根據問題難度自適應調整
學習困境：難以通過強化學習優化組織結構

核心方法：Organizer-Worker協議

論文的天才之處在于：把復雜的并發控制轉化為純文本協議，無需修改模型架構！

角色分工

概念	定義	計算機系統類比
Agent	順序執行動作的模型實例	CPU核心
Agent Pool	可同時運行的agent集合	多核CPU
Organization Policy	組織agent協作并發的策略	多進程程序

表1：Agentic Organization概念與計算機系統的優雅類比

四大動作標簽

整個系統通過四個簡單的文本標簽實現復雜協同：

<FORK-i>子任務描述</FORK-i> ：組織者向空閑工人i分配子查詢
<JOIN-i> ：組織者等待工人i返回結果并合并
<ANSWER>最終答案</ANSWER> ：終止推理
Think ：組織者自己繼續思考

協議示例

圖2：AsyncThink的完整 thinking protocol。注意看 organizers 如何像項目經理一樣動態調配任務

??? 兩階段訓練：從模仿到創新

Stage 1：冷啟動格式學習

問題來了：現有語料庫壓根沒有這種Fork-Join對話數據，怎么辦？

解決方案：用GPT-4o合成數據！具體步驟：

分析每個查詢，識別"條件獨立"的思維片段
生成符合協議格式的organizer-worker對話軌跡
過濾格式錯誤的數據

關鍵技巧：為避免模型只學到單一模式（如總是先Fork再Join），研究者隨機采樣動作序列作為提示，強制模型探索多樣化結構。

Stage 2：強化學習優化

RL框架

圖3：專為AsyncThink設計的RL框架。注意episode包含多條trace，但共享同一個優勢函數

獎勵設計三板斧：

準確率獎勵：答案正確給1分，錯誤給0分
格式獎勵：出現重復Fork、線程池溢出等錯誤直接給大懲罰
并發獎勵：這是精髓！

（平均活躍工人數）（并發度獎勵）

目標：鼓勵模型讓workers并行跑起來，而不是 sequential 地一個個用！

圖片

實驗結果：全方位碾壓

1. 多解Countdown任務

在這個需要找出4種不同解法的算術游戲中，AsyncThink展現出驚人優勢：

Countdown實驗結果

圖5："≥a Correct"表示成功找到a個不同解。AsyncThink在"全部正確"指標上達到89.0%，遠超基線的68.6%和70.5%

2. 數學競賽推理

圖片

表2：關鍵數據——AsyncThink用更短延遲達到同等甚至更高準確率，延遲降低28%!

3. 跨領域泛化能力（最驚喜的部分！）

當只在Countdown任務上訓練的AsyncThink被直接扔到Sudoku、圖論、遺傳學等完全陌生的領域時，它依然能熟練使用Fork-Join策略！

圖片

表4：零樣本泛化到Sudoku任務。注意模型從未見過Sudoku數據，卻自發學會了如何分解這個新問題

案例研究：它到底怎么想的？

案例1：Countdown的多階段分治

Countdown思考軌跡

圖8：真實推理軌跡。Organizer先派worker探索乘法路徑，自己同時找其他組合，發現差距后又動態發起新子任務

案例2：幾何題的并行探索

數學推理軌跡

圖9：面對四面體幾何題，organizer同時fork三個worker用不同方法（向量法、重心法、假設法），最后交叉驗證得到一致答案

案例3：跨領域泛化

MMLU-Pro圖論問題

遺傳學問題

圖10-11：未經訓練的圖論和遺傳學問題，AsyncThink依然能正確分解任務。這證明它學的是"如何組織"的元能力

訓練動態揭秘

通過監控RL訓練過程，可以看到模型如何進化：

訓練曲線

圖6：訓練過程中的關鍵指標變化。注意并發比率先降后升，說明模型經歷了從"瞎試"到"有策略地并行"的轉變

The Era of Agentic Organization: Learning to Organize with Language Models
https://arxiv.org/abs/2510.26658
https://aka.ms/GeneralAI

責任編輯：武曉燕來源： PaperAgent

微軟 Agentic AI 系統

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看