微軟 Agentic 組織:下一代 AI 系統
大家好!今天要聊的這篇論文特別有意思——它讓LLM從單打獨斗的推理者,進化成了會帶團隊的項目經理。微軟研究院提出了一種全新的推理范式:AsyncThink(異步思維)。

想象一下:你面對一道復雜數學題,不是一個人死磕,而是能瞬間召喚3-4個"分身"同時從不同角度進攻,還能動態調配任務、合并成果。這不是科幻,而是LLM通過強化學習學會的真本事。
?? 為什么需要"異步思維"?
傳統LLM推理就像一條單行道:Chain-of-Thought(CoT) 必須一個字一個字按順序生成。雖然有效,但效率低下。近年來流行的并行思考(Parallel Thinking) 雖然能生成多條獨立推理路徑再投票表決,但存在致命短板:
三種思維范式對比
圖1:三種思維范式的本質區別。AsyncThink的精髓在于"動態組織"——不是簡單地并行,而是學會何時分叉、何時聚合
- 延遲陷阱:必須等最慢的那條路徑完成
- 僵硬結構:手工設計的固定流程,無法根據問題難度自適應調整
- 學習困境:難以通過強化學習優化組織結構
核心方法:Organizer-Worker協議
論文的天才之處在于:把復雜的并發控制轉化為純文本協議,無需修改模型架構!
角色分工
概念 | 定義 | 計算機系統類比 |
Agent | 順序執行動作的模型實例 | CPU核心 |
Agent Pool | 可同時運行的agent集合 | 多核CPU |
Organization Policy | 組織agent協作并發的策略 | 多進程程序 |
表1:Agentic Organization概念與計算機系統的優雅類比
四大動作標簽
整個系統通過四個簡單的文本標簽實現復雜協同:
<FORK-i>子任務描述</FORK-i>:組織者向空閑工人i分配子查詢<JOIN-i>:組織者等待工人i返回結果并合并<ANSWER>最終答案</ANSWER>:終止推理Think:組織者自己繼續思考
協議示例
圖2:AsyncThink的完整 thinking protocol。注意看 organizers 如何像項目經理一樣動態調配任務
??? 兩階段訓練:從模仿到創新
Stage 1:冷啟動格式學習
問題來了:現有語料庫壓根沒有這種Fork-Join對話數據,怎么辦?
解決方案:用GPT-4o合成數據!具體步驟:
- 分析每個查詢,識別"條件獨立"的思維片段
- 生成符合協議格式的organizer-worker對話軌跡
- 過濾格式錯誤的數據
關鍵技巧:為避免模型只學到單一模式(如總是先Fork再Join),研究者隨機采樣動作序列作為提示,強制模型探索多樣化結構。
Stage 2:強化學習優化
RL框架
圖3:專為AsyncThink設計的RL框架。注意episode包含多條trace,但共享同一個優勢函數
獎勵設計三板斧:
- 準確率獎勵:答案正確給1分,錯誤給0分
- 格式獎勵:出現重復Fork、線程池溢出等錯誤直接給大懲罰
- 并發獎勵:這是精髓!
(平均活躍工人數)(并發度獎勵)
目標:鼓勵模型讓workers并行跑起來,而不是 sequential 地一個個用!
圖片
實驗結果:全方位碾壓
1. 多解Countdown任務
在這個需要找出4種不同解法的算術游戲中,AsyncThink展現出驚人優勢:
Countdown實驗結果
圖5:"≥a Correct"表示成功找到a個不同解。AsyncThink在"全部正確"指標上達到89.0%,遠超基線的68.6%和70.5%
2. 數學競賽推理
圖片
表2:關鍵數據——AsyncThink用更短延遲達到同等甚至更高準確率,延遲降低28%!
3. 跨領域泛化能力(最驚喜的部分!)
當只在Countdown任務上訓練的AsyncThink被直接扔到Sudoku、圖論、遺傳學等完全陌生的領域時,它依然能熟練使用Fork-Join策略!
圖片
表4:零樣本泛化到Sudoku任務。注意模型從未見過Sudoku數據,卻自發學會了如何分解這個新問題
案例研究:它到底怎么想的?
案例1:Countdown的多階段分治
Countdown思考軌跡
圖8:真實推理軌跡。Organizer先派worker探索乘法路徑,自己同時找其他組合,發現差距后又動態發起新子任務
案例2:幾何題的并行探索
數學推理軌跡
圖9:面對四面體幾何題,organizer同時fork三個worker用不同方法(向量法、重心法、假設法),最后交叉驗證得到一致答案
案例3:跨領域泛化
MMLU-Pro圖論問題
遺傳學問題
圖10-11:未經訓練的圖論和遺傳學問題,AsyncThink依然能正確分解任務。這證明它學的是"如何組織"的元能力
訓練動態揭秘
通過監控RL訓練過程,可以看到模型如何進化:
訓練曲線
圖6:訓練過程中的關鍵指標變化。注意并發比率先降后升,說明模型經歷了從"瞎試"到"有策略地并行"的轉變
The Era of Agentic Organization: Learning to Organize with Language Models
https://arxiv.org/abs/2510.26658
https://aka.ms/GeneralAI
























