經驗記憶黑科技:LightSearcher讓AI工具調用減39.6%、推理快48.6%
如今,以 DeepSeek-R1 為代表的深度思考大模型能夠處理復雜的推理任務,而DeepSearch 作為深度思考大模型的核心搜索器,在推理過程中通過迭代調用外部搜索工具,訪問參數邊界之外的最新、領域特定知識,從而提升推理的深度和事實可靠性。
然而,現有的 RL 驅動的深度思考大模型系統常常面臨準確率與效率的「蹺蹺板」困境:頻繁調用搜索工具提升準確性,卻帶來計算開銷和效率低下。具體而言,高頻調用外部搜索工具雖能補充實時信息、提升推理準確率,但使得推理延遲大幅升高,等待時間可達幾十秒至幾分鐘。從用戶體驗角度來看,若信息加載時間超過 10 秒,50% 的移動用戶會放棄訪問。
北郵百家 AI 團隊提出 LightSearcher 框架,首創基于經驗記憶的高效 RL 優化技術,通過引入文本化經驗記憶和自適應獎勵塑造機制,巧妙解決了這一痛點。
在保持與 SOTA 基線 ReSearch 相當準確率的同時,搜索工具調用和模型回復時間顯著縮短,搜索工具調用次數減少 39.6%,推理時間縮短 48.6%,Token 消耗降低 21.2%,在保持模型效果的同時顯著提升了工具調用效率。

- 論文標題:LightSearcher: Efficient DeepSearch via Experiential Memory
- 論文鏈接:https://arxiv.org/abs/2512.06653
- 百家 AI 主頁:https://baijia.online/homepage/index
引言
如何教會深度思考大模型策略性地控制搜索工具的使用,優化何時以及如何查詢外部知識源,是深度思考大模型亟待解決的問題。現有方法存在以下顯著缺陷:
- 提示工程或監督學習方法依賴人工標注,成本高且泛化差;RL 驅動方法雖能自主優化,但獎勵偏重準確性,導致模型為確保正確而頻繁調用工具,造成冗余開銷;
- 工具調用「過度依賴」,現有模型往往不分難易,對簡單查詢也反復檢索,導致推理時間延長、token 消耗激增;
- 準確性與效率失衡,部分方法雖提升準確率,但犧牲效率;另一些雖減少調用,卻降低答案質量,無法兼顧雙重目標。
這些問題導致現有模型要么答案不準、可靠性差,要么工具調用過多、效率低下,難以同時滿足推理準確和高效執行的核心需求。
LightSearcher 框架
為解決上述缺陷,北郵百家 AI 團隊提出基于經驗記憶的高效 DeepSearch 框架(LightSearcher),核心思路是在大模型強化推理過程中,通過「對比經驗學習」將隱性推理軌跡轉化為顯性指導經驗,并結合自適應獎勵優化工具調用,具體包含三大關鍵組件:
- 對比經驗推理機制(Contrastive Experiential Reasoning):收集高低質量推理軌跡,通過 LLM 生成成功模式的自然語言總結(如「簡單查詢優先用內部知識」),構建動態經驗記憶庫;
- 自適應獎勵塑造機制(Adaptive Reward Shaping):引入最小工具調用基準,僅在答案正確時懲罰冗余調用,使用指數衰減函數動態平衡準確性和效率,避免盲目優化;
- 基于經驗的 RL 訓練機制:采用 GRPO 算法,將積累經驗和少樣本示例融入提示模板,指導模型生成高效軌跡,確保探索與利用的均衡。

模型最終優化目標為多目標獎勵函數的加權和,確保工具調用精簡與答案質量的協同提升。
實驗
研究團隊在四個多跳 QA 基準數據集(NQ、HotpotQA、Musique、2WikiMultihopQA)上進行了全面評估,對比了多種主流 DeepSearch 方法。
3.1 主實驗結果

實驗結果顯示:
- 模型準確性保持頂尖:LightSearcher 在 F1 分數和 LLM 評判上與 SOTA 基線 ReSearch 相當,甚至在部分數據集上優于 ReSearch;
- 效率顯著提升:工具調用減少 39.6%,推理時間縮短 48.6%,token 消耗降低 21.2%;
- 泛化能力強:在不同難度的查詢(易 / 難)上均表現穩定,即使在域外測試集也能超越依賴固定檢索的迭代方法。
3.2 消融實驗
移除經驗導致 F1 下降 7.2%,證明其核心作用。

LightSearcher 框架通過「經驗記憶」這一核心理念,為構建高效、可靠的深度推理系統提供了新路徑。盡管目前限于多跳 QA,未來可擴展到代碼合成、策略規劃等領域。論文成功解決了現有 DeepSearch 的關鍵痛點:
- 從隱性到顯性:將對比軌跡轉化為可解釋的推理指導
- 精準平衡:通過自適應獎勵確保工具調用最小化
- 效率優先:利用 RL 訓練維持準確與開銷的連貫性
- 雙重優化:同時提升推理質量和執行效率,而非顧此失彼
最后,大模型的 DeepSearch 能力需設計有效的經驗機制。相比于復雜的手動標注,LightSearcher 通過其「對比經驗」的設計思想,在推理過程依賴可靠的外部知識調用,為構建更加高效、可靠的 AI 深度思考系統提供了重要的技術路徑。




























