經驗記憶黑科技：LightSearcher讓AI工具調用減39.6%、推理快48.6%

2025-12-18 08:42:00

北郵百家 AI 團隊提出 LightSearcher 框架，首創基于經驗記憶的高效 RL 優化技術，通過引入文本化經驗記憶和自適應獎勵塑造機制，巧妙解決了這一痛點。

如今，以 DeepSeek-R1 為代表的深度思考大模型能夠處理復雜的推理任務，而DeepSearch 作為深度思考大模型的核心搜索器，在推理過程中通過迭代調用外部搜索工具，訪問參數邊界之外的最新、領域特定知識，從而提升推理的深度和事實可靠性。

然而，現有的 RL 驅動的深度思考大模型系統常常面臨準確率與效率的「蹺蹺板」困境：頻繁調用搜索工具提升準確性，卻帶來計算開銷和效率低下。具體而言，高頻調用外部搜索工具雖能補充實時信息、提升推理準確率，但使得推理延遲大幅升高，等待時間可達幾十秒至幾分鐘。從用戶體驗角度來看，若信息加載時間超過 10 秒，50% 的移動用戶會放棄訪問。

北郵百家 AI 團隊提出 LightSearcher 框架，首創基于經驗記憶的高效 RL 優化技術，通過引入文本化經驗記憶和自適應獎勵塑造機制，巧妙解決了這一痛點。

在保持與 SOTA 基線 ReSearch 相當準確率的同時，搜索工具調用和模型回復時間顯著縮短，搜索工具調用次數減少 39.6%，推理時間縮短 48.6%，Token 消耗降低 21.2%，在保持模型效果的同時顯著提升了工具調用效率。

論文標題：LightSearcher: Efficient DeepSearch via Experiential Memory
論文鏈接：https://arxiv.org/abs/2512.06653
百家 AI 主頁：https://baijia.online/homepage/index

引言

如何教會深度思考大模型策略性地控制搜索工具的使用，優化何時以及如何查詢外部知識源，是深度思考大模型亟待解決的問題。現有方法存在以下顯著缺陷：

提示工程或監督學習方法依賴人工標注，成本高且泛化差；RL 驅動方法雖能自主優化，但獎勵偏重準確性，導致模型為確保正確而頻繁調用工具，造成冗余開銷；
工具調用「過度依賴」，現有模型往往不分難易，對簡單查詢也反復檢索，導致推理時間延長、token 消耗激增；
準確性與效率失衡，部分方法雖提升準確率，但犧牲效率；另一些雖減少調用，卻降低答案質量，無法兼顧雙重目標。

這些問題導致現有模型要么答案不準、可靠性差，要么工具調用過多、效率低下，難以同時滿足推理準確和高效執行的核心需求。

LightSearcher 框架

為解決上述缺陷，北郵百家 AI 團隊提出基于經驗記憶的高效 DeepSearch 框架（LightSearcher），核心思路是在大模型強化推理過程中，通過「對比經驗學習」將隱性推理軌跡轉化為顯性指導經驗，并結合自適應獎勵優化工具調用，具體包含三大關鍵組件：

對比經驗推理機制（Contrastive Experiential Reasoning）：收集高低質量推理軌跡，通過 LLM 生成成功模式的自然語言總結（如「簡單查詢優先用內部知識」），構建動態經驗記憶庫；
自適應獎勵塑造機制（Adaptive Reward Shaping）：引入最小工具調用基準，僅在答案正確時懲罰冗余調用，使用指數衰減函數動態平衡準確性和效率，避免盲目優化；
基于經驗的 RL 訓練機制：采用 GRPO 算法，將積累經驗和少樣本示例融入提示模板，指導模型生成高效軌跡，確保探索與利用的均衡。

模型最終優化目標為多目標獎勵函數的加權和，確保工具調用精簡與答案質量的協同提升。

實驗

研究團隊在四個多跳 QA 基準數據集（NQ、HotpotQA、Musique、2WikiMultihopQA）上進行了全面評估，對比了多種主流 DeepSearch 方法。

3.1 主實驗結果

實驗結果顯示:

模型準確性保持頂尖：LightSearcher 在 F1 分數和 LLM 評判上與 SOTA 基線 ReSearch 相當，甚至在部分數據集上優于 ReSearch；
效率顯著提升：工具調用減少 39.6%，推理時間縮短 48.6%，token 消耗降低 21.2%；
泛化能力強：在不同難度的查詢（易 / 難）上均表現穩定，即使在域外測試集也能超越依賴固定檢索的迭代方法。

3.2 消融實驗

移除經驗導致 F1 下降 7.2%，證明其核心作用。

LightSearcher 框架通過「經驗記憶」這一核心理念，為構建高效、可靠的深度推理系統提供了新路徑。盡管目前限于多跳 QA，未來可擴展到代碼合成、策略規劃等領域。論文成功解決了現有 DeepSearch 的關鍵痛點：

從隱性到顯性：將對比軌跡轉化為可解釋的推理指導
精準平衡：通過自適應獎勵確保工具調用最小化
效率優先：利用 RL 訓練維持準確與開銷的連貫性
雙重優化：同時提升推理質量和執行效率，而非顧此失彼

最后，大模型的 DeepSearch 能力需設計有效的經驗機制。相比于復雜的手動標注，LightSearcher 通過其「對比經驗」的設計思想，在推理過程依賴可靠的外部知識調用，為構建更加高效、可靠的 AI 深度思考系統提供了重要的技術路徑。

責任編輯：張燕妮來源：機器之心

AI 工具推理

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

經驗記憶黑科技：LightSearcher讓AI工具調用減39.6%、推理快48.6%

引言

LightSearcher 框架

實驗

3.1 主實驗結果

3.2 消融實驗