GAM:告別記憶壓縮,大模型不再忘記細(xì)節(jié)
傳統(tǒng)AI記憶系統(tǒng)有個致命傷:為了節(jié)省空間,它們總試圖把冗長的思維鏈和工具調(diào)用記錄壓縮成簡短摘要。這就像把一本百科全書壓成便利貼,當(dāng)你問具體問題時,AI找不到足夠的細(xì)節(jié)來回答,因為關(guān)鍵信息全被壓縮丟棄了。
北京人工智能研究院近日發(fā)表了一篇論文《General Agentic Memory Via Deep Research》,提出了GAM(通用智能體記憶)框架,采用"即時編譯"(JIT)策略。其核心理念為:搜索才是記憶的本質(zhì),預(yù)計算的記憶只是為了支持搜索過程。框架保留兩種數(shù)據(jù):微型備忘錄(每個會話約50詞)和完整會話記錄的搜索庫。當(dāng)AI需要回憶時,記憶研究員組件才啟動搜索。它像檔案管理員,根據(jù)當(dāng)前需求動態(tài)重建上下文。
雙組件設(shè)計

GAM包含兩個核心模塊:
記憶器:將智能體歷史軌跡按2048個token切分成頁面,為每頁生成輕量級備忘錄,同時保留完整原始信息。這個過程借鑒BGE地標(biāo)檢索思路,給每個頁面加上上下文標(biāo)題,確保后續(xù)檢索的語義一致性。
研究員:接收查詢后執(zhí)行三步循環(huán)——規(guī)劃、搜索、反思。配備三種檢索工具:向量搜索處理語義相似性,BM25做關(guān)鍵詞匹配,ID訪問直接定位頁面。默認(rèn)最多3輪反思,每輪檢索5個頁面,根據(jù)任務(wù)復(fù)雜度動態(tài)調(diào)整。
有意思的是,研究員對模型規(guī)模更敏感。用0.5B參數(shù)模型時,記憶器還能保持48.83的F1分?jǐn)?shù),研究員就垮到9.08了。原因很簡單:提取信息相對容易,迭代規(guī)劃推理就復(fù)雜多了。
實驗數(shù)據(jù)
在文檔問答測試中,這種方法比長上下文提示準(zhǔn)確率提升37%,比基礎(chǔ)檢索增強(qiáng)生成高28%。

具體數(shù)據(jù)更說明問題:
- LoCoMo對話記憶:單跳任務(wù)F1從48.62%提升到57.75%,多跳推理從35.27%跳到42.29%
- HotpotQA多跳問答:448K token文檔下F1達(dá)59.81%,傳統(tǒng)方法普遍在50%以下
- RULER長文本理解:多跳追蹤任務(wù)準(zhǔn)確率93.2%,而RAG方法接近0%
最有趣的發(fā)現(xiàn)是"上下文腐化"現(xiàn)象。即使用128K窗口的長文本模型,面對大量干擾信息時性能仍然不佳。簡單擴(kuò)展窗口不是解決方案。
工具組合效應(yīng)
單獨(dú)使用檢索工具效果有限,但組合使用威力倍增。BM25最穩(wěn)定(F1=48.64%),向量搜索次之(32.31%),ID訪問較弱(28.96%)。三者結(jié)合達(dá)到最佳性能。

研究團(tuán)隊還測試了"測試時計算縮放",即增加反思輪數(shù)和檢索頁面數(shù)都能持續(xù)提升性能。這是傳統(tǒng)固定流程無法實現(xiàn)的。
效率權(quán)衡
GAM處理1000頁歷史記錄的平均響應(yīng)時間為1.2秒。具體的:
- 56K文檔:在線響應(yīng)12.43秒
- 224K文檔:16.65秒
- 448K文檔:18.49秒
比傳統(tǒng)方法慢10-50倍,但準(zhǔn)確率從20-30%提升到50-60%。性價比賬算得過來。

有研究者指出,這種即時檢索機(jī)制解決了AI工作流的調(diào)試難題。"決策路徑比最終狀態(tài)更重要"。不過也有人認(rèn)為,這不過是把人類檔案管理的老辦法用在了AI上。
小結(jié)
GAM的核心貢獻(xiàn)是重新定義了記憶的本質(zhì)。傳統(tǒng)方法把記憶當(dāng)數(shù)據(jù)壓縮,GAM認(rèn)為記憶是動態(tài)搜索過程,想象一下人類,也是一個粗略檢索,再具體回想情節(jié)的過程。
這帶來三個優(yōu)勢:保真度高(保留完整信息),適應(yīng)性強(qiáng)(根據(jù)查詢定制上下文),可優(yōu)化(端到端強(qiáng)化學(xué)習(xí))。
論文:https://arxiv.org/abs/2511.18423

































