AI智能體的“死穴”,終于找到破解方式? 原創(chuàng) 精華
設(shè)想這樣一個場景:你有一個AI助手,它第一次執(zhí)行任務(wù)時失敗了,但從那一刻開始,它就“記住了教訓”,并且永遠不會再犯同樣的錯誤。 這意味著,它不僅能回答你的問題,還能像人一樣,越用越聰明。
這聽起來像是科幻片里的橋段吧?但在人工智能研究領(lǐng)域,這其實一直是一個未解的核心難題。 我們構(gòu)建了強大的LLM Agent,它們可以自主調(diào)用工具、規(guī)劃任務(wù)、推理求解,但要么過于僵化,不能學習新經(jīng)驗;要么依賴昂貴的模型微調(diào)(Fine-tuning),既慢又費錢,還無法實時適應(yīng)環(huán)境變化。
最近,一項名為 Memento 的新研究給出了第三種答案: ?? 不需要微調(diào)LLM,只需給它裝上一個“類人記憶系統(tǒng)”,就能實現(xiàn)持續(xù)學習。
這意味著,未來的AI智能體不再是“一次性編程的工具”,而會成為真正意義上能成長、能進化的伙伴。
Github地址:https://github.com/Agent-on-the-Fly/Memento
為什么今天的LLM Agent“不夠聰明”?

要理解Memento的突破,先要看清現(xiàn)狀。 目前的LLM Agent,大致可以分成兩種典型模式:
① 剛性Agent(Rigid Agent)
- 特點:固定流程,任務(wù)導(dǎo)向明確,執(zhí)行穩(wěn)定。
- 缺陷:完全不會自我修正。
- 舉例:某些自動化腳本型智能體,能完成網(wǎng)頁信息抓取,但一旦網(wǎng)站改版,它就徹底癱瘓。
② 微調(diào)Agent(Fine-Tuning Agent)
- 特點:通過不斷微調(diào)參數(shù)來“學習”新任務(wù)。
- 缺陷:成本極高,訓練流程復(fù)雜,不可能做到“隨學隨用”。
- 舉例:基于RLHF(人類反饋強化學習)微調(diào)的Agent,理論上能更智能,但訓練一次要花費大量GPU算力。
所以問題來了:有沒有一種方式,讓Agent能像人一樣,通過“記憶”積累經(jīng)驗,而不是每次都大動干戈去微調(diào)模型?
這正是Memento要解決的核心痛點。

什么是Memento?
一句話總結(jié): ?? Memento = 給LLM Agent加上一個外部記憶系統(tǒng)(Case Bank),讓它像人一樣用“過去經(jīng)驗”指導(dǎo)“未來決策”。
研究團隊受到心理學中的 案例推理(Case-Based Reasoning, CBR) 啟發(fā):
- 人類解決新問題時,常常會回憶類似的舊問題;
- 過去的成功經(jīng)驗、失敗教訓,都會成為決策依據(jù);
- 我們并不是“微調(diào)大腦”,而是依賴記憶來進化。
Memento的機制與此如出一轍:
- Case Bank:存儲智能體的所有交互軌跡,包括步驟、結(jié)果、成功/失敗標簽;
- 檢索機制:新任務(wù)來臨時,Agent先去Case Bank找相似案例;
- 動態(tài)學習:無需修改LLM參數(shù),而是通過“讀寫記憶”來獲得新的策略。
這就像給AI裝了一個“外置硬盤”,專門用于積累經(jīng)驗。
Memento的架構(gòu):兩步走,簡單卻強大
Memento的設(shè)計可以分為兩個階段:
?? 階段一:案例驅(qū)動規(guī)劃(Case-Based Planning)
- Planner(規(guī)劃器):由LLM驅(qū)動,接收用戶任務(wù),拆解為子任務(wù);
- 關(guān)鍵點:在制定計劃之前,Planner會去Case Bank檢索歷史案例;
- 好處:避免重蹈覆轍,同時借鑒過往成功策略。
舉個例子: 假設(shè)Agent要完成“爬取論文數(shù)據(jù)并生成總結(jié)”,它會去回顧之前在“信息檢索+摘要”任務(wù)中的經(jīng)驗,尤其是曾經(jīng)失敗的路徑,確保這次不再掉坑。
?? 階段二:工具驅(qū)動執(zhí)行(Tool-Based Execution)
- Executor(執(zhí)行器):另一個LLM,負責調(diào)用外部工具完成子任務(wù);
- 工具庫:包含網(wǎng)頁爬蟲、代碼執(zhí)行器、文件解析器等;
- 持續(xù)記錄:每一步執(zhí)行的結(jié)果都會寫回Case Bank,形成新的經(jīng)驗。
更重要的是,Memento引入了**軟Q學習(Soft Q-learning)**機制,讓Agent能動態(tài)評估:哪些案例最有價值,哪些需要弱化,從而提升檢索質(zhì)量。
實驗表現(xiàn):不是概念,而是真正跑出來了
Memento并非停留在理論層面,而是在多個權(quán)威測試集上展現(xiàn)了強勁實力:
- GAIA基準測試
a.任務(wù):考察智能體在復(fù)雜長任務(wù)(需多步推理+工具調(diào)用)上的能力;
b.成績:Memento以 79.40% 的準確率拿下Top-1,成為開源Agent框架新標桿。
- DeepResearcher數(shù)據(jù)集
a.任務(wù):實時Web研究,考察Agent在開放環(huán)境下的信息檢索與分析能力;
b.成績:Memento取得 66.6% F1分數(shù),超越依賴大規(guī)模微調(diào)的對手。
- 消融實驗(Ablation Study)
a.加入Case Bank后,任務(wù)準確率平均提升 **9.6%**;
b.證明記憶機制確實是“質(zhì)變”的關(guān)鍵因素。
換句話說,Memento證明了:持續(xù)學習≠微調(diào)模型,外部記憶同樣行之有效。

為什么Memento很重要?
從研究走向應(yīng)用,Memento有幾個關(guān)鍵意義:
- 成本優(yōu)勢不再需要頻繁微調(diào),節(jié)省海量算力和數(shù)據(jù)。
- 適應(yīng)性更強Agent可以即時更新記憶,適應(yīng)動態(tài)環(huán)境。
- 通用性Memento本身是一個框架,可以與不同LLM(如GPT-4.1、o4-mini)結(jié)合。
- 向AGI邁進一步如果說LLM是“聰明的大腦”,那么Memento就是“記憶的軀體”。兩者結(jié)合,才更接近人類智能。
結(jié)尾:AI的未來,不是更大模型,而是更好“記憶”
Memento展示了一條新的路徑:
- 我們不必再為模型參數(shù)的“微調(diào)”疲于奔命;
- 我們可以通過“外部記憶”來賦予AI持續(xù)學習的能力;
- 更像人類,也更具擴展性。
當AI開始具備這種“經(jīng)驗驅(qū)動的自我進化”后,我們或許就離真正的**通用人工智能(AGI)**更近一步。
問題也隨之而來: ?? 在你看來,未來的AI智能體更需要“更大的大腦”,還是“更持久的記憶”? ?? 你會希望你的AI助手具備Memento這樣的能力嗎?
本文轉(zhuǎn)載自??Halo咯咯?? 作者:基咯咯

















