国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

HaluMem:讓AI記憶系統的“幻覺”現形——首個面向記憶系統的操作級幻覺評測基準

人工智能
在 HaluMem?Medium 上,SuperMemory 綜合表現最佳;而 Mem0 系列的寫入時間過長,表明其在對話處理和記憶構建階段效率不足。在長語境下,部分記憶系統的耗時有所下降,主要源于提取記憶點的減少,而非算法優化帶來的改進。

在過去一年,AI Agent的“記憶能力”成為熱門話題。從OpenAI的Memory功能到各種長期交互系統,大家都希望AI能“記住你是誰”、“了解你的習慣”、“延續上次的對話”。

但問題是,當 AI 說“我記得你上次提到身體狀況變好了”時,它真的記得對嗎?或者說目前的 AI 離“可靠記憶”還有多遠?

圖1 記憶系統中操作級幻覺的示例圖1 記憶系統中操作級幻覺的示例

事實上,如圖1所示,在 AI 的“記憶操作”中,其實會存在各種各樣的幻覺。包括:

  • 記憶提取幻覺:從對話中抽取關鍵信息時,可能錯誤或虛構事實;
  • 記憶更新幻覺:修改舊信息時,可能錯誤或遺漏更新;
  • 記憶問答幻覺:引用記憶回答問題時,可能調用了錯誤記憶或編造細節。

這些幻覺一旦發生,會在系統內部累積、傳遞、放大,最終影響AI的回答。于是我們看到這樣的現象:“AI越聊越熟,卻越說越不對。”

HaluMem VS 傳統記憶系統幻覺評估框架

表1 記憶系統幻覺評估基準的比較

圖片圖片

為了有效緩解這些幻覺現象,為 AI 的記憶系統建立系統化的幻覺評估機制顯得尤為重要。但現有關于記憶系統的幻覺評估方法存在顯著的局限性。如表1所示,主流研究多采用端到端的問答式評測框架,難以深入系統內部來探尋記憶幻覺究竟產生于哪個階段。

圖2 HaluMem與現有記憶系統幻覺評估方法的對比圖2 HaluMem與現有記憶系統幻覺評估方法的對比

為此,我們發布了業內首個面向記憶系統的操作級幻覺評估基準——HaluMem。如圖2所示,HaluMem 首創了三階段幻覺拆解機制(記憶抽取、記憶更新、記憶問答),并構建了上下文超過 100萬 tokens 的人機對話數據集,系統性地揭示主流記憶系統(Mem0、Memobase、Supermemory 、Zep等)在不同階段的幻覺模式與傳播規律。目前,我們正持續擴展評估范圍,逐步納入 MemOS 等更多記憶系統。

HaluMem 特性:

  • 操作級評估: 深入記憶提取、更新與問答階段,精準定位幻覺來源,突破傳統端到端評測的局限 ;
  • 真實多輪交互: 基于六階段構建流程,圍繞虛擬用戶生成連貫、真實的人機對話,單個用戶的對話時間跨度超過 10 年,全面模擬記憶的生成、演化與長期積累。
  • 豐富記憶類型:覆蓋人物記憶、事件記憶和人際關系記憶,記錄更新前后狀態,保證可追溯與可解釋。
  • 雙尺度數據集:提供 HaluMem-Medium(常規評測)與 HaluMem-Long(百萬級上下文)兩種版本,適配不同評測需求。

首輪評估結果顯示,當前主流系統在記憶抽取與更新階段最易產生幻覺,并隨流程傳導至問答環節,成為錯誤主要來源。HaluMem為構建更可靠、可追溯的記憶系統提供了關鍵評測基礎與改進方向。

HaluMem 評估數據集的構建

要想在操作級評估記憶系統的幻覺,首先需要一個能完整覆蓋“記憶生成—更新—調用”全過程的數據集。這樣的數據集須同時滿足三點要求:

  1. 用戶中心化(User-centric):能反映個體隨時間變化的多維信息;
  2. 過程可追蹤(Process-traceable):每條記憶的來源與演化路徑清晰;
  3. 操作可分解(Operation-separable):能獨立評測提取、更新與問答三個階段。

為此,如圖3所示,HaluMem 設計了一套六階段的數據構建流程,從虛擬用戶出發,逐步生成事件流、會話摘要、記憶點與多輪對話。

圖3 HaluMem 數據集構建流程圖3 HaluMem 數據集構建流程

表2 HaluMemDatasets的統計概述表2 HaluMemDatasets的統計概述

HaluMem評估框架:讓記憶系統幻覺“可定位、可測量”

在每個用戶的多輪對話中,HaluMem評估數據集為三類關鍵操作提供了對應的“黃金標準”:

  • 記憶提取(Extraction):哪些核心記憶點應被系統識別并存儲;
  • 記憶更新(Updating):哪些舊記憶應被修改或替換;
  • 記憶問答(Question Answering):針對重要記憶點設計的問題與標準答案。

在評測時,系統的實際輸出結果將分別與這三類標注進行比對進行幻覺發生的階段定位。

圖8 幻覺評估流程圖8 幻覺評估流程

實驗部分

在實驗部分,我們對多種主流記憶系統在三個核心任務上進行了系統而全面的評估,涵蓋 Mem0(標準版與 Graph 版)、SuperMemory 、Memobase 和 Zep。基于實驗結果,我們深入分析了各系統在不同記憶操作階段的幻覺特征及其傳播規律。后續還將持續擴展評估范圍,逐步公布更多記憶系統(如 MemOS 等)的對比結果,為記憶系統的研究提供更全面的實證參考。

圖片圖片

首先,我們匯總了各記憶系統在記憶提取(包括記憶完整性和記憶準確性)、記憶更新以及記憶問答三個任務上的所有評估指標(見表3),其結果揭示了當下“記憶系統”研究的真實圖景與未來方向:

(1)記憶提取:覆蓋率與準確率的兩難平衡

當面對超長上下文(HaluMem-Long)時,幾乎所有系統表現顯著下降,尤其是 Mem0系列。除了 Supermemory 之外,其他系統在長文本中提取的記憶數量明顯減少。這表明當前模型在區分關鍵信息與無關細節方面仍然薄弱。各系統總體回憶率均低于60%,說明仍有大量有效記憶點未被捕獲;而相對較高的權重召回率又說明模型能在有限的提取中優先保留重要信息。不過準確率普遍低于62%,幻覺內容比例偏高,顯示出記憶提取仍存在“多而不精”的問題。

(2)記憶更新:鏈路斷點的瓶頸

所有系統的正確更新率均未超過50%,大部分小于30%,且在長文本場景下表現進一步下滑。分析發現,高記憶完整性(Memory Integrity)往往伴隨較好更新準確率;但由于前期記憶提取覆蓋不足,更新階段出現大量“無從更新”的情況,遺漏率普遍超過50%。盡管幻覺率不到1%,但這更多是因為可進入更新流程的樣本太少。換句話說,現有系統在提取—更新鏈路銜接上存在明顯斷層:無法穩定地將舊記憶與新信息對齊。

(3)記憶問答:提取質量決定問答上限

在問答任務中,表現最優的系統往往也是記憶完整性和記憶更新正確性最高的系統,表明“提取是根本”。例如 Mem0 與 Mem0-Graph 在長文本下表現顯著下滑,與它們提取記憶點銳減高度相關。總體來看,各系統問答準確率均低于56%,幻覺率與遺漏率依然較高,且長文本干擾使整體性能進一步下降。這說明當前記憶系統的問答能力高度依賴上游提取的充分性與準確性,在長上下文干擾下仍容易出現“事實偏移”與“記憶混亂”。

圖片圖片

在進一步的記憶類型分析中(見表4),我們考察了各記憶系統在三類記憶上的提取準確率:事件記憶(Event)、人物畫像記憶(Persona)以及關系記憶(Relationship)。實驗結果顯示,不同類型記憶的提取準確率差異明顯:在HaluMem-Medium 上,Zep 表現最佳。但在長語境下 Zep 和 Mem0 系列的表現均大幅下降,反映出現有系統難以在復雜對話中穩定捕捉有效信息。只有 Supermemory 在長語境中表現提升,可能因其傾向于提取更多記憶點,從數量上彌補了部分遺漏。從類型上看,人物畫像記憶的準確率略高,說明靜態特征較易被識別;而事件與關系類記憶更容易出錯,揭示模型在理解動態情節和關系變化方面仍有不足。

圖9 不同問題類型下記憶系統的性能圖9 不同問題類型下記憶系統的性能

如圖9所示,對于HaluMem設計的六類問題,各記憶系統整體準確率普遍偏低,仍有較大提升空間。除了 SuperMemory 和 Zep 外,大多數系統一遇到超長語境(HaluMem?Long)就開始“記不住”;而 SuperMemory 和 Zep 則憑借更穩的記憶機制,在兩個數據集上都保持領先。值得注意的是,各系統在“Memory Boundary”和“Memory Conflict”類問題上表現不錯,說明它們具備一定識別未知或誤導信息的能力;但一旦進入需要多輪推理、動態更新或知識遷移的復雜場景,準確率便迅速走低。這揭示出當前記憶系統在復雜邏輯推理與偏好追蹤方面仍存在明顯短板。

圖片圖片

在時效性分析中,我們比較了各記憶系統在“寫入對話”與“記憶檢索”兩個階段的耗時表現。表5結果顯示,寫入階段遠比檢索階段耗時得多,是系統整體計算開銷的主要瓶頸。這意味著要讓智能體變得更“靈活高效”,提升記憶提取與更新的速度將是關鍵方向。在 HaluMem?Medium 上,SuperMemory 綜合表現最佳;而 Mem0 系列的寫入時間過長,表明其在對話處理和記憶構建階段效率不足。在長語境下,部分記憶系統的耗時有所下降,主要源于提取記憶點的減少,而非算法優化帶來的改進。總體而言,當前記憶系統仍需在運行效率與記憶能力之間實現更優平衡,以支持未來更復雜、更實時的智能體交互場景。

https://huggingface.co/papers/2511.03506

責任編輯:武曉燕 來源: PaperAgent
相關推薦

2025-10-27 01:11:00

2025-06-03 08:32:00

2025-07-29 00:00:00

LLM上下文窗口系統

2025-10-21 08:53:00

2025-11-06 08:54:00

AI模型系統

2025-08-11 08:20:02

2025-10-16 07:42:18

2025-06-09 08:56:00

2025-09-14 11:57:57

ClaudeChatGPT隱身聊天

2023-05-24 15:15:55

2025-06-13 08:06:41

2025-09-18 10:10:31

2025-07-30 09:15:00

模型開源AI

2025-06-04 04:21:00

AIChatGPT模型

2025-11-07 08:44:38

2025-09-03 13:56:50

Mistral AILe ChatChatGPT

2025-09-12 13:32:48

2025-08-04 02:45:00

2025-05-08 06:00:00

AI幻覺AI人工智能

2024-10-24 10:15:00

AI模型
點贊
收藏

51CTO技術棧公眾號

欧美日韩中国免费专区在线看| 色一情一乱一乱一91av| 99精品欧美一区二区三区| jizz内谢中国亚洲jizz| 色婷婷激情综合| 免费男女羞羞的视频网站中文字幕| 国产一区在线观看视频| 欧美在线播放一区二区| 久久精品播放| 51午夜精品视频| 国产一区二区| 精品国产一区二区三区四区在线观看| 青青青草视频在线| 91精品国产综合久久久久久久| 日韩亚洲视频在线观看| 国产精品灌醉下药二区| 成人在线观看a| 99久久国产综合精品女不卡| 中文字幕在线中文| 精品一区二区免费视频| 亚洲v日韩v欧美v综合| 久久激情中文| 日本一区二区不卡高清更新| 欧美日韩一区二区三区四区在线观看| 国产精品一区二区三区成人| 蜜桃成人av| 国产精品日韩欧美大师| 精品久久美女| 91精品视频网站| 欧美日韩国产在线一区| 成人信息集中地欧美| 91精品国产乱码久久久久久久| 国产精品99导航| 午夜国产一区二区| 9a蜜桃久久久久久免费| 国产精品美女久久久浪潮软件| 日本欧美色综合网站免费| 日韩在线a电影| 免费观看中文字幕| 91蜜桃网址入口| 高清av影院| 精品久久久久国产| 中文字幕日本在线| 亚洲精品国产福利| 成人午夜毛片| 国产97在线|日韩| 欧美一区成人| 亚洲精品一区二区三| 成人亚洲一区二区一| 一区二区三区国产免费| 亚洲一二三区在线观看| 又爽又大又黄a级毛片在线视频| 欧美精品色综合| 国产中文在线播放| 久久久久国色av免费观看性色| 欧美日韩中文一区二区| 在线观看中文字幕亚洲| 久久动漫网址| 精品久久一区二区三区蜜桃| 精品无人码麻豆乱码1区2区| 999香蕉视频| 精品女同一区二区三区在线播放| 天堂中文а√在线| 最好看的2019年中文视频| 精品福利久久久| 日产精品高清视频免费| 久久影院午夜片一区| 视频二区在线| 中文字幕无线精品亚洲乱码一区| 一区二区三区视频免费观看| 久久riav| 亚洲国产激情av| 免费a级人成a大片在线观看| 久久精品99久久香蕉国产色戒| 国产成人黄色| 日韩高清三级| 国产精品久久777777| 久草免费在线观看| 久久91精品国产91久久跳| 欧美深夜福利| 97成人在线免费视频| 欧美日韩国产专区| 黄色成人在线观看网站| 99久久久久国产精品免费| av一区二区久久| 麻豆免费在线视频| 97av在线播放| 老汉av免费一区二区三区| 毛片一级免费一级| 日韩高清av在线| 97久久视频| 欧美日韩在线不卡视频| 欧美老女人第四色| 少妇精品久久久一区二区| 欧美日韩午夜爽爽| 欧美日韩国产一级二级| 亚洲婷婷伊人| 国产成人无码精品久久久性色| 91精品国产色综合久久久蜜香臀| 欧美变态网站| 精品日韩在线播放| 欧美视频精品在线| 久久成人高清| 国产男女无遮挡| 最新精品视频在线| 在线视频免费一区二区| 欧美日韩亚洲国产精品| av网站免费在线| 日韩在线欧美在线| 老司机精品视频导航| av在线女优影院| 91精品久久久久久久久中文字幕 | 欧美一区二区日韩| 日本一区二区在线看| 亚洲最大综合网| 久久精品国产久精国产思思| 久久丁香综合五月国产三级网站| 日本a级在线| 成人91免费视频| 亚洲一区二区四区蜜桃| 美国成人xxx| www.xxx亚洲| 久久精品国产精品| 成人免费视频网站在线观看| 久久五月精品中文字幕| 99久久99久久| 色呦呦网站一区| 在线精品国产| 国产三级电影在线| 亚洲最大的成人网| 日韩欧美在线免费| 偷拍欧美精品| 免费人成在线观看网站| 91视频最新| 欧美色综合网站| 日韩一级免费| 日本性爱视频在线观看| 日韩在线第一区| 精品无人国产偷自产在线| 国内精品久久久久影院一蜜桃| 超碰aⅴ人人做人人爽欧美| 黑人巨大国产9丨视频| 亚洲欧美一区二区激情| 国产一区中文字幕| 先锋影音网一区二区| av动漫免费看| 2019中文字幕免费视频| 一区二区三区四区五区视频在线观看 | 性欧美亚洲xxxx乳在线观看| 99re成人在线| 亚洲一区二区三区四区电影| 色www免费视频| 国产精品久久久久久久久久免费| 亚洲成人777| 欧美精品自拍| 久久亚洲资源| 男女猛烈激情xx00免费视频| 久久久久国产一区二区三区| 亚洲一区二区三区四区在线| 色喇叭免费久久综合网| 91caoporm在线视频| 亚洲激情一区二区| www高清在线视频日韩欧美| 中文字幕日韩av资源站| 亚洲香蕉av| 污污视频在线看| 日韩免费视频播放| 538国产精品一区二区免费视频| 亚洲国产视频在线| 性一交一乱一区二区洋洋av| 老司机2019福利精品视频导航| 精品99在线视频| 国产精品热视频| 欧美成人aa大片| 国产目拍亚洲精品99久久精品 | 综合国产在线观看| 亚洲精品成人精品456| 国内精品福利| 一级黄色免费在线观看| 自拍偷拍免费精品| 洋洋成人永久网站入口| 国产精品婷婷| 日韩美香港a一级毛片| 免费男女羞羞的视频网站主页在线观看 | 在线视频你懂| 欧美激情精品久久久久久蜜臀| 国产亚洲污的网站| 伊人春色之综合网| 麻豆视频在线| 欧美一级免费播放| 97久久精品国产| 欧美在线影院一区二区| 国产成人综合在线观看| 免费欧美视频| 欧美aaaxxxx做受视频| www.超碰com| 久久精品国产一区二区三区日韩 | 久久丁香四色| 久蕉在线视频| 成人小视频在线看|