字節(jié)Seed開源長線記憶多模態(tài)Agent，像人一樣能聽會看

2025-08-18 18:19:34

M3-Agent的亮點(diǎn)在于，它不僅能夠處理實(shí)時的視覺和聽覺輸入，以構(gòu)建和更新其長期記憶，還發(fā)展了語義記憶，能夠隨著時間的推移積累知識。

字節(jié)Seed發(fā)布全新多模態(tài)智能體框架——M3-Agent。

像人類一樣能聽會看、具備長期記憶，并且免費(fèi)開源！？

此外，為了評估多模態(tài)智能體中的記憶有效性和基于記憶的推理，來自字節(jié)Seed、浙江大學(xué)和上海交通大學(xué)的研究團(tuán)隊還開發(fā)了一個新的長視頻問答基準(zhǔn)：M3-Bench，同樣開源。

實(shí)驗表明，通過強(qiáng)化學(xué)習(xí)訓(xùn)練的M3-Agent在多個基準(zhǔn)測試中表現(xiàn)均顯著優(yōu)于基線模型（包括基于商業(yè)模型如Gemini-1.5-Pro和GPT-4o的智能體）。

一位熱心網(wǎng)友總結(jié)了這篇論文的兩個核心洞察：

以實(shí)體為中心的多模態(tài)記憶至關(guān)重要。M3-Agent研究表明，通過在人臉、語音和文本中建立具有持久ID的長期結(jié)構(gòu)化記憶，能夠顯著提升長視頻內(nèi)容的推理能力。
檢索推理優(yōu)于單次RAG。訓(xùn)練一個RL策略來決定何時以及如何查詢記憶會產(chǎn)生比盲目檢索更強(qiáng)的結(jié)果。開發(fā)代理的開發(fā)者應(yīng)該將檢索視為一個迭代的推理循環(huán)，而不是一個一次性步驟。

詳細(xì)內(nèi)容及代碼可見文末鏈接。

M3-Agent框架

對于多模態(tài)智能體而言，達(dá)到像人類一樣的智能水平根本上依賴于三種能力：

（1）通過多模態(tài)傳感器持續(xù)感知世界；

（2）將經(jīng)驗存儲在長期記憶中，并逐步構(gòu)建關(guān)于環(huán)境的知識；

（3）基于積累的記憶進(jìn)行推理，以指導(dǎo)其行動。

為實(shí)現(xiàn)這些目標(biāo)，字節(jié)Seed團(tuán)隊提出了M3-Agent，一個配備長期記憶的新型多模態(tài)代理框架。

它通過兩個并行過程運(yùn)作：記憶過程和控制過程。

記憶過程持續(xù)感知實(shí)時多模態(tài)輸入以構(gòu)建和更新長期記憶；控制過程則解釋外部指令，對存儲的記憶進(jìn)行推理，并執(zhí)行相應(yīng)的任務(wù)。

在記憶過程中，M3-Agent會實(shí)時處理輸入的視頻流，通過生成兩種記憶類型來同時捕獲細(xì)粒度細(xì)節(jié)和高級抽象信息，類似于人類認(rèn)知系統(tǒng)：

事件記憶記錄視頻中觀察到的具體事件。例如，“愛麗絲拿起咖啡說，‘早上沒有這個我無法離開’”，以及“愛麗絲將空瓶子扔進(jìn)綠色的垃圾桶”。
語義記憶從片段中推導(dǎo)出一般知識。例如，“愛麗絲喜歡早上喝咖啡”和“綠色的垃圾桶用于回收”。

生成的記憶隨后會被存入長期記憶庫中，該庫支持人臉、語音和文本知識等多模態(tài)信息存儲。

此外，記憶以實(shí)體為中心的結(jié)構(gòu)進(jìn)行組織，例如與同一個人相關(guān)的信息（例如他們的臉、聲音和相關(guān)知識）會以圖的格式連接起來，隨著智能體不斷提取和整合語義記憶，這些關(guān)聯(lián)關(guān)系會逐步建立完善。

在控制過程中，M3-Agent利用其長期記憶進(jìn)行推理并完成任務(wù)。

M3-Agent并非使用單輪檢索增強(qiáng)生成（RAG）將記憶加載到上下文中，而是采用強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)多輪推理和迭代記憶檢索，能自主從不同維度（如事件或角色）的長期記憶中檢索相關(guān)信息，從而提高任務(wù)成功率。

M3-Bench基準(zhǔn)

對于多模態(tài)智能體而言，記憶形成與在線視頻理解密切相關(guān)，而在線視頻理解是一項需要實(shí)時處理視頻流并根據(jù)過去的觀察做出決策的、具有挑戰(zhàn)性的任務(wù)。

傳統(tǒng)的長視頻理解方法（例如在多模態(tài)模型中擴(kuò)展上下文窗口或壓縮視覺標(biāo)記以增加時間覆蓋范圍）對于無限長的視頻流來說，并不具備有效的擴(kuò)展性。

為了提高可擴(kuò)展性，基于記憶的方法引入了記憶模塊來存儲編碼的視覺特征以供未來檢索。這些架構(gòu)適合在線視頻處理，但它們面臨一個基本限制：難以保持長期一致性。

由于它們只存儲視覺特征，這些方法難以在長時間內(nèi)保持對人類身份或演變事件等實(shí)體的連貫跟蹤。

隨著大型多模態(tài)和語言模型的快速發(fā)展，蘇格拉底模型框架已成為已成為在線視頻理解領(lǐng)域的一種頗具前景的研究方向。

該方法通過利用多模態(tài)模型生成視頻描述作為基于語言的記憶，有效提升了系統(tǒng)可擴(kuò)展性；但它在保持復(fù)雜、演變視頻內(nèi)容的長期一致性方面仍然面臨挑戰(zhàn)。

為此，研究團(tuán)隊提出了M3-Bench，一個用于評估多模態(tài)智能體長期記憶推理能力的 LVQA 數(shù)據(jù)集。

M3-Bench中的每個實(shí)例包含一個模擬智能體感知輸入的長視頻，以及一系列開放式問答對。

該數(shù)據(jù)集分為兩個子集：

M3-Bench-robot，包含 100 個從機(jī)器人第一人稱視角錄制的真實(shí)世界視頻；
M3-Bench-web，包含920個網(wǎng)絡(luò)來源的視頻，涵蓋更廣泛的內(nèi)容和場景。

為了全面評估智能體回憶過去觀察結(jié)果和基于記憶進(jìn)行推理的能力，研究團(tuán)隊整理了五種不同類型的問答題，如下圖所示。

總體而言，M3-Bench 的特點(diǎn)是：

長時長的真實(shí)世界視頻，涵蓋了與多模態(tài)智能體部署相關(guān)的多樣化現(xiàn)實(shí)場景；
具有挑戰(zhàn)性的問題，這些問題超越了淺層感知理解，需要基于長期上下文的復(fù)雜推理。

上圖為M3-Bench基準(zhǔn)的統(tǒng)計概述，每個問題可能對應(yīng)多種問題類型。

顯著優(yōu)于基線模型

如上表所示，M3-Agent在M3-Bench-robot、M3-Bench-web和VideoMME-long上均優(yōu)于所有基線模型。

具體而言，在M3-Bench-robot 上，M3-Agent比最強(qiáng)的基線模型MA-LLM提高了6.3%的準(zhǔn)確率；在 M3-Bench-web和VideoMME-long上，它分別比最強(qiáng)的基線模型Gemini-GPT4o-Hybrid高出了7.7%和5.3%。

研究團(tuán)隊在M3-Bench中針對不同問題類型，將M3-Agent與所有基線進(jìn)行了進(jìn)一步評估。結(jié)果顯示，M3-Agent 在人類理解和跨模態(tài)推理方面表現(xiàn)出色。

具體來說，與M3-Bench-robot上表現(xiàn)最佳的基線 MA-LMM 相比，M3-Agent 在人類理解和跨模態(tài)推理方面分別提升了4.2%和 8.5%；

在M3-Bench-web上，M3-Agent超越了頂尖基線Gemini-GPT4o-Hybrid，在相應(yīng)類別中分別取得了15.5%和6.7%的提升。

這些結(jié)果表明，M3-Agent在保持角色一致性、深化人類理解以及有效整合多模態(tài)信息方面具有卓越能力。

參考鏈接：https://x.com/omarsar0/status/1956773240623235076

論文：https://www.arxiv.org/abs/2508.09736

代碼：https://github.com/bytedance-seed/m3-agent

責(zé)任編輯：張燕妮來源：量子位