国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

CVPR 2025 | 多模態統一學習新范式來了，數據、模型、代碼全部開源

2025-06-13 08:45:00

人工智能新聞

本文分別從數據和模型的角度出發，提出了統一視聽場景理解的顯示互助范式來實現任務間的顯示互助，大量的實驗結果以及可視化分析均證明了該范式的有效性。

本文第一作者杜恒輝為中國人民大學二年級碩士生，主要研究方向為多模態大模型視聽場景理解與推理，長視頻理解等，師從胡迪副教授。作者來自于中國人民大學，清華大學和北京騰訊 PCG AI 技術中心。

我們人類生活在一個充滿視覺和音頻信息的世界中，近年來已經有很多工作利用這兩個模態的信息來增強模型對視聽場景的理解能力，衍生出了多種不同類型的任務，它們分別要求模型具備不同層面的能力。

過去大量的工作主要聚焦于完成單一任務，相比之下，我們人類對周圍復雜的的世界具有一個通用的感知理解能力。因此，如何設計一個像人類一樣對視聽場景具有通用理解能力的模型是未來通往 AGI 道路上一個極其重要的問題。當前主流的學習范式是通過構建大規模的多任務指令微調數據集并在此基礎上直接做指令微調。然而，這種學習范式對于多任務學習而言是最優的嗎？

最近中國人民大學高瓴人工智能學院 GeWu-Lab 實驗室，清華大學和北京騰訊 PCG AI 技術中心合作發表的 CVPR 2025 論文指出，當前這種主流的學習范式忽視了多模態數據的異質性和任務間的復雜關系，簡單地將所有任務聯合訓練可能會造成任務間的相互干擾。

為了有效實現任務間的顯示互助，作者團隊提出了多模態大模型學習的新范式，分別從數據和模型兩個角度實現了多模態場景理解任務的高效一統，并在多個場景理解任務上超過了垂類專家模型，數據集、模型和代碼全部開源。目前工作還在進一步拓展中，歡迎感興趣的領域專家加入，共同構建一個統一的理解、生成與推理的框架。如有興趣，請郵件聯系 dihu@ruc.edu.cn。

論文標題：Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
論文鏈接：https://arxiv.org/abs/2503.13068
項目主頁：https://github.com/GeWu-Lab/Crab

統一的多模態場景理解能力展示

時序定位

輸入一段音視頻，讓模型找到發生的音視頻事件并定位出時序片段。

空間定位

輸入一段音頻和一張圖像，讓模型定位出圖片中發聲的物體為止。

時空推理

輸入一段樂器演奏的音視頻場景，讓模型回答相關問題，涉及到時序和空間信息的理解以及推理。

像素級理解

輸入一段音頻和一張圖片，讓模型分割出圖片中發聲的物體，具體包含 S4, MS3, AVSS 和 Ref-AVS 等多種分割任務。

視覺和聽覺信息是我們人類接觸最多的兩類信息，近年來已經有很多工作開始探究基于這兩個模態的視聽場景理解任務，主要可以分為時序定位、空間定位、像素級理解和時空推理等四種不同類型的任務，它們分別要求模型具備不同層面的能力。過去大量的工作聚焦于完成單一任務，相比之下，我們人類對周圍復雜的世界具有一個通用的感知理解能力。因此，讓模型也像人類一樣具有統一的視聽場景理解能力是具有重要意義的。

隨著多模態大語言模型的發展，構建大規模的指令微調數據集并將各種不同的任務直接進行聯合訓練已經成為當前主流的學習范式。然而，這種學習范式忽視了多模態數據的異質性和任務間的復雜關系，簡單地將所有任務聯合訓練可能會造成任務間的相互干擾，這種現象在之前的工作中已經被證實，并且這個問題對于任務間差異較大的視聽場景理解任務來說則更為重要。為了有效解決上述問題，本文分別從數據和模型的角度針對性地提出了一個統一的顯示互助學習范式來有效實現任務間的顯示互助。為了明確任務間的互助關系，首先構建了一個具有顯示推理過程的數據集 AV-UIE，它包含具體的時序和空間信息，可以有效建立任務間的互助關系。然后為了進一步在學習過程中促進任務間的相互協助，本文提出了一種具有多個 Head 的類 MoE LoRA 結構，每個 Head 負責學習多模態數據交互的不同層面，通過這種結構將模型的不同能力解耦，讓任務間的互助關系顯示地展現出來，共享的能力在不同任務間建立起相互協助的橋梁。

AV-UIE: 具有顯示推理過程的視聽場景指令微調數據集

從數據的角度來看，現有視聽場景理解數據集的標簽是簡單的單詞或者短語，這樣簡單的標簽在訓練過程中并不能顯著地幫助到其它任務，或者說只能以一種隱式的方式增強模型的訓練效果，我們并不能確保一定是對其它任務有幫助的。為了進一步地促進任務間的顯示互助并將互助關系顯示地體現出來，本文提出了具有顯示推理過程的視聽場景指令微調數據集 AV-UIE，通過細化現有數據集的標簽，額外增加了顯示的推理過程，其中包含具體的時空信息，這些信息明確了任務間的互助關系。

圖 1. 具有顯示推理過程的 AV-UIE 數集構造流程和統計分析

圖 1 展示了具體的構建過程以及對數據集的統計分析，通過 in-context learning 的方式利用現有的強大的多模態大模型進行標注，從不同任務中的數據中獲取音視頻場景，為了保證結果的準確性和推理過程的合理性，原有數據的標簽也作為輸入，讓 Gemini 1.5 Pro 針對該場景輸出帶有時序和空間等信息的顯示推理過程。為了保證數據的質量，最終再由人工進行檢查糾正。在訓練過程中這些細化后的標簽能夠鼓勵模型準確理解視聽場景內容并輸出相應的時空信息，以此來增強模型特定的能力，從而幫助到其它依賴這些特定能力的任務。圖 2 展示了 AVQA 和 AVVP 這兩種任務實現顯示互助的數據樣例，不同的顏色表示不同類型的時空信息，這兩個任務都能夠受益于增強后的空間定位和時序定位能力。

圖 2. AVQA 和 AVVP 任務通過顯示推理過程實現相互幫助的示例

AV-UIE 數據集包含九種任務的數據，總共 200K 訓練樣本。其中，時序定位任務包含 AVE 和 AVVP，數據占比 6.8%，空間定位任務包含 ARIG，數據占比 25.8%，像素級理解任務包含 S4，MS3，AVSS 和 Ref-AVS，數據占比 41.6%，時空理解任務包含 AVQA，數據占比 25.8%。相比于其它的指令微調數據集，盡管每一個任務的訓練樣本數比較小，但是在顯示推理過程的幫助下，任務間的顯示互助仍然可以增強模型在單個任務上的性能。

Crab: 實現任務間顯示互助的統一學習框架

從數據的角度保證了模型可以輸出帶有時序信息的顯示推理過程，這是從結果上對模型進行約束，顯示地增強不同類型的能力，但是如何保證模型在學習過程中可以有效地學到這些不同的能力呢？為此，本文提出了一個視聽場景理解的統一學習框架，圖 3 展示了模型的整體架構，主要包括三個統一的多模態接口，分別用來處理 audio, visual 和 segmentation mask 數據，一個具有 interaction-aware LoRA 結構的大模型，用于在學習過程中有效學習數據交互的不同層面從而實現任務間的顯示互助。

圖 3. 模型總體架構

傳統的 LoRA 結構由一組對稱的 A 矩陣和 B 矩陣組成，用于在下游任務上高效微調模型，具有多組對稱的 AB 矩陣的 LoRA MoE 結構通常被用來多任務微調，每一組 LoRA 負責解決單個任務。為了進一步地促進任務間的相互協助，本文提出的 Interaction-aware LoRA 結構（如圖 4 所示）由一個共享的 A 矩陣和多個不同的 LoRA Head B 矩陣組成，每個 Head 期望去學習數據交互的不同層面，進而具備不同的能力。為了有效區分不同的 Head，額外增加一個 Router 用來給不同的任務分配不同的權重。例如，在學習過程中，時空推理任務 AVQA 聚焦于增強模型的時序和空間定位能力，那么就會更多的激活對應 Head 的參數，增強它們特定的能力，而其它的時序定位和空間任務都可以受益于這些增強后的 Head。從這個角度來說，模型的能力被解耦成多個特定的能力，模型可以顯示地依賴這些能力完成不同類型的任務，而多個任務間共享的能力建立起了任務間協助的橋梁。

圖 2. 具有多個 LoRA head 的 Interaction-aware LoRA 結構

實驗與分析

為了證明顯示互助學習范式的有效性，本文分別對比了在所有任務上通用的模型以及在單個任務上專有的模型，并提供了全面的消融實驗對比結果。表 1 展示了與多個任務上的通用模型的對比結果，相比于其它模型，本文提出的 Crab 統一學習框架在所有類型的任務上具有更加通用的理解能力，并且在多個任務上取得了更好的表現。這表明了 Crab 在視聽場景通用理解能力方面的優越性。

表 1. 與多個任務上的通用模型的對比結果

表 2，3，4，5 分別展示了與時序定位、空間定位、像素級理解和時空推理等四種類型任務的專有模型對比結果，可以看到在 AVE、ARIG、AVQA 等任務上 Crab 均優于單個任務上的專有模型，在 AVVP 和 AVS 任務上取得了相近的表現。表 6 展示了全面的消融實驗結果，相比于單個任務，簡單的多任務 LoRA 微調并不能充分實現任務間的相互協助，甚至在一些任務上可能會降低性能。相比之下，在顯示互助的學習范式下，任務間的相互干擾被有效緩解，任務間的相互協助提高了單個任務的性能。

表 2. 與時序定位任務專有模型對比結果

表 3. 與空間定位任務專有模型對比結果

表 4. 與像素級理解任務專有模型對比結果

表 5. 與時空推理任務專有模型對比結果

表 6. 全面的消融實驗對比結果

為了進一步證明任務間顯示互助的過程，本文對多個 LoRA Head 進行了可視化分析實驗。在推理過程中，對于每個任務的多模態輸入數據，每個 LoRA Head 會產生一個權重，權重越大，表明完成該任務越依賴于這個 Head。圖 3 對比了 3 個 Head 在不同任務上的權重，左圖是 B1 和 B2，右圖是 B2 和 B3?？梢园l現兩點：1）相同類型的任務對不同 Head 的依賴程度是類似的，它們對不同 Head 的依賴權重分別形成不同的簇；2）不同任務對 3 個 Head 的不同依賴性表明每個 Head 具備不同的能力。這表明模型的能力被解耦成多種不同的能力，多個任務間可能會依賴于同一種能力，因此它們可以建立相互協助的關系。

圖 3. 3 個 LoRA Head 的權重可視化

總述

本文分別從數據和模型的角度出發，提出了統一視聽場景理解的顯示互助范式來實現任務間的顯示互助，大量的實驗結果以及可視化分析均證明了該范式的有效性。我們希望本文提出的想法可以為該領域的發展提供新的研究視角，并且在未來的工作中我們將聚焦于多模態推理的新范式，希望將現有的多模態推理工作提升到一個新的高度。

責任編輯：張燕妮來源：機器之心

數據模型可視化

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

高清精品在线| 最新精品视频在线| 久久久久久香蕉网| 亚洲美女视频在线| 97在线精品| www国产在线观看| 黄色一级在线视频| 欧美一区二区三区图| 欧美日韩在线第一页| 一本色道88久久加勒比精品| 超碰在线网址| 中文字幕欧美日韩| 中文字幕亚洲区| 菠萝蜜一区二区| 在线看三级电影| 欧美色图另类小说| 国产精品视频在线观看| 日韩欧美亚洲一区二区| 99国产精品久| 日韩精品久久| 电影k8一区二区三区久久| 男女啪啪免费视频网站| 91精品国产91久久久久久久久| 色婷婷久久久久swag精品| 精品综合免费视频观看| 深夜福利一区| 成人免费观看视频大全| 91成人在线观看喷潮教学| 国产精品自产拍在线观| 亚洲国产精品专区久久| 国产视频一区二区在线观看| 国产精东传媒成人av电影| 黄色av网址在线免费观看| 你真棒插曲来救救我在线观看| 91亚洲精品在线观看| 色伦专区97中文字幕| 欧美日韩国产影片| 1000精品久久久久久久久| 久久电影网站中文字幕| 色777狠狠狠综合伊人| 日本黄色成人| 最爽无遮挡行房视频在线| 女人黄色片免费| 自拍日韩亚洲一区在线| 久精品国产欧美| 日本欧美中文字幕| 亚洲石原莉奈一区二区在线观看| 日韩欧美在线中文字幕| 久久综合av免费| 另类综合日韩欧美亚洲| 亚洲天天综合| 国产理论在线播放| 丝袜美腿一区二区三区动态图| 午夜视频精品| 人妖欧美1区| 在线观影网站| 草草草在线视频| 日韩av影视| 国产在线观看精品一区二区三区| 一区二区三区天堂av| 51午夜精品国产| 五月天国产精品| 国产欧美日韩在线看| 韩国av一区二区三区四区| 极品尤物久久久av免费看| 综合国产视频| 97se亚洲| 啪啪av大全导航福利综合导航| 老司机在线视频二区| 在线观看导航| 能在线观看av网站| 一级片视频免费观看| 在线看无码的免费网站| 黄色小网站91| 91青草视频久久| 国产成人精品久久二区二区91 | 日韩**中文字幕毛片| 日韩在线观看成人| 精品电影一区二区三区| 欧美撒尿777hd撒尿| 亚洲一二三区视频在线观看| 欧美激情一区不卡| 91丨九色丨尤物| 国产99一区视频免费| 精品亚洲国产成人av制服丝袜| 国产精品亚洲产品| 亚洲国产高清一区二区三区| 99精品综合| 欧美顶级大胆免费视频| 欧美天天综合| 国产传媒欧美日韩成人精品大片| 日本一区二区中文字幕| 中韩乱幕日产无线码一区| 粉嫩一区二区| 欧洲一区二区三区精品| 男女羞羞在线观看| 8x8ⅹ拨牐拨牐拨牐在线观看| 美女羞羞视频在线观看| 97电影在线看视频| 欧美日本一道| 主播国产精品| 97天天综合网| 周于希免费高清在线观看| 僵尸再翻生在线观看免费国语| 成人免费图片免费观看| 天堂网在线最新版www中文网| √8天堂资源地址中文在线| 久久亚洲导航| 99riav视频在线观看| 91九色国产在线播放| 成人bbav| 新版的欧美在线视频| 毛片无码国产| av在线不卡精品| 涩涩涩久久久成人精品| 亚洲黑人在线| 成人h动漫精品一区二区器材| 国产66精品| 免费精品国产| 成人午夜国产| 午夜视频一区| 天堂久久久久va久久久久| 免费成人在线影院| 国产成a人无v码亚洲福利| 91天堂素人约啪| 亚洲日本va午夜在线影院| 亚洲一区二区av在线| 色老头久久综合| 日韩一区二区在线免费观看| 日韩精品视频三区| 久久人人爽人人爽爽久久| 97在线视频免费| 国产精品视频精品| 国产伦精品一区二区三区照片91| 欧美日韩高清在线一区| 日本老太婆做爰视频| 亚洲成熟丰满熟妇高潮xxxxx| 黄色成人免费观看| 一区二区三区区四区播放视频在线观看 | 日本免费中文字幕在线| 欧美videosex性欧美黑吊| 欧美一级大片| 亚洲精品高潮| 精品免费视频| 99精品国产一区二区青青牛奶| 美女视频黄久久| 99国产欧美另类久久久精品| 黑人精品欧美一区二区蜜桃| 艳色歌舞团一区二区三区| 日韩高清一级| 亚洲欧美国产一本综合首页| 国产视频精品免费播放| 欧美乱大交xxxxx| 国产精品第100页| 久久综合毛片| 久激情内射婷内射蜜桃| 蜜桃视频免费网站| 日韩专区在线| 精品视频在线一区二区在线| 久久夜色精品国产噜噜av小说| 99精品一区| 精品系列免费在线观看| 国产精品久久久久9999吃药| 色婷婷香蕉在线一区二区| 日韩精品极品毛片系列视频| 欧美—级高清免费播放| 99久久精品久久久久久ai换脸| 亚洲一区二区三区乱码| 成人黄18免费网站| 伦xxxx在线| 亚洲视频精选| 亚洲黄色视屏| 99久精品国产| 日韩欧美在线视频免费观看| 亚洲精品美女久久久| 国产91精品久久久久| 久久久久久久久一区| 国内外免费激情视频| 酒色婷婷桃色成人免费av网| 国产v综合v| 亚洲字幕久久| 久久久影院免费| 国产精品久久久久永久免费看| 欧美tickling挠脚心丨vk| 欧美午夜寂寞| 91gao视频| 精品国产一区二区三区久久影院| 日韩在线视频免费观看高清中文| 国产日韩中文在线| 青草网在线观看| 一区二区三区的久久的视频| 久久综合综合久久综合| 9191国产视频| 国产精品久久久久aaaa樱花| 日本人妖在线| 欧美色偷偷大香| 99只有精品| 国产精品日本精品| 亚洲综合日韩| 成年人视频在线|