統(tǒng)一SAM2和LLaVA!字節(jié)豆包提出Dense Video多模態(tài)大模型Sa2VA
在最近的一篇論文中,來(lái)自字節(jié)跳動(dòng)、北京大學(xué)等機(jī)構(gòu)的研究者提出了 Sa2VA。市面上第一個(gè)結(jié)合 SAM-2 和 LLaVA-like 的視頻多模態(tài)大模型,結(jié)合了 SAM-2 和 LLaVA 的優(yōu)勢(shì),實(shí)現(xiàn)了時(shí)空細(xì)粒度的理解。

- 論文地址:https://arxiv.org/pdf/2501.04001
- 項(xiàng)目主頁(yè):https://lxtgh.github.io/project/sa2va/
- GitHub 地址:https://github.com/magic-research/Sa2VA
具體來(lái)說(shuō),研究者設(shè)計(jì)了一套統(tǒng)一的指令微調(diào)格式 (Instruction Tuning Pipeline),整合了五種不同的任務(wù),超過(guò) 20 個(gè)數(shù)據(jù)集一起進(jìn)行聯(lián)合訓(xùn)練。該模型在多個(gè)視頻理解和圖像理解,視頻指代分割和圖像指代分割的任務(wù)上均取得了領(lǐng)先的效果。

圖 1 Sa2VA 的能力。(a) 給定一個(gè)視頻, Sa2VA 能夠分割所指的對(duì)象并理解整個(gè)場(chǎng)景。(b) Sa2VA 在單詞指令追隨訓(xùn)練的情況下,支持圖像對(duì)話、視頻對(duì)話、圖像引用分割、視頻引用分割以及物體描述生成。(c) 與現(xiàn)有的 MLLM(例如 GLaMM 和 OMG-LLaVA)相比,Sa2VA 在多圖像、視頻引用分割和對(duì)話上取得了較好的表現(xiàn)(相比于之前的方法,我們的 model 可以在多個(gè)不同的視頻和圖像多模態(tài)任務(wù)上取得領(lǐng)先效果。)。
研究背景和動(dòng)機(jī)
近年來(lái),多模態(tài)大語(yǔ)言模型有了很大的進(jìn)展。多模態(tài)大語(yǔ)言模型現(xiàn)在支持圖像對(duì)話、視頻對(duì)話、圖像分析等多種任務(wù)。這些模型整合不同模態(tài)的數(shù)據(jù),展現(xiàn)了強(qiáng)大的泛化能力和應(yīng)用潛力。在實(shí)際應(yīng)用中,多模態(tài)大語(yǔ)言模型已經(jīng)能夠?qū)崿F(xiàn)圖像或視頻級(jí)別的各種復(fù)雜任務(wù)。通過(guò)人類輸入各種不同的指令,這些模型能夠根據(jù)具體任務(wù)生成精準(zhǔn)的響應(yīng)。例如,在視頻對(duì)話任務(wù)中,多模態(tài)大語(yǔ)言模型可以識(shí)別圖像中的關(guān)鍵要素,回答有關(guān)物體、場(chǎng)景的問(wèn)題。
在這些應(yīng)用中,我們主要關(guān)注細(xì)粒度的圖像和視頻理解。也就是給出自然語(yǔ)言或者視覺(jué)的指令,讓大語(yǔ)言模型輸出用戶關(guān)注的細(xì)粒度內(nèi)容。這樣人類就可以在視頻播放的過(guò)程中和多模態(tài)大語(yǔ)言模型進(jìn)行交互,而不是僅僅輸出一般的結(jié)果。然而,現(xiàn)有的感知模型或者多模態(tài)大語(yǔ)言模型都沒(méi)有辦法很好的完成這個(gè)任務(wù)。感知模型缺乏開(kāi)放世界的自然語(yǔ)言推理能力。例如 SAM-2 可以很好的從視覺(jué)提示出發(fā)對(duì)物體進(jìn)行分割,但無(wú)法對(duì)物體就行描述。而多模態(tài)大語(yǔ)言模型往往缺乏感知能力,尤其是缺乏視頻的分割能力。本工作旨在利用兩者的優(yōu)勢(shì)構(gòu)建一個(gè)統(tǒng)一的支持圖像、視頻細(xì)粒度感知以及對(duì)話、分析等任務(wù)的模型。

表格 1 Sa2VA 與之前模型的能力比較。Sa2VA 支持各種任務(wù)和模態(tài)。
在本工作中,我們提出了 Sa2VA,首次結(jié)合了 SAM-2 的感知能力和多模態(tài)大語(yǔ)言模型的推理能力來(lái)構(gòu)建統(tǒng)一的模型,并使用新的訓(xùn)練數(shù)據(jù)來(lái)使得整個(gè)模型具有額外的能力。我們將各種任務(wù)整合成一個(gè)單次的指令追隨訓(xùn)練。這些任務(wù)包括圖像和視頻 Referring Expression Segmentation (RES), Visual Question Answering (VQA), Grounded Conversation Generation (GCG) 等任務(wù)。我們的方法還支持視覺(jué)提示輸入來(lái)指定物體。我們的核心觀點(diǎn)是將所有的圖像、視頻、文字或指令輸入統(tǒng)一成令牌而不分別進(jìn)行設(shè)計(jì)。這種方式可以讓 Sa2VA 支持上述所有任務(wù)的聯(lián)合訓(xùn)練。通過(guò)單次的指令追隨訓(xùn)練,我們的 Sa2VA 可以僅僅使用一種參數(shù)來(lái)來(lái)實(shí)現(xiàn)上述所有任務(wù)。
方法設(shè)計(jì)

圖 2 Sa2VA 的模型結(jié)構(gòu)。Sa2VA 首先將輸入的文本、視覺(jué)提示、圖像和視頻編碼為令牌嵌入。然后通過(guò)大型語(yǔ)言模型 (LLM) 處理這些令牌。輸出的文本令牌用于生成 [SEG] 令牌和相關(guān)的語(yǔ)言輸出。SAM-2 解碼器從 SAM-2 編碼器接收?qǐng)D像和視頻特征以及 [SEG] 令牌,以生成相應(yīng)的圖像和視頻分割結(jié)果。
Sa2VA 模型具體實(shí)現(xiàn)
Sa2VA 主要包括兩部分,第一部分是多模態(tài)大語(yǔ)言模型,第二部分是 SAM-2 模型。
Sa2VA 的多模態(tài)大語(yǔ)言模型部分使用了已經(jīng)經(jīng)過(guò)預(yù)訓(xùn)練的模型。主要包括一個(gè)視覺(jué)編碼器,來(lái)對(duì)圖片、視頻或部分圖片進(jìn)行編碼獲得視覺(jué)特征。通過(guò)一個(gè)投影層,可以將視覺(jué)特征轉(zhuǎn)換成維度和大語(yǔ)言模型一致的視覺(jué)令牌。這些視覺(jué)令牌和輸入的自然語(yǔ)言令牌一起作為大語(yǔ)言模型的輸入來(lái)進(jìn)行推理。整個(gè)過(guò)程使用了和 LLaVA、Qwen 等多模態(tài)大語(yǔ)言模型類似的處理多模態(tài)數(shù)據(jù)的方法。
Sa2VA 使用了多模態(tài)大語(yǔ)言模型和分割模型分離的設(shè)計(jì),將預(yù)訓(xùn)練后的 SAM-2 模型和多模態(tài)大語(yǔ)言模型放在一起分別處理不同的特征,而不是將 SAM-2 模型的輸出送入多模態(tài)大語(yǔ)言模型。這種設(shè)計(jì)主要有三方面的考慮。第一,我們想讓整個(gè)模型盡可能的簡(jiǎn)單,而非引入過(guò)多的計(jì)算開(kāi)銷。第二,如果將 SAM-2 模型的輸出送入多模態(tài)語(yǔ)言大模型,將會(huì)引入更多的多模態(tài)大語(yǔ)言模型的輸入令牌,意味著更多的訓(xùn)練開(kāi)銷。第三,分離的設(shè)計(jì)可以更方便的使用不同種類的基礎(chǔ)模型,進(jìn)而使得基礎(chǔ)模型的進(jìn)展可以更方便的遷移到本工作。
Sa2VA 通過(guò)微調(diào) “[SEG]” 令牌的方式來(lái)連接多模態(tài)大語(yǔ)言模型和 SAM-2 模型。“[SEG]” 令牌對(duì)應(yīng)的隱藏狀態(tài)將作為 SAM-2 模型的一種新的提示詞。這種新的提示詞擁有對(duì)于時(shí)間和空間的理解。在 SAM-2 模型的解碼器中,“[SEG]” 令牌對(duì)應(yīng)的時(shí)空提示詞可以用來(lái)生成對(duì)應(yīng)的圖像或者視頻的分割結(jié)果。在訓(xùn)練的過(guò)程中 SAM-2 模型的解碼器可以被微調(diào)來(lái)理解 “[SEG]” 令牌對(duì)應(yīng)的提示詞。與此同時(shí),梯度也會(huì)通過(guò) “[SEG]” 令牌對(duì)應(yīng)的隱藏狀態(tài)傳遞到大語(yǔ)言模型中來(lái)使得大語(yǔ)言模型擁有生成時(shí)空提示詞的能力。
對(duì)于指代視頻物體分割任務(wù),Sa2VA 使用一個(gè)簡(jiǎn)單的框架來(lái)通過(guò) SAM-2 的能力取得較強(qiáng)的跟蹤和分割能力。整個(gè)過(guò)程從提取關(guān)鍵幀開(kāi)始。我們提取整個(gè)視頻中的前五幀作為關(guān)鍵幀。這些關(guān)鍵幀對(duì)應(yīng)的視覺(jué)令牌作為多模態(tài)大語(yǔ)言模型的輸入來(lái)生成 “[SEG]” 令牌。“[SEG]” 令牌對(duì)應(yīng)的提示詞可以直接用來(lái)生成關(guān)鍵幀的分割結(jié)果。使用這些分割結(jié)果,結(jié)合 SAM-2 模型中經(jīng)過(guò)預(yù)訓(xùn)練的記憶編碼器一起來(lái)生成剩余幀的分割結(jié)果。
Sa2VA 模型的訓(xùn)練方法
Sa2VA 將不同的任務(wù)統(tǒng)一成相同的表示以進(jìn)行建模。
(a)對(duì)于指代圖像物體分割,給定一段文本描述和圖像,模型將圖像轉(zhuǎn)換為視覺(jué)令牌,將文本轉(zhuǎn)換為文本令牌,模型最終輸出分割結(jié)果。(b)對(duì)于指代視頻物體分割任務(wù),給定一段文本描述和對(duì)應(yīng)的視頻,模型將視頻中的關(guān)鍵幀轉(zhuǎn)換為視覺(jué)令牌,將文本轉(zhuǎn)換為文本令牌,模型最終輸出每一幀的分割結(jié)果。(c)對(duì)于視頻和圖像對(duì)話以及關(guān)聯(lián)式圖像文字描述生成,模型將圖像或視頻轉(zhuǎn)換為視覺(jué)令牌,并將用戶輸入的文字轉(zhuǎn)換為文本令牌,模型最終輸出回答文本。對(duì)于關(guān)聯(lián)式描述生成,模型還將輸出和回答文本關(guān)聯(lián)的分割結(jié)果。(d) 對(duì)于視覺(jué)提示理解任務(wù),除了文本令牌和視覺(jué)令牌之外,模型進(jìn)一步將視覺(jué)提示轉(zhuǎn)換為視覺(jué)提示令牌。模型最終輸出回答文本,以及對(duì)應(yīng)的分割結(jié)果。
在有了對(duì)于不同任務(wù)的統(tǒng)一表示之后,借助于多模態(tài)大語(yǔ)言模型的靈活性,就可以將上述任務(wù)統(tǒng)一成一個(gè)單次的指令微調(diào)。多模態(tài)大語(yǔ)言模型將視覺(jué)將文本令牌、圖像或視頻的視覺(jué)令牌以及視覺(jué)提示令牌一起作為輸入,就可以生成文本輸出。在文本輸出中的 “[SEG]” 令牌對(duì)應(yīng)的提示詞就可以使用 SAM-2 模型輸出對(duì)應(yīng)的分割結(jié)果。
Sa2VA 在多個(gè)數(shù)據(jù)集上面進(jìn)行聯(lián)合訓(xùn)練。并對(duì)不同的任務(wù)使用不同的損失函數(shù)進(jìn)行監(jiān)督。對(duì)于 VQA 任務(wù),我們使用和之前多模態(tài)大語(yǔ)言模型相同的文本回歸損失函數(shù)。對(duì)于分割任務(wù),我們使用逐像素的交叉熵?fù)p失函數(shù)和 DICE 損失函數(shù)。由于已經(jīng)使用了預(yù)訓(xùn)練之后的多模態(tài)大語(yǔ)言模型,Sa2VA 無(wú)需進(jìn)行像之前工作一樣的預(yù)訓(xùn)練階段。
Ref-SAM-v Benchmark
此外,本文還提出了一個(gè)新的 Benchmark, Ref-SAM-2v 以及對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集。
對(duì)于掩碼數(shù)據(jù),我們是基于 SAM2 的中的開(kāi)源掩碼標(biāo)注,利用現(xiàn)有的領(lǐng)先的多模態(tài)大模型,去對(duì)每個(gè)跟蹤后的掩碼做目標(biāo)級(jí)別的描述信息生成。具體的數(shù)據(jù)集生成過(guò)程,可以參考我們的論文。
此外,我們的測(cè)試 benchmark 相比于之前的 Ref-VOS 數(shù)據(jù),更具有挑戰(zhàn)性。具體的數(shù)值結(jié)果可以參考我們的論文。
數(shù)值結(jié)果對(duì)比

從這個(gè)表格中,可以看到,我們的方法可以在 5 個(gè)不同的任務(wù)上取得領(lǐng)先的結(jié)果 (13 個(gè)公開(kāi)數(shù)據(jù)集)。

我們的方法在我們提出的 Ref-SAM-v 上也取得領(lǐng)先的結(jié)果,并大幅度領(lǐng)先現(xiàn)有的工作(zs 代表 zero-shot 測(cè)試)。
可視化結(jié)果展示
Sa2VA 可以實(shí)現(xiàn)多種任務(wù),包括圖像和視頻的 caption 生成、對(duì)話、指代對(duì)象分割、GCG、視覺(jué)指代物體 caption 等,下面是一些效果展示:
GCG 任務(wù):

圖像指代分割:

視覺(jué)指令輸入的理解:

視頻指代分割:

開(kāi)集結(jié)果測(cè)試
同時(shí) Sa2VA 還可以很好的擴(kuò)展到開(kāi)放場(chǎng)景中,下面是一些開(kāi)放場(chǎng)景下的電影或網(wǎng)絡(luò)視頻的效果展示。
左邊是輸入視頻,右邊是具體的結(jié)果,下側(cè)是文字相關(guān)的回答。
1、樸彩英 APT APT MV video
Question:Please segment the person wearing sunglasses.

Question:Please segment the singing girl.

2、新寶島,猛男舞團(tuán) Demo (Form 嗶哩嗶哩)
Question: Please locate and segment the man in center.

Question: What are these guys doing?
Answer: The guys in the video are dancing together in a group. They are performing a choreographed routine, moving in sync with each other.
3、愛(ài)樂(lè)之城 (La La Land, 2016)電影片段
Question: Please segment the girl wearing the yellow dress

Question: Please segment the main character.

4、教父 (The Godfathe, 1972)電影片段

Question: What is the atmosphere of the scene?
Answer: The scene has a dark and mysterious atmosphere, with the men dressed in suits and ties, and the dimly lit room.
Selected Frame:

Question: Can you describe what this man holding the cat is doing and how he feels?
Answer: The man in the image is holding a cat in his arms while sitting in a chair. He appears to be looking at the cat with a smile on his face, suggesting that he is enjoying the company of the cat and feeling happy.
Selected Frame:

Question: Can you describe what this man holding the cat is doing and how he feels?
Answer: The man holding the cat is sitting at a desk, and he appears to be in a state of distress. He is holding the cat in his hands, which suggests that he may be trying to comfort or soothe the animal. The man's facial expression and body language indicate that he is experiencing some level of emotional turmoil or discomfort. It is possible that he is feeling overwhelmed, anxious, or even angry. The fact that he is holding the cat in his hands suggests that he may be seeking solace or support from the animal. Overall, the image conveys a sense of tension and unease, as the man struggles to cope with his emotions while holding the cat.

Question: How are people feeling now?
Answer: The people are feeling happy and excited as they watch the band play music on stage.



































