国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

統(tǒng)一SAM2和LLaVA!字節(jié)豆包提出Dense Video多模態(tài)大模型Sa2VA

人工智能 新聞
研究者設(shè)計(jì)了一套統(tǒng)一的指令微調(diào)格式 (Instruction Tuning Pipeline),整合了五種不同的任務(wù),超過(guò) 20 個(gè)數(shù)據(jù)集一起進(jìn)行聯(lián)合訓(xùn)練。

在最近的一篇論文中,來(lái)自字節(jié)跳動(dòng)、北京大學(xué)等機(jī)構(gòu)的研究者提出了 Sa2VA。市面上第一個(gè)結(jié)合 SAM-2 和 LLaVA-like 的視頻多模態(tài)大模型,結(jié)合了 SAM-2 和 LLaVA 的優(yōu)勢(shì),實(shí)現(xiàn)了時(shí)空細(xì)粒度的理解。

圖片

  • 論文地址:https://arxiv.org/pdf/2501.04001
  • 項(xiàng)目主頁(yè):https://lxtgh.github.io/project/sa2va/
  • GitHub 地址:https://github.com/magic-research/Sa2VA

具體來(lái)說(shuō),研究者設(shè)計(jì)了一套統(tǒng)一的指令微調(diào)格式 (Instruction Tuning Pipeline),整合了五種不同的任務(wù),超過(guò) 20 個(gè)數(shù)據(jù)集一起進(jìn)行聯(lián)合訓(xùn)練。該模型在多個(gè)視頻理解和圖像理解,視頻指代分割和圖像指代分割的任務(wù)上均取得了領(lǐng)先的效果。

圖片

圖 1 Sa2VA 的能力。(a) 給定一個(gè)視頻, Sa2VA 能夠分割所指的對(duì)象并理解整個(gè)場(chǎng)景。(b) Sa2VA 在單詞指令追隨訓(xùn)練的情況下,支持圖像對(duì)話、視頻對(duì)話、圖像引用分割、視頻引用分割以及物體描述生成。(c) 與現(xiàn)有的 MLLM(例如 GLaMM 和 OMG-LLaVA)相比,Sa2VA 在多圖像、視頻引用分割和對(duì)話上取得了較好的表現(xiàn)(相比于之前的方法,我們的 model 可以在多個(gè)不同的視頻和圖像多模態(tài)任務(wù)上取得領(lǐng)先效果。)。

研究背景和動(dòng)機(jī)

近年來(lái),多模態(tài)大語(yǔ)言模型有了很大的進(jìn)展。多模態(tài)大語(yǔ)言模型現(xiàn)在支持圖像對(duì)話、視頻對(duì)話、圖像分析等多種任務(wù)。這些模型整合不同模態(tài)的數(shù)據(jù),展現(xiàn)了強(qiáng)大的泛化能力和應(yīng)用潛力。在實(shí)際應(yīng)用中,多模態(tài)大語(yǔ)言模型已經(jīng)能夠?qū)崿F(xiàn)圖像或視頻級(jí)別的各種復(fù)雜任務(wù)。通過(guò)人類輸入各種不同的指令,這些模型能夠根據(jù)具體任務(wù)生成精準(zhǔn)的響應(yīng)。例如,在視頻對(duì)話任務(wù)中,多模態(tài)大語(yǔ)言模型可以識(shí)別圖像中的關(guān)鍵要素,回答有關(guān)物體、場(chǎng)景的問(wèn)題。

在這些應(yīng)用中,我們主要關(guān)注細(xì)粒度的圖像和視頻理解。也就是給出自然語(yǔ)言或者視覺(jué)的指令,讓大語(yǔ)言模型輸出用戶關(guān)注的細(xì)粒度內(nèi)容。這樣人類就可以在視頻播放的過(guò)程中和多模態(tài)大語(yǔ)言模型進(jìn)行交互,而不是僅僅輸出一般的結(jié)果。然而,現(xiàn)有的感知模型或者多模態(tài)大語(yǔ)言模型都沒(méi)有辦法很好的完成這個(gè)任務(wù)。感知模型缺乏開(kāi)放世界的自然語(yǔ)言推理能力。例如 SAM-2 可以很好的從視覺(jué)提示出發(fā)對(duì)物體進(jìn)行分割,但無(wú)法對(duì)物體就行描述。而多模態(tài)大語(yǔ)言模型往往缺乏感知能力,尤其是缺乏視頻的分割能力。本工作旨在利用兩者的優(yōu)勢(shì)構(gòu)建一個(gè)統(tǒng)一的支持圖像、視頻細(xì)粒度感知以及對(duì)話、分析等任務(wù)的模型。

圖片

表格 1 Sa2VA 與之前模型的能力比較。Sa2VA 支持各種任務(wù)和模態(tài)。

在本工作中,我們提出了 Sa2VA,首次結(jié)合了 SAM-2 的感知能力和多模態(tài)大語(yǔ)言模型的推理能力來(lái)構(gòu)建統(tǒng)一的模型,并使用新的訓(xùn)練數(shù)據(jù)來(lái)使得整個(gè)模型具有額外的能力。我們將各種任務(wù)整合成一個(gè)單次的指令追隨訓(xùn)練。這些任務(wù)包括圖像和視頻 Referring Expression Segmentation (RES), Visual Question Answering (VQA), Grounded Conversation Generation (GCG) 等任務(wù)。我們的方法還支持視覺(jué)提示輸入來(lái)指定物體。我們的核心觀點(diǎn)是將所有的圖像、視頻、文字或指令輸入統(tǒng)一成令牌而不分別進(jìn)行設(shè)計(jì)。這種方式可以讓 Sa2VA 支持上述所有任務(wù)的聯(lián)合訓(xùn)練。通過(guò)單次的指令追隨訓(xùn)練,我們的 Sa2VA 可以僅僅使用一種參數(shù)來(lái)來(lái)實(shí)現(xiàn)上述所有任務(wù)。

方法設(shè)計(jì)

圖片

圖 2 Sa2VA 的模型結(jié)構(gòu)。Sa2VA 首先將輸入的文本、視覺(jué)提示、圖像和視頻編碼為令牌嵌入。然后通過(guò)大型語(yǔ)言模型 (LLM) 處理這些令牌。輸出的文本令牌用于生成 [SEG] 令牌和相關(guān)的語(yǔ)言輸出。SAM-2 解碼器從 SAM-2 編碼器接收?qǐng)D像和視頻特征以及 [SEG] 令牌,以生成相應(yīng)的圖像和視頻分割結(jié)果。

Sa2VA 模型具體實(shí)現(xiàn)

Sa2VA 主要包括兩部分,第一部分是多模態(tài)大語(yǔ)言模型,第二部分是 SAM-2 模型。

Sa2VA 的多模態(tài)大語(yǔ)言模型部分使用了已經(jīng)經(jīng)過(guò)預(yù)訓(xùn)練的模型。主要包括一個(gè)視覺(jué)編碼器,來(lái)對(duì)圖片、視頻或部分圖片進(jìn)行編碼獲得視覺(jué)特征。通過(guò)一個(gè)投影層,可以將視覺(jué)特征轉(zhuǎn)換成維度和大語(yǔ)言模型一致的視覺(jué)令牌。這些視覺(jué)令牌和輸入的自然語(yǔ)言令牌一起作為大語(yǔ)言模型的輸入來(lái)進(jìn)行推理。整個(gè)過(guò)程使用了和 LLaVA、Qwen 等多模態(tài)大語(yǔ)言模型類似的處理多模態(tài)數(shù)據(jù)的方法。

Sa2VA 使用了多模態(tài)大語(yǔ)言模型和分割模型分離的設(shè)計(jì),將預(yù)訓(xùn)練后的 SAM-2 模型和多模態(tài)大語(yǔ)言模型放在一起分別處理不同的特征,而不是將 SAM-2 模型的輸出送入多模態(tài)大語(yǔ)言模型。這種設(shè)計(jì)主要有三方面的考慮。第一,我們想讓整個(gè)模型盡可能的簡(jiǎn)單,而非引入過(guò)多的計(jì)算開(kāi)銷。第二,如果將 SAM-2 模型的輸出送入多模態(tài)語(yǔ)言大模型,將會(huì)引入更多的多模態(tài)大語(yǔ)言模型的輸入令牌,意味著更多的訓(xùn)練開(kāi)銷。第三,分離的設(shè)計(jì)可以更方便的使用不同種類的基礎(chǔ)模型,進(jìn)而使得基礎(chǔ)模型的進(jìn)展可以更方便的遷移到本工作。

Sa2VA 通過(guò)微調(diào) “[SEG]” 令牌的方式來(lái)連接多模態(tài)大語(yǔ)言模型和 SAM-2 模型。“[SEG]” 令牌對(duì)應(yīng)的隱藏狀態(tài)將作為 SAM-2 模型的一種新的提示詞。這種新的提示詞擁有對(duì)于時(shí)間和空間的理解。在 SAM-2 模型的解碼器中,“[SEG]” 令牌對(duì)應(yīng)的時(shí)空提示詞可以用來(lái)生成對(duì)應(yīng)的圖像或者視頻的分割結(jié)果。在訓(xùn)練的過(guò)程中 SAM-2 模型的解碼器可以被微調(diào)來(lái)理解 “[SEG]” 令牌對(duì)應(yīng)的提示詞。與此同時(shí),梯度也會(huì)通過(guò) “[SEG]” 令牌對(duì)應(yīng)的隱藏狀態(tài)傳遞到大語(yǔ)言模型中來(lái)使得大語(yǔ)言模型擁有生成時(shí)空提示詞的能力。

對(duì)于指代視頻物體分割任務(wù),Sa2VA 使用一個(gè)簡(jiǎn)單的框架來(lái)通過(guò) SAM-2 的能力取得較強(qiáng)的跟蹤和分割能力。整個(gè)過(guò)程從提取關(guān)鍵幀開(kāi)始。我們提取整個(gè)視頻中的前五幀作為關(guān)鍵幀。這些關(guān)鍵幀對(duì)應(yīng)的視覺(jué)令牌作為多模態(tài)大語(yǔ)言模型的輸入來(lái)生成 “[SEG]” 令牌。“[SEG]” 令牌對(duì)應(yīng)的提示詞可以直接用來(lái)生成關(guān)鍵幀的分割結(jié)果。使用這些分割結(jié)果,結(jié)合 SAM-2 模型中經(jīng)過(guò)預(yù)訓(xùn)練的記憶編碼器一起來(lái)生成剩余幀的分割結(jié)果。

Sa2VA 模型的訓(xùn)練方法

Sa2VA 將不同的任務(wù)統(tǒng)一成相同的表示以進(jìn)行建模。

(a)對(duì)于指代圖像物體分割,給定一段文本描述和圖像,模型將圖像轉(zhuǎn)換為視覺(jué)令牌,將文本轉(zhuǎn)換為文本令牌,模型最終輸出分割結(jié)果。(b)對(duì)于指代視頻物體分割任務(wù),給定一段文本描述和對(duì)應(yīng)的視頻,模型將視頻中的關(guān)鍵幀轉(zhuǎn)換為視覺(jué)令牌,將文本轉(zhuǎn)換為文本令牌,模型最終輸出每一幀的分割結(jié)果。(c)對(duì)于視頻和圖像對(duì)話以及關(guān)聯(lián)式圖像文字描述生成,模型將圖像或視頻轉(zhuǎn)換為視覺(jué)令牌,并將用戶輸入的文字轉(zhuǎn)換為文本令牌,模型最終輸出回答文本。對(duì)于關(guān)聯(lián)式描述生成,模型還將輸出和回答文本關(guān)聯(lián)的分割結(jié)果。(d) 對(duì)于視覺(jué)提示理解任務(wù),除了文本令牌和視覺(jué)令牌之外,模型進(jìn)一步將視覺(jué)提示轉(zhuǎn)換為視覺(jué)提示令牌。模型最終輸出回答文本,以及對(duì)應(yīng)的分割結(jié)果。

在有了對(duì)于不同任務(wù)的統(tǒng)一表示之后,借助于多模態(tài)大語(yǔ)言模型的靈活性,就可以將上述任務(wù)統(tǒng)一成一個(gè)單次的指令微調(diào)。多模態(tài)大語(yǔ)言模型將視覺(jué)將文本令牌、圖像或視頻的視覺(jué)令牌以及視覺(jué)提示令牌一起作為輸入,就可以生成文本輸出。在文本輸出中的 “[SEG]” 令牌對(duì)應(yīng)的提示詞就可以使用 SAM-2 模型輸出對(duì)應(yīng)的分割結(jié)果。

Sa2VA 在多個(gè)數(shù)據(jù)集上面進(jìn)行聯(lián)合訓(xùn)練。并對(duì)不同的任務(wù)使用不同的損失函數(shù)進(jìn)行監(jiān)督。對(duì)于 VQA 任務(wù),我們使用和之前多模態(tài)大語(yǔ)言模型相同的文本回歸損失函數(shù)。對(duì)于分割任務(wù),我們使用逐像素的交叉熵?fù)p失函數(shù)和 DICE 損失函數(shù)。由于已經(jīng)使用了預(yù)訓(xùn)練之后的多模態(tài)大語(yǔ)言模型,Sa2VA 無(wú)需進(jìn)行像之前工作一樣的預(yù)訓(xùn)練階段。

Ref-SAM-v Benchmark

此外,本文還提出了一個(gè)新的 Benchmark, Ref-SAM-2v 以及對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集。

對(duì)于掩碼數(shù)據(jù),我們是基于 SAM2 的中的開(kāi)源掩碼標(biāo)注,利用現(xiàn)有的領(lǐng)先的多模態(tài)大模型,去對(duì)每個(gè)跟蹤后的掩碼做目標(biāo)級(jí)別的描述信息生成。具體的數(shù)據(jù)集生成過(guò)程,可以參考我們的論文。

此外,我們的測(cè)試 benchmark 相比于之前的 Ref-VOS 數(shù)據(jù),更具有挑戰(zhàn)性。具體的數(shù)值結(jié)果可以參考我們的論文。

數(shù)值結(jié)果對(duì)比

圖片

從這個(gè)表格中,可以看到,我們的方法可以在 5 個(gè)不同的任務(wù)上取得領(lǐng)先的結(jié)果 (13 個(gè)公開(kāi)數(shù)據(jù)集)。

我們的方法在我們提出的 Ref-SAM-v 上也取得領(lǐng)先的結(jié)果,并大幅度領(lǐng)先現(xiàn)有的工作(zs 代表 zero-shot 測(cè)試)。

可視化結(jié)果展示

Sa2VA 可以實(shí)現(xiàn)多種任務(wù),包括圖像和視頻的 caption 生成、對(duì)話、指代對(duì)象分割、GCG、視覺(jué)指代物體 caption 等,下面是一些效果展示:

GCG 任務(wù):

圖片

圖像指代分割:

圖片

視覺(jué)指令輸入的理解:

圖片

視頻指代分割:

圖片

開(kāi)集結(jié)果測(cè)試

同時(shí) Sa2VA 還可以很好的擴(kuò)展到開(kāi)放場(chǎng)景中,下面是一些開(kāi)放場(chǎng)景下的電影或網(wǎng)絡(luò)視頻的效果展示。

左邊是輸入視頻,右邊是具體的結(jié)果,下側(cè)是文字相關(guān)的回答。

1、樸彩英 APT APT MV video

Question:Please segment the person wearing sunglasses.

Question:Please segment the singing girl.

2、新寶島,猛男舞團(tuán) Demo (Form 嗶哩嗶哩)

Question: Please locate and segment the man in center.

Question: What are these guys doing?

Answer: The guys in the video are dancing together in a group. They are performing a choreographed routine, moving in sync with each other.

3、愛(ài)樂(lè)之城 (La La Land, 2016)電影片段

Question: Please segment the girl wearing the yellow dress

Question: Please segment the main character.

4、教父 (The Godfathe, 1972)電影片段

Question: What is the atmosphere of the scene?


Answer: The scene has a dark and mysterious atmosphere, with the men dressed in suits and ties, and the dimly lit room.


Selected Frame:


圖片

Question: Can you describe what this man holding the cat is doing and how he feels?

Answer: The man in the image is holding a cat in his arms while sitting in a chair. He appears to be looking at the cat with a smile on his face, suggesting that he is enjoying the company of the cat and feeling happy.

Selected Frame:

圖片

Question: Can you describe what this man holding the cat is doing and how he feels?

Answer: The man holding the cat is sitting at a desk, and he appears to be in a state of distress. He is holding the cat in his hands, which suggests that he may be trying to comfort or soothe the animal. The man's facial expression and body language indicate that he is experiencing some level of emotional turmoil or discomfort. It is possible that he is feeling overwhelmed, anxious, or even angry. The fact that he is holding the cat in his hands suggests that he may be seeking solace or support from the animal. Overall, the image conveys a sense of tension and unease, as the man struggles to cope with his emotions while holding the cat.

Question: How are people feeling now?

Answer: The people are feeling happy and excited as they watch the band play music on stage.


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-12-28 17:31:44

PixelLM性能模型

2025-01-06 10:00:00

模型視覺(jué)生成

2024-09-09 10:00:00

模型訓(xùn)練

2024-12-31 15:18:42

2025-02-06 11:00:00

機(jī)器人感知機(jī)器人深度學(xué)習(xí)

2025-03-04 09:50:00

2025-01-08 08:21:16

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2025-01-13 03:00:00

模型數(shù)據(jù)訓(xùn)練

2024-10-14 14:10:00

大模型AI開(kāi)源

2025-11-05 08:51:33

2023-05-30 10:23:45

模型研究

2024-11-13 09:39:13

2023-06-05 10:09:03

研究人工智能

2023-07-17 11:02:36

模型開(kāi)源

2025-11-17 08:49:00

2025-06-09 08:50:00

2024-11-11 15:11:23

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

五月婷婷狠狠操| 大地资源网3页在线观看| 久久久久久久久丰满| 日韩美一区二区三区| 国产天堂av| 成人免费高清在线观看| 成人免费在线一区二区三区| 亚洲欧美一级| 欧美日本在线播放| 国产美女被遭强高潮免费网站| 国产精品一二三| 久久99精品久久久久久青青日本| 北条麻妃一区二区三区在线| 精品网站999www| 成a人v在线播放| 亚洲一级二级三级在线免费观看| 大陆极品少妇内射aaaaa| 国产999精品久久久久久绿帽| 波多野结衣视频一区| 精品乱码一区二区三区| 精品一区二区三| 欧美高清电影在线看| 筱崎爱全乳无删减在线观看| 欧美日韩精品一区二区三区四区| 男女小视频在线观看| 久久精品亚洲麻豆av一区二区| 永久免费精品视频网站| 黄色工厂这里只有精品| 国产精品十八以下禁看| 美腿丝袜亚洲图片| 久久久久久久久久久久av| av软件在线观看| 色系列之999| av小说在线| 中文字幕一区二区三区在线观看 | 欧美不卡视频一区发布| 成年人在线网站| 日韩精品在线网站| 国产cdts系列另类在线观看| 欧美日韩免费一区二区三区视频| 草久在线视频| 亚洲国产精品人人做人人爽| 国模私拍视频| 亚洲1区2区3区视频| 天海翼一区二区三区四区在线观看 | 国产精品综合一区二区三区| 欧美日韩电影一区二区| 亚洲大片av| 丝袜美腿玉足3d专区一区| 免费人成精品欧美精品| 日韩 欧美 自拍| 成人激情综合网站| 97在线免费公开视频| 国产女主播视频一区二区| www.99在线| 亚洲午夜久久久| 欧美色综合一区二区三区| 欧美日韩国产另类不卡| av影片在线| 久久影视电视剧免费网站| 亚洲毛片在线免费| 欧美自拍视频在线观看| 国产精品久久久久久久久久10秀 | 成人免费网站在线观看| 日本女优北野望在线电影| 国产日韩一级二级三级| 缴情综合网五月天| 亚洲地区一二三色| 91精品国产91久久久久游泳池| 欧美色图在线观看| 岛国毛片av在线| 日韩视频欧美视频| 久久这里只有精品一区二区| 国产精品免费看久久久香蕉| 亚洲人成高清| 女人床在线观看| 欧美国产精品久久| 日本私人网站在线观看| 亚洲大尺度美女在线| 国产专区精品| 97人人香蕉| 国产一区二区成人久久免费影院 | 在线观看av黄网站永久| 日韩电影第一页| 成人av婷婷| 国产美女在线精品免费观看| 久久99在线观看| 97福利电影| 欧美第一区第二区| 精品国内亚洲2022精品成人| 成人有码视频在线播放| 久久99国产乱子伦精品免费| 91视频免费版污| 欧美午夜电影一区| 欧美性生活一级| 成人a在线观看| 国产a久久麻豆| 中文字幕在线播放第一页| 日韩高清av一区二区三区| 婷婷五月色综合香五月| 日本一区二区三区精品视频| 国产日韩精品一区二区三区 | 亚洲成人男人天堂| 亚洲男人7777| 色777狠狠狠综合伊人| 中文字幕av日韩精品| 中文字幕一区二区三区乱码在线 | 亚洲制服av| 黑人粗进入欧美aaaaa| 欧美三级三级三级爽爽爽| 一区二区中文字幕在线观看| 蜜桃导航-精品导航| 亚洲色图欧美偷拍| 成人日韩在线| 免费日韩电影在线观看| 亚洲男人天堂av网| 97精品国产综合久久久动漫日韩 | 精品视频一区在线| 亚洲人被黑人高潮完整版| 性欧美18xxxhd| 91视频网页| 亚洲视频一二区| 国产亚洲欧美日韩精品一区二区三区 | 国产乱码精品一区二区三| 天天射综合网站| 在线成人一区二区| 久久午夜av| eeuss影院www在线播放| 全亚洲最色的网站在线观看| 成人av在线播放网址| 香蕉成人app免费看片| 91久久久国产精品| 亚洲欧美日韩中文播放| 国产一区二区av在线| 亚洲啊啊啊啊啊| 精品国产一区二区三区忘忧草 | 国产mv免费观看入口亚洲| 国产一区二区福利视频| 成年人黄视频在线观看| 91在线播放视频| 亚洲欧洲偷拍精品| 久久精品一区二区不卡| 五月婷婷之综合激情| 中文字幕亚洲一区二区三区五十路| 国产免费成人| 成人午夜影视| 91香蕉国产在线观看| 亚洲在线视频网站| 婷婷综合一区| 成年人黄色电影| 97在线视频免费播放| 欧美激情在线观看视频免费| 日本一区二区三区中文字幕| 国产成人一区二区三区别| 国产视频久久久久| 韩国女主播成人在线| 松下纱荣子在线观看| 自拍偷拍99| 亚洲欧美一区二区激情| 精品一二三四区| 卡通欧美亚洲| 国产亚洲精品久久久久久久| 日韩成人av一区| 国产精品自拍网站| 色豆豆成人网| 欧美污视频网站| 久久久久成人精品| 亚洲免费av在线| 999成人精品视频线3| 青青青手机在线视频观看| 成人国产一区二区| 欧美精品视频www在线观看| 香蕉国产精品偷在线观看不卡| 色噜噜狠狠狠综合欧洲色8| 亚洲最新在线| 一二美女精品欧洲| 国产亚洲一区二区三区在线观看| 99精品国产高清一区二区麻豆| 欧美日韩一区二区三区69堂| 91av视频在线观看| 欧美日韩在线看| 亚洲国产免费看| sm在线观看| 无码人妻丰满熟妇区毛片18| 欧美精品videossex88| 亚洲色大成网站www久久九九| 日韩在线中文| 污污片在线免费视频| 国产日韩av网站| 国产91精品最新在线播放| 色老汉一区二区三区| 日本中文一区二区三区| 日韩精品一页| 啦啦啦啦免费高清视频在线观看1| 国产精品二区三区四区| 亚洲精品久久久久久久久久久久| 91一区二区三区在线播放| 欧美伦理影院| 老司机精品视频在线观看6| 热久久最新网址|