国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

字節(jié)多模態(tài)大模型PixelLM:高效像素級(jí)推理,無(wú)需依賴SA

人工智能
研究團(tuán)隊(duì)在三個(gè)benchmark上評(píng)測(cè)了PixelLM的性能,包括MUSE benchmark, referring segmentation benchmark,以及multi-referring segmentation benchmark. 在multi-referring segmentation benchmark中,研究團(tuán)隊(duì)要求模型在一個(gè)問題中連續(xù)地分割出referring segme

多模態(tài)大模型爆發(fā),準(zhǔn)備好進(jìn)入圖像編輯、自動(dòng)駕駛和機(jī)器人技術(shù)等細(xì)粒度任務(wù)中實(shí)際應(yīng)用了嗎?

目前大多數(shù)模型的能力還是局限于生成對(duì)整體圖像或特定區(qū)域的文本描述,在像素級(jí)理解方面的能力(例如物體分割)相對(duì)有限。

針對(duì)這個(gè)問題,一些工作開始探索借助多模態(tài)大模型來(lái)處理用戶的分割指令(例如,“請(qǐng)分割出圖片中富含維生素C的水果”)。

然而,市面上的方法都存在兩個(gè)主要缺點(diǎn):

1) 無(wú)法處理涉及多個(gè)目標(biāo)對(duì)象的任務(wù),而這在現(xiàn)實(shí)世界場(chǎng)景中是不可或缺的;

2) 依賴于像SAM這樣的預(yù)訓(xùn)練圖像分割模型,而SAM的一次前向傳播需要的計(jì)算量已經(jīng)足夠 Llama-7B產(chǎn)生500多個(gè)token了。

為了解決此問題,字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)聯(lián)合北京交通大學(xué)、北京科技大學(xué)的研究人員提出了首個(gè)無(wú)需依賴SAM的高效像素級(jí)推理大模型PixelLM。

在具體介紹它之前,先來(lái)體驗(yàn)幾組PixelLM實(shí)際分割的效果:

相比之前的工作,PixelLM的優(yōu)勢(shì)在于:

  • 能夠熟練處理任意數(shù)量的開放域目標(biāo)和多樣化的復(fù)雜推理分割任務(wù)。
  • 避免了額外的、成本高昂的分割模型,提升了效率和對(duì)不同應(yīng)用的遷移能力。

進(jìn)一步,為了支持這一研究領(lǐng)域的模型訓(xùn)練和評(píng)估,研究團(tuán)隊(duì)在LVIS數(shù)據(jù)集的基礎(chǔ)之上,借助GPT-4V構(gòu)建了一個(gè)面向多目標(biāo)推理分割場(chǎng)景的數(shù)據(jù)集MUSE,它包含20萬(wàn)個(gè)以上的問題-答案對(duì),涉及90萬(wàn)個(gè)以上的實(shí)例分割掩碼。

圖片

圖片

為了實(shí)現(xiàn)上述的效果,這項(xiàng)研究具體是如何做的呢?

背后原理

圖片圖片

如論文中的框架圖所示,PixelLM架構(gòu)十分簡(jiǎn)潔,包括四個(gè)主要部分,后兩者是PixelLM的核心:

  1. 預(yù)訓(xùn)練的CLIP-ViT視覺編碼器
  2. 大語(yǔ)言模型
  3. 輕量級(jí)像素解碼器
  4. 分割碼表 Seg Codebook

Seg codebook包含可學(xué)習(xí)的tokens,它們用于編碼CLIP-ViT不同尺度上的目標(biāo)信息。然后,像素解碼器基于這些tokens和CLIP-ViT的圖像特征生成目標(biāo)分割結(jié)果。得益于這種設(shè)計(jì),PixelLM可以在沒有外部分割模型的情況下生成高質(zhì)量的分割結(jié)果,顯著提高了模型效率。

根據(jù)研究人員的描述,Seg codebook內(nèi)的tokens可分為L(zhǎng)組,每一組包含N個(gè)token,每個(gè)組對(duì)應(yīng)于來(lái)自CLIP-ViT視覺特征的一個(gè)尺度。

對(duì)于輸入的圖像,PixelLM從CLIP-ViT視覺編碼器產(chǎn)的圖像特征中提取出L個(gè)尺度的特征,其中最后一層涵蓋了全局圖像信息,會(huì)被LLM用作理解圖像內(nèi)容。

Seg codebook的tokens將會(huì)與文本指令及最后一層圖像特征一起輸入LLM中,以自回歸的形式產(chǎn)生輸出。而輸出中也將包含經(jīng)過(guò)LLM處理后的Seg codebook tokens,它們將與L個(gè)尺度的CLIP-ViT特征一起輸入到像素解碼器中產(chǎn)生最終的分割結(jié)果。

圖片圖片

圖片圖片

那么為什么還要設(shè)置每組包含N個(gè)token呢?研究人員結(jié)合下圖進(jìn)行了解釋:

在涉及多個(gè)目標(biāo)或目標(biāo)所包含的語(yǔ)義十分復(fù)雜的情景中,盡管LLM可以提供詳細(xì)的文本響應(yīng),但僅使用單個(gè)token可能無(wú)法充分捕捉目標(biāo)語(yǔ)義的全部?jī)?nèi)容。

為了增強(qiáng)模型在復(fù)雜推理情景下的能力,研究人員在每個(gè)尺度組內(nèi)引入多個(gè)token,并執(zhí)行一個(gè)token的線性融合操作。在token傳入解碼器之前,使用線性投影層將每個(gè)分組內(nèi)的token合并。

下圖展示了每組內(nèi)多個(gè)token時(shí)的效果。注意力圖是每個(gè)token經(jīng)過(guò)解碼器處理后的樣子,這個(gè)可視化結(jié)果表明,多個(gè)token提供了獨(dú)特且互補(bǔ)的信息,從而實(shí)現(xiàn)了更有效的分割輸出。

圖片圖片

此外,為了增強(qiáng)模型區(qū)分多個(gè)目標(biāo)的能力,PixelLM還額外設(shè)計(jì)了一個(gè)Target Refinement Loss。

MUSE數(shù)據(jù)集

盡管已經(jīng)提出了上述解決方案,但為了充分發(fā)揮模型的能力,模型仍然需要適當(dāng)?shù)挠?xùn)練數(shù)據(jù)。回顧目前可用的公開數(shù)據(jù)集,發(fā)現(xiàn)現(xiàn)有的數(shù)據(jù)存在以下主要限制:

1) 對(duì)物體細(xì)節(jié)的描述不夠充足;
2) 缺乏具有復(fù)雜推理和多種目標(biāo)數(shù)量的問題-答案對(duì)。

為了解決這些問題,研究團(tuán)隊(duì)借助GPT-4V構(gòu)建了一個(gè)自動(dòng)化的數(shù)據(jù)標(biāo)注流水線,并由此產(chǎn)生了MUSE數(shù)據(jù)集。下圖展示了MUSE生成時(shí)所用到的Prompt及產(chǎn)生的數(shù)據(jù)示例。

圖片圖片

在MUSE中,所有實(shí)例掩碼都來(lái)自LVIS數(shù)據(jù)集,并且額外添加了根據(jù)圖像內(nèi)容生成的詳細(xì)文本描述。MUSE包含了24.6萬(wàn)個(gè)問題-答案對(duì),每個(gè)問題-答案對(duì)平均涉及3.7個(gè)目標(biāo)物體。此外,研究團(tuán)隊(duì)對(duì)數(shù)據(jù)集進(jìn)行了詳盡的統(tǒng)計(jì)分析:

類別統(tǒng)計(jì):MUSE中有來(lái)自原始LVIS數(shù)據(jù)集的1000多個(gè)類別,以及90萬(wàn)個(gè)具有獨(dú)特描述的實(shí)例,這些描述基于問題-答案對(duì)的上下文而變化。圖(a)顯示了所有問題-答案對(duì)中每個(gè)類別的實(shí)例數(shù)量。

Token數(shù)目統(tǒng)計(jì):圖(b)展示了實(shí)例描述的token數(shù)目分布,其中有的實(shí)例描述包含了超過(guò)100個(gè)tokens。這些描述不僅限于簡(jiǎn)單的類別名稱;相反,它們通過(guò)基于GPT-4V的數(shù)據(jù)生成流程,大量豐富了每個(gè)實(shí)例的詳細(xì)信息,涵蓋了外觀、屬性和與其他對(duì)象的關(guān)系等。數(shù)據(jù)集中信息的深度和多樣性增強(qiáng)了訓(xùn)練模型的泛化能力,使其能夠有效地解決開放域問題。

目標(biāo)數(shù)目統(tǒng)計(jì):圖(c)展示了每個(gè)問題-答案對(duì)中目標(biāo)數(shù)量的統(tǒng)計(jì)數(shù)據(jù)。平均目標(biāo)數(shù)量為3.7,最大目標(biāo)數(shù)量可達(dá)34個(gè)。這個(gè)數(shù)字可以覆蓋單個(gè)圖像的大多數(shù)目標(biāo)推理場(chǎng)景。

算法測(cè)評(píng)

研究團(tuán)隊(duì)在三個(gè)benchmark上評(píng)測(cè)了PixelLM的性能,包括MUSE benchmark, referring segmentation benchmark,以及multi-referring segmentation benchmark. 在multi-referring segmentation benchmark中,研究團(tuán)隊(duì)要求模型在一個(gè)問題中連續(xù)地分割出referring segmentation benchmark中每幅圖像包含的多個(gè)目標(biāo)。

同時(shí),由于PixelLM是首個(gè)處理涉及多目標(biāo)復(fù)雜像素推理任務(wù)的模型,研究團(tuán)隊(duì)建立了四個(gè)baseline以對(duì)模型進(jìn)行比較分析。

其中三個(gè)baseline基于與PixelLM最相關(guān)工作LISA,包括:

1)原始的LISA;

2)LISA_rec: 先將問題輸入LLAVA-13B以得到目標(biāo)的文本回復(fù),再用LISA分割這些文本;

3)LISA_aug:直接將MUSE加入LISA的訓(xùn)練數(shù)據(jù)。

4) 另外一個(gè)則是不使用LLM的通用分割模型SEEM。

圖片圖片

在三個(gè)benchmark的絕大多數(shù)指標(biāo)上,PixelLM的性能均優(yōu)于其他方法,且由于PixelLM不依賴于SAM,其TFLOPs遠(yuǎn)遠(yuǎn)低于同尺寸的模型。

感興趣的小伙伴可以先關(guān)注一波,坐等代碼開源了~

參考鏈接:
[1]https://arxiv.org/abs/2312.02228
[2]https://pixellm.github.io/

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-01-08 08:21:16

2025-10-17 09:08:05

2025-07-22 10:15:44

2025-05-21 08:47:00

2025-02-12 13:31:33

2025-06-10 03:30:00

2025-06-27 08:40:00

模型推理AI

2025-09-16 09:35:52

2024-12-18 18:57:58

2024-11-13 09:39:13

2025-01-13 03:00:00

模型數(shù)據(jù)訓(xùn)練

2025-11-11 08:45:00

2025-05-23 09:18:25

2024-09-23 08:20:00

模型訓(xùn)練

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-09-25 14:53:00

2025-05-16 09:10:00

2023-06-06 14:09:32

模型開源

2024-11-11 15:11:23

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

精品成人18| 91涩漫在线观看| 小处雏高清一区二区三区| 国产 高清 精品 在线 a| 日本超碰在线观看| 免费男女羞羞的视频网站主页在线观看 | 久久久精品免费网站| 成人久久一区二区| 99精品国产九九国产精品| 555www色欧美视频| 国产福利电影在线观看| 成人91在线观看| 日韩视频在线播放| 欧美不卡视频| 国产精品电影观看| 久久97久久97精品免视看秋霞| 亚洲男人天堂网| 免费在线观看av网站| 精品国产31久久久久久| 国产九九在线视频| 91性感美女视频| 性生活免费观看视频| 久久久国产精品一区二区中文| 国产精品三级网站| 影视先锋久久| 欧美亚洲第一页| 欧美大片1688网站| 亚洲欧美激情四射在线日| 国产经典三级在线| 日韩欧美一级二级三级久久久| 亚洲精品视频在线免费| 亚洲国产va精品久久久不卡综合| 九热视频在线观看| 国产亚洲精品福利| 欧美色图另类小说| 国产女人aaa级久久久级| 国内精品在线观看视频| 不卡视频在线看| 久久久久久免费看| 国产精品一区久久久久| av在线免费观看国产| 高清国产一区二区三区| 日本黄色片一级片| 91美女片黄在线| 亚洲一区二区蜜桃| 17c精品麻豆一区二区免费| 九色视频网站| 高跟丝袜欧美一区| av在线免费观看网| 日韩欧美国产精品| 成人av观看| 日韩一区二区av| 日韩成人视屏| 国产999精品久久久| 亚洲国产精品91| 鲁鲁视频www一区二区| 热久久免费视频| 亚洲一区二区在| 久久免费影院| 久久影视电视剧免费网站| 成人午夜sm精品久久久久久久| 亚洲欧洲日本专区| 欧美成人黄色| 久久久久久97| 99热在线成人| 国产在线资源一区| 免费在线一区观看| 黄色成人在线看| 亚洲欧洲成人精品av97| 国内福利写真片视频在线| 在线免费观看一区| av老司机免费在线| 久久伊人色综合| 超碰成人久久| 精品视频导航| 成人性生交大片免费| 激情小说激情视频| 欧美性色欧美a在线播放| 欧美人体视频xxxxx| 久久久成人av| 久久成人综合| 亚洲国产一区二区三区在线| 99视频超级精品| 全部孕妇毛片丰满孕妇孕交| 欧美三级韩国三级日本一级| 中文字幕乱码在线播放| 亚洲2020天天堂在线观看| 在线高清一区| 午夜免费福利小电影| 亚洲成人av在线电影| 精品精品导航| 4444欧美成人kkkk| 久久精品官网| 亚洲激情在线观看视频| 在线观看亚洲专区| 欧美日韩尤物久久| 国产精品xxx视频| 免费成人在线影院| 中文字幕免费中文| 日韩免费在线观看| 日本在线中文字幕一区| 久久久久久久久久久久久久一区| 91亚洲国产成人精品一区二区三| 一区二区三区高清在线视频 | 91在线免费看网站| 国产精品一区免费在线观看| 欧美13~18sex性hd| 日韩av在线资源| 亚洲黄页网站| 国风产精品一区二区| 欧美午夜精品久久久久久浪潮| 性国裸体高清亚洲| 成人久久久久爱| 国产亚洲精品bt天堂精选| 麻豆传媒视频在线观看免费| 97久久精品在线| 狠狠色狠狠色综合日日91app| 一本免费视频| 中文字幕国产亚洲| 亚洲一本二本| 波多野结衣在线中文| 在线日韩欧美视频| 亚洲综合99| 久草电影在线| 国语自产精品视频在线看一大j8| 热久久免费视频| 国产三级在线免费| 青草青草久热精品视频在线观看| 高清av一区二区| 国产在线高清视频| 99三级在线| 亚洲福利视频三区| 国产成人高清精品免费5388| 国产精品亚洲天堂| 欧美精品日日鲁夜夜添| 99成人超碰| 香港日本韩国三级| 欧美亚洲视频一区二区| 91看片淫黄大片一级| av在线不卡精品| 国产成人三级视频| 亚洲国产精品va在线看黑人动漫| 午夜电影亚洲| 午夜视频在线免费| 日韩av免费在线播放| 国产丝袜在线精品| 亚洲精品乱码日韩| 欧美色图色综合| 色婷婷综合成人av| 国产ts人妖一区二区| 麻豆mv在线看| 艳色歌舞团一区二区三区| 日韩一区二区精品葵司在线| 91久久午夜| 日本在线免费| 美日韩免费视频| 欧美日韩国产免费一区二区 | 日韩欧美综合在线视频| 国产精品探花在线观看| 天天操,天天操| 国内精品视频一区| 国产精品久久久久久久久久免费看 | 午夜精品久久久久| 精品日韩欧美一区| 日韩精品免费视频人成| 精品理论电影| 欧美性aaa| 免费一区二区三区视频导航| 精品3atv在线视频| av天在线播放| 国产伦精品一区二区三区四区视频_| 亚洲一区999| proumb性欧美在线观看| 曰本一区二区三区视频| aaa国产精品| av福利在线导航| 欧美国产日韩激情| 91高清视频免费观看| 欧美精品一区二区精品网| 国产一区二区不卡| 国产精品99| 116美女写真午夜一级久久| 国产女人18毛片水18精品| 国产成人精品一区二区三区四区 | 性欧美.com| 亚洲精品一区av在线播放| 成人激情校园春色| 4438全国亚洲精品观看视频| 伊人资源视频在线| 韩日午夜在线资源一区二区| 精品国产乱码久久久久久牛牛 | 亚洲精品视频在线播放| 国内免费精品永久在线视频| 亚洲免费高清视频| 国产精品美女久久久久久2018| 蜜芽一区二区三区| 久操国产精品| 天堂√在线中文官网在线| 久久久水蜜桃| 久久久久久18|