国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

多模態(tài)大模型首次實現(xiàn)像素級推理!3B參數(shù)超越72B傳統(tǒng)模型,NeurIPS 2025收錄

人工智能 新聞
來自香港理工大學(xué)和騰訊ARC Lab的研究團(tuán)隊提出了首個統(tǒng)一的像素級多模態(tài)大模型——UniPixel。

多模態(tài)大模型首次實現(xiàn)像素級推理,指代、分割、推理三大任務(wù)一網(wǎng)打盡!

AI“看圖說話”現(xiàn)在已經(jīng)so easy,但即使是GPT-5、Gemini 2.5 Pro,也只能“看個大概”,難以進(jìn)行更精確的目標(biāo)識別和推理。

對此,來自香港理工大學(xué)和騰訊ARC Lab的研究團(tuán)隊提出了首個統(tǒng)一的像素級多模態(tài)大模型——UniPixel

話不多說,先來康康UniPixel的效果:

只需UniPixel一個模型,就能完成目標(biāo)指代(Referring)、像素級分割(Segmentation)與區(qū)域推理(Reasoning)三大任務(wù),兼具靈活性、精確性與可擴(kuò)展性。

目前該論文已被NeurIPS 2025接收,而且代碼、數(shù)據(jù)、Demo全開源

下面是更多詳細(xì)信息。

UniPixel重新定義視覺推理

傳統(tǒng)的視覺問答或描述系統(tǒng),多數(shù)基于整體的圖像或視頻信息進(jìn)行推理,缺乏對圖中“具體區(qū)域”或“指定目標(biāo)”的精確感知。

這不僅限制了其在醫(yī)療診斷、自動駕駛、人機(jī)交互等場景中的實際應(yīng)用,也難以滿足用戶對“可控性”與“可解釋性”的高階需求。

以一個日常任務(wù)為例:“請指出圖中坐在左側(cè)的人并描述他在做什么。”對于人類來說,我們會迅速聚焦至左側(cè)目標(biāo),通過視角、行為和上下文進(jìn)行判斷與描述,但對于傳統(tǒng)LMM,這樣的問題往往因缺乏區(qū)域指引與顯著性建模而難以作答準(zhǔn)確。

UniPixel通過引入“對象記憶機(jī)制(Object Memory Bank)與支持三類視覺提示(點(diǎn)、框、掩碼)的統(tǒng)一視覺編碼方式,實現(xiàn)了對用戶提示的“感知—記憶—推理”全過程支持。

區(qū)別于現(xiàn)有的簡單分割和區(qū)域級理解模型,UniPixel不僅能識別用戶所指的目標(biāo),還能將該目標(biāo)作為上下文顯式納入后續(xù)對話中,并輸出與之強(qiáng)關(guān)聯(lián)的分割結(jié)果、語言回答或描述內(nèi)容。

△現(xiàn)有模型與UniPixel的范式對比

為實現(xiàn)這一目標(biāo),UniPixel 在架構(gòu)設(shè)計上進(jìn)行了系統(tǒng)性的革新。

如下圖所示,其整體框架基于Qwen2.5-VL模型,支持圖像與視頻輸入,并具備對文本、點(diǎn)、框、掩碼等多種提示的感知與處理能力。

用戶可輸入一個圖像或視頻、一條文本提示,以及若干個可選的視覺提示,模型則輸出自然語言回答與可選的時空掩碼(spatial-temporal mask),實現(xiàn)基于視覺細(xì)節(jié)信息的交互。

△UniPixel的整體系統(tǒng)框架

為了讓這一框架真正具備“像素級推理”的能力,UniPixel 進(jìn)一步引入了三大關(guān)鍵模塊:

  • 提示編碼器:支持點(diǎn)、框、掩碼三種視覺提示;
  • 對象記憶體:用于存儲用戶指定目標(biāo)并支持多輪引用;
  • 掩碼解碼器:實現(xiàn)精確的時空掩碼生成。

此外,UniPixel對語言模型詞表進(jìn)行了擴(kuò)展,增加了<REF>、<MEM>與<SEG>等特殊Token,用于引導(dǎo)視覺提示的注入、對象記憶的調(diào)用與掩碼生成過程,從而在語言生成與像素感知之間建立了緊密連接。

具體可包括三大技術(shù)亮點(diǎn):

三類視覺提示統(tǒng)一編碼

為實現(xiàn)最大程度的自由交互,UniPixel設(shè)計了Prompt Encoder模塊對三類視覺提示進(jìn)行統(tǒng)一編碼。

無論是點(diǎn)、框,還是掩碼,均可被統(tǒng)一編碼為同一空間中的高維向量

這一編碼方式融合了空間坐標(biāo)、時間位置、提示類型等信息,并借助編碼投影層與視覺Token進(jìn)行對齊。

相比以往模型僅接受文本提示或簡化的圖像區(qū)域,UniPixel可處理更復(fù)雜的用戶輸入,例如:在視頻第5s處點(diǎn)擊某個目標(biāo),并對其前后發(fā)生的事件進(jìn)行提問,而這類場景可以通過點(diǎn)提示+時間標(biāo)識的組合被準(zhǔn)確解析和處理。

對象記憶體機(jī)制,賦予模型記住目標(biāo)的能力

UniPixel的最核心設(shè)計之一是其對象記憶體(Object Memory Bank)模塊,這是一個可動態(tài)更新的哈希結(jié)構(gòu),用于在推理過程中存儲與管理用戶指定的目標(biāo)區(qū)域,其運(yùn)行機(jī)制如圖所示。

具體來說,每當(dāng)用戶在輸入中使用如等標(biāo)記指代某一目標(biāo),模型就會自動觸發(fā)一個“記憶預(yù)填充(memory pre-filling)”流程,智能識別并生成對應(yīng)的時空掩碼,然后將其作為對象信息寫入記憶體中。

這一機(jī)制允許模型在多輪對話中不斷復(fù)用這些記憶對象,實現(xiàn)真正意義上的“上下文可控推理”

后續(xù)若用戶再次提及某一目標(biāo),只需使用之前定義的編號即可自動激活相應(yīng)區(qū)域,通過“記憶植入(memory injection)”機(jī)制將其特征插入到prompt中,供LLM進(jìn)行推理。

這種機(jī)制打破了傳統(tǒng)方法中“提示-響應(yīng)”一次性交互的局限,讓模型具備了類似人類的“關(guān)注-記憶-歸納”能力。

例如,當(dāng)用戶問“[1]和[2]之間有什么互動?”時,模型可以將兩者的行為軌跡通過掩碼抽象出來,并從原圖片或視頻中重新感知以生成合理回答。

掩碼引導(dǎo)推理,將理解與分割進(jìn)行深度融合

除了精準(zhǔn)識別目標(biāo)區(qū)域外,UniPixel還將掩碼生成這一過程嵌入到語言模型推理流程中,實現(xiàn)了“語言引導(dǎo)分割,分割反哺理解”的雙向閉環(huán)。

具體而言,模型在推理過程中生成<SEG> Token作為掩碼觸發(fā)標(biāo)志,每個<SEG> Token會被輸入到掩碼解碼器,根據(jù)上下文及已知提示生成對應(yīng)的目標(biāo)掩碼。

這些掩碼隨后通過對原圖片或視頻進(jìn)行池化,轉(zhuǎn)化為LLM可識別的對象特征,用于回答更復(fù)雜的語義問題。

這一機(jī)制極大提升了模型在視頻理解任務(wù)中的表現(xiàn),以一個實際任務(wù)為例:“[1]和[2]的行為有何差異?”通過對[1]、[2]的行為區(qū)域建模與掩碼特征對比,UniPixel可以準(zhǔn)確給出回答,并指出每一幀中的對應(yīng)區(qū)域。

另外在訓(xùn)練流程上,UniPixel采用了模塊化分階段的訓(xùn)練策略。

模型首先對視覺編碼器和語言模型進(jìn)行預(yù)訓(xùn)練,再逐步引入Prompt Encoder、Object Memory Bank和Mask Decoder等組件進(jìn)行聯(lián)合訓(xùn)練,使各模塊能夠協(xié)同工作而不過擬合到特定任務(wù)。

此外,作者還構(gòu)建并整合了多個數(shù)據(jù)集,涵蓋文本、圖像和視頻三種數(shù)據(jù),以及多種視覺提示類型(點(diǎn)、框、掩碼)。

整個訓(xùn)練數(shù)據(jù)規(guī)模達(dá)到約100萬條樣本(具體見下表),支持從靜態(tài)對象指代到時序掩碼生成等多種任務(wù)類型。這些數(shù)據(jù)為模型提供了統(tǒng)一、多樣的訓(xùn)練環(huán)境,提升了其在不同任務(wù)設(shè)置下的適應(yīng)能力。

△UniPixel的訓(xùn)練數(shù)據(jù)配比

實驗與評估

為了驗證UniPixel框架的有效性,作者在10個公開基準(zhǔn)測試集上進(jìn)行了廣泛的實驗,涵蓋9大視覺-語言理解任務(wù),具體任務(wù)和數(shù)據(jù)集設(shè)置如圖所示。

△用于UniPixel評測的基準(zhǔn)測試集

目標(biāo)分割任務(wù)

得益于統(tǒng)一的框架設(shè)計和漸進(jìn)式的訓(xùn)練范式,UniPixel在分割任務(wù)上展現(xiàn)出顯著性能優(yōu)勢。

其中,在較為困難的ReVOS推理分割基準(zhǔn)上,UniPixel-3B達(dá)到62.1 J&F,超過現(xiàn)有所有模型,表明其在理解復(fù)雜文本提示與像素級掩碼生成之間具有更強(qiáng)的關(guān)聯(lián)建模能力,完整的ReVOS數(shù)據(jù)集測試結(jié)果如下表所示:

在MeViS、Ref-YouTube-VOS和RefCOCO/+/g等其他數(shù)據(jù)集上,UniPixel也展現(xiàn)出了最佳性能,其中MeViS、Ref-YouTube-VOS、Ref-DAVIS17和GroundMore數(shù)據(jù)集的測試結(jié)果如表所示:

而RefCOCO/+/g(cIoU)和ReasonSeg數(shù)據(jù)集的測試結(jié)果如下表所示:

區(qū)域理解任務(wù)

VideoRefer-Bench基準(zhǔn)上,UniPixel同樣在掩碼提示的視頻區(qū)域理解上取得領(lǐng)先表現(xiàn),顯示出其對視覺提示的適應(yīng)性與魯棒性。

該任務(wù)要求模型根據(jù)復(fù)雜的語言描述,理解用戶所指定的掩碼區(qū)域,并在視頻中正確解析其動態(tài)變化與語義關(guān)系。

UniPixel借助其對象記憶機(jī)制和多模態(tài)協(xié)同編碼能力,能夠準(zhǔn)確捕捉目標(biāo)區(qū)域的邊界與行為變化。

其中,VideoRefer-Bench-D數(shù)據(jù)集的測試結(jié)果為:

VideoRefer-Bench-Q數(shù)據(jù)集的測試結(jié)果為:

PixelQA任務(wù)

為了進(jìn)一步驗證模型的指代-分割統(tǒng)一建模能力,作者還提出了全新的PixelQA任務(wù),該任務(wù)要求模型理解視頻中的點(diǎn)或框指代的對象,并且:

  1. 分割該目標(biāo)在所有幀中的掩碼;
  2. 回答問題。

在本任務(wù)上,UniPixel展現(xiàn)出了出色的多任務(wù)建模能力,如表所示,其性能超越72B的傳統(tǒng)模型

△PixelQA任務(wù)的測試結(jié)果

可視化

以下例子展現(xiàn)了UniPixel在實際場景中的分割和推理結(jié)果。

得益于其端到端掩碼生成能力以及語言與視覺模塊的深度協(xié)同,該模型能夠在理解復(fù)雜問題的基礎(chǔ)上,精準(zhǔn)地定位出問題所指向的目標(biāo)區(qū)域,并將其用于幫助推理。

△PixelQA任務(wù)的可視化
△ReVOS數(shù)據(jù)集上結(jié)果的可視化
△ReasonSeg數(shù)據(jù)集上結(jié)果的可視化

△Ref-SAV數(shù)據(jù)集上結(jié)果的可視化

UniPixel的提出,是多模態(tài)AI從“模態(tài)對齊”走向“細(xì)粒度理解”的重要里程碑。它不僅打通了對象指代與分割之間的技術(shù)壁壘,更將區(qū)域感知與語言推理有效融合,在像素層面實現(xiàn)了真正的理解與互動。

通過這種全新范式,可以看出多模態(tài)大模型在未來的發(fā)展中,可能不再只是“全局通感”的超級大腦,而是能精準(zhǔn)聚焦、靈活應(yīng)對、自然交互的智能體

UniPixel,或許就是這種新型AI形態(tài)的原點(diǎn)。

項目主頁:https://polyu-chenlab.github.io/unipixel/

論文鏈接:https://arxiv.org/abs/2509.18094

代碼鏈接:https://github.com/PolyU-ChenLab/UniPixel

開源數(shù)據(jù):https://huggingface.co/datasets/PolyU-ChenLab/UniPixel-SFT-1M

在線Demo:https://huggingface.co/spaces/PolyU-ChenLab/UniPixel

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-12-28 17:31:44

PixelLM性能模型

2025-10-20 09:09:00

2025-05-27 08:30:00

AI多模態(tài)模型VLR1-3B

2025-11-11 08:45:00

2025-09-19 11:09:40

2025-05-21 08:47:00

2025-06-17 09:07:24

2024-06-04 14:09:00

2025-11-17 09:15:37

2025-09-29 09:01:36

2024-10-17 18:52:41

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-06-09 15:25:03

模型AI訓(xùn)練

2025-07-10 08:57:59

2024-06-03 10:43:34

2024-09-19 14:00:00

模型開源代碼

2024-06-13 09:12:48

2025-11-11 13:50:17

2025-02-07 11:00:00

模型開源AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

欧美日韩国产电影| 亚洲精品在线a| 在线看片你懂得| www.亚洲天堂网| 国产三级三级看三级| 亚洲美女激情视频| 亚洲精品大片| 一本色道久久88精品综合| 亚洲激情中文字幕| 高清视频欧美一级| 成人动漫视频在线观看免费| 快播亚洲色图| 日日骚一区二区网站| www.日本少妇| av三级影院| 亚洲小说区图片区都市| 国内精品偷拍| 人妖欧美一区二区| 久久午夜国产精品| 亚洲国产精品久久不卡毛片| 一本大道久久a久久精二百 | 国产成人亚洲欧美| 一级做a爰片久久| 特黄特色大片免费视频大全| 男女视频在线| 国产成人影院| 成人午夜激情视频| 欧美日韩在线一区二区| 欧美二区乱c少妇| 欧美成人免费小视频| 国产精品自拍偷拍| 日本在线视频www| 成年人视频免费在线播放| 高潮久久久久久久久久久久久久| 蜜臀av一区二区在线观看| 一区二区三区精品| 美女av一区二区| 亚洲国产精品视频一区| 三上悠亚在线资源| 亚洲女同av| 国产精品精品国产一区二区| 久久美女高清视频| 日韩三级在线免费观看| 国产精品第一视频| 给我免费播放片在线观看| 超碰成人av| 蜜臀a∨国产成人精品| 欧美专区日韩专区| 51国偷自产一区二区三区| 最新av在线网站| 日韩大片在线播放| 一区二区三区欧美激情| 欧美成人激情图片网| 欧美 丝袜 自拍 制服 另类 | 成人精品视频在线观看| 国内精品伊人久久久久影院对白| 欧美一级专区免费大片| 美媛馆国产精品一区二区| 国产www.大片在线| 久久国产小视频| 精品露脸国产偷人在视频| 国产精品无av码在线观看| h色视频在线观看| 欧美精品日本| 欧美第一区第二区| 一区二区免费在线观看| 素人av在线| 精品午夜一区二区三区在线观看| 欧美一区二区人人喊爽| av电影一区二区三区| 伊人久久精品一区二区三区| av影院午夜一区| 国产成人精品久久亚洲高清不卡| 最新亚洲人成网站在线观看| 国产精品一二| 日韩一区二区三区xxxx| 日本fc2在线观看| 亚洲福利一区| 这里只有精品视频在线| 日本中文字幕高清视频| 午夜亚洲一区| 99精品国产视频| 欧美一区二区在线不卡| 人妻久久久一区二区三区| 久久久久久国产精品免费无遮挡 | av在线综合网| 美女撒尿一区二区三区| 亚洲熟妇av一区二区三区| 国产精品99久久久久久动医院| 亚洲成avwww人| 啊啊啊射了视频网站| 免费欧美在线视频| 国产精品久久久久av免费| 麻豆网站免费在线观看| 一本大道久久a久久精品综合| 乱子伦视频在线看| 亚洲女优在线| 9a蜜桃久久久久久免费| 久久大胆人体视频| 少妇精69xxtheporn| 中文日本在线观看| 一级女性全黄久久生活片免费| 国产精品久久..4399| 青青草国产成人av片免费| 91沈先生播放一区二区| 国产精品日本一区二区| 黄p免费网站| 国产99久久久精品| 欧美激情第一页在线观看| 伊人成综合网伊人222| www.色综合| 天堂久久午夜av| 宅男在线国产精品| 在线看中文字幕| 亚洲最新在线观看| 2020中文字幕在线| 久久精品视频一区| 成人免费观看cn| 激情国产一区二区| 亚洲黄色一区二区三区| 亚洲精品欧美| 国产66精品久久久久999小说| 91青青国产在线观看精品| 成人国产精品av| 久久99国内| 日本精品免费一区二区三区| 成人av色网站| 亚洲欧美精品在线| 在线观看三级视频| 黄色成人av网| 999国产在线视频| 欧美大片在线观看| 55av亚洲| 麻豆国产精品va在线观看不卡| 噜噜噜狠狠夜夜躁精品仙踪林| 国产成人精品视频在线观看| 亚洲精品色图| 国外成人在线视频网站| 99在线热播精品免费99热| 国产在线精品一区二区三区| 国语精品一区| 精品在线观看一区二区| 综合激情在线| 91久久伊人青青碰碰婷婷| 欧美777四色影| 免费久久久一本精品久久区| 麻豆精品视频在线观看免费| 相泽南亚洲一区二区在线播放| 国产综合色精品一区二区三区| 被灌满精子的波多野结衣| 大胆亚洲人体视频| 91免费黄视频| 久久久久久久电影| 色哟哟入口国产精品| 2020国产在线视频| 欧美日韩成人黄色| 亚洲精品极品| 亚洲成人久久网| 国产免费拔擦拔擦8x高清在线人| 久久天天躁狠狠躁夜夜躁2014| 亚洲福利天堂| 日韩av图片| 国产精品久久久99| 免费高清完整在线观看| 久久人人爽人人爽爽久久| 久久视频国产| 国产自产在线视频| 亚洲高清不卡在线观看| 成人片在线播放| 亚洲国产精品麻豆| 亚洲女人毛片| 国产精品久久国产愉拍| 伊人青青综合网站| 免费黄色片在线观看| 国产精品白丝在线| 免费无码不卡视频在线观看| 国产精品综合一区二区三区| 97国产精东麻豆人妻电影 | 亚洲自啪免费| 亚洲精品在线免费看| 麻豆91在线播放| 欧美写真视频一区| 亚洲乱码av中文一区二区| 91精品91| 亚洲人成亚洲人成在线观看图片| 欧美一区二区三区精美影视 | 精品久久久久久久久中文字幕| 日韩欧美精品一区二区三区| 国产一区二区在线免费| 国产不卡在线一区| 三区四区在线视频| 国产精品va在线播放| 成人综合婷婷国产精品久久蜜臀 | 激情五月综合婷婷| 欧美理论电影在线观看| 成人欧美magnet| 91国内揄拍国内精品对白| 在线观看国产精品入口| 亚洲午夜精品一区二区三区他趣| 亚洲人成无码www久久久|