多模態(tài)大模型首次實現(xiàn)像素級推理！3B參數(shù)超越72B傳統(tǒng)模型，NeurIPS 2025收錄

2025-10-17 09:08:05

來自香港理工大學(xué)和騰訊ARC Lab的研究團(tuán)隊提出了首個統(tǒng)一的像素級多模態(tài)大模型——UniPixel。

多模態(tài)大模型首次實現(xiàn)像素級推理，指代、分割、推理三大任務(wù)一網(wǎng)打盡！

AI“看圖說話”現(xiàn)在已經(jīng)so easy，但即使是GPT-5、Gemini 2.5 Pro，也只能“看個大概”，難以進(jìn)行更精確的目標(biāo)識別和推理。

對此，來自香港理工大學(xué)和騰訊ARC Lab的研究團(tuán)隊提出了首個統(tǒng)一的像素級多模態(tài)大模型——UniPixel。

話不多說，先來康康UniPixel的效果：

只需UniPixel一個模型，就能完成目標(biāo)指代（Referring）、像素級分割（Segmentation）與區(qū)域推理（Reasoning）三大任務(wù)，兼具靈活性、精確性與可擴(kuò)展性。

目前該論文已被NeurIPS 2025接收，而且代碼、數(shù)據(jù)、Demo全開源！

下面是更多詳細(xì)信息。

UniPixel重新定義視覺推理

傳統(tǒng)的視覺問答或描述系統(tǒng)，多數(shù)基于整體的圖像或視頻信息進(jìn)行推理，缺乏對圖中“具體區(qū)域”或“指定目標(biāo)”的精確感知。

這不僅限制了其在醫(yī)療診斷、自動駕駛、人機(jī)交互等場景中的實際應(yīng)用，也難以滿足用戶對“可控性”與“可解釋性”的高階需求。

以一個日常任務(wù)為例：“請指出圖中坐在左側(cè)的人并描述他在做什么。”對于人類來說，我們會迅速聚焦至左側(cè)目標(biāo)，通過視角、行為和上下文進(jìn)行判斷與描述，但對于傳統(tǒng)LMM，這樣的問題往往因缺乏區(qū)域指引與顯著性建模而難以作答準(zhǔn)確。

UniPixel通過引入“對象記憶機(jī)制（Object Memory Bank）”與支持三類視覺提示（點(diǎn)、框、掩碼）的統(tǒng)一視覺編碼方式，實現(xiàn)了對用戶提示的“感知—記憶—推理”全過程支持。

區(qū)別于現(xiàn)有的簡單分割和區(qū)域級理解模型，UniPixel不僅能識別用戶所指的目標(biāo)，還能將該目標(biāo)作為上下文顯式納入后續(xù)對話中，并輸出與之強(qiáng)關(guān)聯(lián)的分割結(jié)果、語言回答或描述內(nèi)容。

△現(xiàn)有模型與UniPixel的范式對比

為實現(xiàn)這一目標(biāo)，UniPixel 在架構(gòu)設(shè)計上進(jìn)行了系統(tǒng)性的革新。

如下圖所示，其整體框架基于Qwen2.5-VL模型，支持圖像與視頻輸入，并具備對文本、點(diǎn)、框、掩碼等多種提示的感知與處理能力。

用戶可輸入一個圖像或視頻、一條文本提示，以及若干個可選的視覺提示，模型則輸出自然語言回答與可選的時空掩碼（spatial-temporal mask），實現(xiàn)基于視覺細(xì)節(jié)信息的交互。

△UniPixel的整體系統(tǒng)框架

為了讓這一框架真正具備“像素級推理”的能力，UniPixel 進(jìn)一步引入了三大關(guān)鍵模塊：

提示編碼器：支持點(diǎn)、框、掩碼三種視覺提示；
對象記憶體：用于存儲用戶指定目標(biāo)并支持多輪引用；
掩碼解碼器：實現(xiàn)精確的時空掩碼生成。

此外，UniPixel對語言模型詞表進(jìn)行了擴(kuò)展，增加了<REF>、<MEM>與<SEG>等特殊Token，用于引導(dǎo)視覺提示的注入、對象記憶的調(diào)用與掩碼生成過程，從而在語言生成與像素感知之間建立了緊密連接。

具體可包括三大技術(shù)亮點(diǎn)：

三類視覺提示統(tǒng)一編碼

為實現(xiàn)最大程度的自由交互，UniPixel設(shè)計了Prompt Encoder模塊對三類視覺提示進(jìn)行統(tǒng)一編碼。

無論是點(diǎn)、框，還是掩碼，均可被統(tǒng)一編碼為同一空間中的高維向量。

這一編碼方式融合了空間坐標(biāo)、時間位置、提示類型等信息，并借助編碼投影層與視覺Token進(jìn)行對齊。

相比以往模型僅接受文本提示或簡化的圖像區(qū)域，UniPixel可處理更復(fù)雜的用戶輸入，例如：在視頻第5s處點(diǎn)擊某個目標(biāo)，并對其前后發(fā)生的事件進(jìn)行提問，而這類場景可以通過點(diǎn)提示+時間標(biāo)識的組合被準(zhǔn)確解析和處理。

對象記憶體機(jī)制，賦予模型記住目標(biāo)的能力

UniPixel的最核心設(shè)計之一是其對象記憶體（Object Memory Bank）模塊，這是一個可動態(tài)更新的哈希結(jié)構(gòu)，用于在推理過程中存儲與管理用戶指定的目標(biāo)區(qū)域，其運(yùn)行機(jī)制如圖所示。

具體來說，每當(dāng)用戶在輸入中使用如等標(biāo)記指代某一目標(biāo)，模型就會自動觸發(fā)一個“記憶預(yù)填充（memory pre-filling）”流程，智能識別并生成對應(yīng)的時空掩碼，然后將其作為對象信息寫入記憶體中。

這一機(jī)制允許模型在多輪對話中不斷復(fù)用這些記憶對象，實現(xiàn)真正意義上的“上下文可控推理”。

后續(xù)若用戶再次提及某一目標(biāo)，只需使用之前定義的編號即可自動激活相應(yīng)區(qū)域，通過“記憶植入（memory injection）”機(jī)制將其特征插入到prompt中，供LLM進(jìn)行推理。

這種機(jī)制打破了傳統(tǒng)方法中“提示-響應(yīng)”一次性交互的局限，讓模型具備了類似人類的“關(guān)注-記憶-歸納”能力。

例如，當(dāng)用戶問“[1]和[2]之間有什么互動？”時，模型可以將兩者的行為軌跡通過掩碼抽象出來，并從原圖片或視頻中重新感知以生成合理回答。

掩碼引導(dǎo)推理，將理解與分割進(jìn)行深度融合

除了精準(zhǔn)識別目標(biāo)區(qū)域外，UniPixel還將掩碼生成這一過程嵌入到語言模型推理流程中，實現(xiàn)了“語言引導(dǎo)分割，分割反哺理解”的雙向閉環(huán)。

具體而言，模型在推理過程中生成<SEG> Token作為掩碼觸發(fā)標(biāo)志，每個<SEG> Token會被輸入到掩碼解碼器，根據(jù)上下文及已知提示生成對應(yīng)的目標(biāo)掩碼。

這些掩碼隨后通過對原圖片或視頻進(jìn)行池化，轉(zhuǎn)化為LLM可識別的對象特征，用于回答更復(fù)雜的語義問題。

這一機(jī)制極大提升了模型在視頻理解任務(wù)中的表現(xiàn)，以一個實際任務(wù)為例：“[1]和[2]的行為有何差異？”通過對[1]、[2]的行為區(qū)域建模與掩碼特征對比，UniPixel可以準(zhǔn)確給出回答，并指出每一幀中的對應(yīng)區(qū)域。

另外在訓(xùn)練流程上，UniPixel采用了模塊化、分階段的訓(xùn)練策略。

模型首先對視覺編碼器和語言模型進(jìn)行預(yù)訓(xùn)練，再逐步引入Prompt Encoder、Object Memory Bank和Mask Decoder等組件進(jìn)行聯(lián)合訓(xùn)練，使各模塊能夠協(xié)同工作而不過擬合到特定任務(wù)。

此外，作者還構(gòu)建并整合了多個數(shù)據(jù)集，涵蓋文本、圖像和視頻三種數(shù)據(jù)，以及多種視覺提示類型（點(diǎn)、框、掩碼）。

整個訓(xùn)練數(shù)據(jù)規(guī)模達(dá)到約100萬條樣本（具體見下表），支持從靜態(tài)對象指代到時序掩碼生成等多種任務(wù)類型。這些數(shù)據(jù)為模型提供了統(tǒng)一、多樣的訓(xùn)練環(huán)境，提升了其在不同任務(wù)設(shè)置下的適應(yīng)能力。

△UniPixel的訓(xùn)練數(shù)據(jù)配比

實驗與評估

為了驗證UniPixel框架的有效性，作者在10個公開基準(zhǔn)測試集上進(jìn)行了廣泛的實驗，涵蓋9大視覺-語言理解任務(wù)，具體任務(wù)和數(shù)據(jù)集設(shè)置如圖所示。

△用于UniPixel評測的基準(zhǔn)測試集

目標(biāo)分割任務(wù)

得益于統(tǒng)一的框架設(shè)計和漸進(jìn)式的訓(xùn)練范式，UniPixel在分割任務(wù)上展現(xiàn)出顯著性能優(yōu)勢。

其中，在較為困難的ReVOS推理分割基準(zhǔn)上，UniPixel-3B達(dá)到62.1 J&F，超過現(xiàn)有所有模型，表明其在理解復(fù)雜文本提示與像素級掩碼生成之間具有更強(qiáng)的關(guān)聯(lián)建模能力，完整的ReVOS數(shù)據(jù)集測試結(jié)果如下表所示：