AAAI'26 | 最魯棒的MLLM!港科大開源「退化感知推理新范式」
當多模態大模型(MLLMs)從實驗室走向真實世界,它們遇到了一個致命瓶頸:視覺退化。
雨滴斑駁的車窗、年代久遠的監控錄像、網絡壓縮的低質圖片、醫療影像的固有噪聲……
這些在真實世界中無處不在的視覺退化,足以讓最先進的GPT-4V、Qwen-VL等模型產生荒謬輸出,成為其在自動駕駛、醫療影像、安防監控等關鍵領域落地的「阿喀琉斯之踵」。
現有方法的根本困境在于「隱式適應」:通過對抗訓練、數據增強等手段,試圖讓模型「硬扛」干擾。
這如同給模型戴上更厚的濾鏡——治標不治本,且不可解釋。模型在特定退化上表現提升,卻無法理解退化本身,更無法泛化到未知干擾,其決策過程仍是黑箱。
今天,這一困局迎來范式級的突破。
香港科技大學、西北工業大學等團隊提出的Robust-R1,實現了從「抵抗干擾」到「理解干擾」的范式轉變,首次將退化感知提升為一種顯式的結構化推理能力,讓視覺大模型學會「自我診斷」。

論文鏈接: https://arxiv.org/abs/2512.17532
開源代碼: https://github.com/jqtangust/Robust-R1
開源模型: https://huggingface.co/Jiaqi-hkust/Robust-R1
開源數據: https://huggingface.co/datasets/Jiaqi-hkust/Robust-R1
在線Demo: https://huggingface.co/spaces/Jiaqi-hkust/Robust-R1
Robust-R1的核心思想是為視覺大模型構建一套「退化感知推理系統」。面對一張退化圖像,模型會主動執行一個三步診斷流程:
- 退化參數感知(Perception)模型首先對輸入圖像進行退化診斷,不僅識別退化類型(如運動模糊、鏡頭光斑、噪聲等),還能量化退化強度。這種量化的退化感知為后續推理提供了精確的輸入。 → 此圖像存在強度0.47的運動模糊與強度0.31的鏡頭光斑。
- 語義影響分析(Influence Analysis)在識別退化后,模型會分析這些退化如何具體影響圖像的語義理解。這一步將抽象的退化參數轉化為對視覺理解的具體影響,為模型提供了「知道什么信息不可靠」的認知能力。 → 這些退化導致物體邊緣模糊,跑道紋理的連續性特征部分丟失。
- 魯棒結論生成(Robust Conclusion)基于前兩步的診斷和分析,模型會調整推理策略,優先依賴未被退化嚴重影響的視覺線索,并結合上下文信息進行綜合判斷。 → 盡管存在模糊,但基于剩余的空間結構與上下文,推斷飛機位于跑道區域。
這套流程的關鍵在于「顯式化」與「可解釋」。
與黑箱模型不同,Robust-R1的每一個判斷都伴隨著完整的推理鏈條,每一步的思考都以結構化文本呈現,使得模型的決策依據透明、可追溯、可驗證。
如同一位放射科醫生在閱片時,不僅給出診斷,更標注出影響診斷的圖像質量因素。這不僅是性能的提升,更是向可信、可靠AI邁出的關鍵一步。

Robust-R1與現有方法的對比。現有方法(A)僅通過隱式訓練增強視覺編碼器;Robust-R1(B)通過顯式推理鏈實現退化感知。
技術內核
三階段構建「退化感知推理引擎」
第一階段:結構化推理鏈監督微調
團隊首先構建了一套特殊標記體系,將推理過程強制結構化:
<TYPE> [退化類型與強度] <TYPE_END>
<INFLUENCE> [退化如何扭曲語義] <INFLUENCE_END>
<REASONING> [基于原始語義的邏輯重建] <REASONING_END>
<CONCLUSION> [抗干擾最終結論] <CONCLUSION_END>通過在大規模合成退化數據上進行監督微調,模型習得了「先診斷,后推理」的基本模式。
第二階段:退化參數精準對齊獎勵
傳統方法中,模型對退化的感知是模糊的。Robust-R1設計了退化感知獎勵函數,直接優化模型對退化類型與強度的判斷準確率:
- 精確匹配退化類型(如「運動模糊」 vs 「高斯噪聲」)
- 最小化強度估計誤差(如預測強度0.5 vs 真實強度0.47)
這一獎勵機制確保模型不再是「感覺有點模糊」,而是能量化判斷「模糊到什么程度」。
第三階段:動態推理深度自適應調控
并非所有退化都需要等量計算。Robust-R1引入動態鏈長調節機制:
輕度退化(如輕微噪點)→ 短鏈快速推理
重度退化(如嚴重模糊+遮擋)→ 長鏈深度分析

Robust-R1的二階段訓練流程示意圖
數據引擎
合成11K「退化診斷教科書」
為訓練這套系統,研究團隊構建了業界首個大規模退化感知推理數據集:
- 覆蓋真實世界四大退化階段:采集 → 傳輸 → 環境 → 后處理
- 16種精細化退化類型:從光學畸變到網絡壓縮,從光照不足到人為涂改
- 全鏈條標注:每個樣本不僅包含退化參數,更包含完整的「診斷→分析→推理→結論」鏈條
這不僅是數據集,更是一部「視覺退化診斷學」的標準教材。
實驗驗證
全面領先,定義新SOTA
真實退化基準測試 (R-Bench)
在專門評估真實世界退化理解的R-Bench基準上,Robust-R1在低、中、高三種退化強度下,全面超越所有通用及專用魯棒MLLM基線,取得綜合性能第一。

R-Bench基準測試結果,Robust-R1顯著領先
對抗退化壓力測試
在MMMB、MMStar、RealWorldQA三大通用VQA基準上,對圖像施加不同程度的合成退化(強度25%,50%,100%)。Robust-R1展現出極強的抗退化魯棒性,性能下降幅度遠小于基線模型,在極端退化下仍能保持可用精度。

在三大基準上的抗降解性能對比,Robust-R1在各項指標上領先
全面領先:Robust-R1(SFT+RL)在三大基準的所有退化強度下,均取得了最佳或接近最佳的性能。
抗衰減能力強:隨著退化強度從25%增加到100%,Robust-R1的性能下降幅度顯著小于所有基線模型,證明了其卓越的魯棒性。
極端場景可用:在100%強度的極端退化下,Robust-R1的性能仍大幅領先于專用魯棒模型(TeCoA、Robust CLIP),驗證了其在實際復雜場景中的可用性。
可解釋性展示:打開推理黑箱
以下是Robust-R1處理一張帶有退化的花園雕像圖像的完整推理鏈輸出:

Robust-R1在退化圖像上的可視化推理示例。
診斷:lens blur(0.31), lens flare(0.05)
影響分析:The lens blur affects the clarity of the image, making it slightly less detailed. This can make it challenging to discern finer details or textures, such as the texture of the bears' fur or the surface of the rocks.
原始語義推理:The image depicts three bear statues placed in a garden setting. The bears appear to be made of stone or a similar material, which is consistent with the appearance of fake objects.
結論:The bears in the image are fake, as they are made of stone or a similar material, and the surrounding environment appears artificial. Therefore, the correct answer is 0.
深遠影響
開啟可信、可靠多模態智能新篇章
Robust-R1的貢獻遠不止一項SOTA:
1.范式創新:開創了「顯式退化感知推理」新范式,為魯棒MLLM研究指明新方向。
2.可信AI:提供了完整的可解釋推理鏈,極大增強了模型在關鍵應用中的透明度和可信度。
3.高效實用:動態推理機制平衡了性能與效率,更具實用價值。
這項工作標志著多模態大模型從追求「在清晰世界中表現完美」,向追求「在復雜現實中可靠決策」的重大轉變。
當大多數模型仍在學習如何「看得更清」時,Robust-R1已教會模型如何「在看不清時,依然想得明白」。這才是通向真正智能體的關鍵一步。




































