從捍衛者到引路人,上交&上海AI Lab提出LEGION:不僅是AI圖像偽造克星,還能反哺生成模型進化?
本文由上海交通大學,上海人工智能實驗室、北京航空航天大學、中山大學和商湯科技聯合完成。 主要作者包括上海交通大學與上海人工智能實驗室聯培博士生康恒銳、溫子辰,上海人工智能實驗室實習生文思為等。通訊作者為中山大學副教授李唯嘉和上海人工智能實驗室青年科學家何聰輝。
AIGC 技術狂奔的腳印后,留下的是滿地信任殘骸
近年來,文生圖模型(Text-to-Image Models)飛速發展,從早期的 GAN 架構到如今的擴散和自回歸模型,生成圖像的質量和細節表現力實現了跨越式提升。這些模型大大降低了高質量圖像創作的門檻,為設計、教育、藝術創作等領域帶來了前所未有的便利。然而,隨著模型能力的不斷增強,其濫用問題也日益嚴重 —— 利用 AI 生成的逼真圖像進行詐騙、造謠、偽造證件等非法行為層出不窮,公眾正面臨一場愈演愈烈的信任危機。
圖片
(圖源自知乎和多家微信公眾號)
不信?猜一猜下列圖片中哪些是真實的,哪些則是由 AI 合成偽造的?
圖片
圖片
圖片
圖片
圖片
圖片
答案是:這些圖像全是偽造的。
若只是匆匆一瞥,你很可能會毫不察覺 —— 它們幾乎天衣無縫。這正是得益于近年來文生圖技術的突飛猛進,AI 生成內容已逼近真實。然而,正因如此,公眾在毫無防備的情況下被誤導的風險也在加劇。面對真假難辨的圖像,信任成本正悄然上升,焦慮與不安也隨之而來。

- 論文標題: LEGION: Learning to Ground and Explain for Synthetic Image Detection
- 作者團隊: 上海交通大學、上海人工智能實驗室、 北京航空航天大學、中山大學和商湯科技
- 項目主頁: https://opendatalab.github.io/LEGION
- 關鍵詞: 偽造檢測、偽影定位、異常解釋、引導圖像優化
那么我們該如何破局?在 ICCV25 highlight paper《LEGION: Learning to Ground and Explain for Synthetic Image Detection》中,來自上海交通大學、 上海人工智能實驗室等組織的研究團隊從構建高質量 AI 合成圖像數據集、設計可解釋偽造分析模型、實現檢測與生成的對立統一這三個角度給出了他們的答案。
破局基石:開創性數據集成就偽影圖鑒
圖片
該團隊反思了現有偽造圖像數據集的局限性,并且構建了首個針對純 AI 合成圖像,可進行全面偽造分析的數據集 SynthScars,直擊現有頂級生成技術的缺陷與 “傷疤”,讓看似完美的 AI 圖像顯露真容,為圖像安全研究注入新動力,主要具有以下亮點:
- 全網頂配生成器:
部分圖像來自最新的 AI 創作平臺,集齊了 FLUX、SD 系列、各種商用 API 及特定 LoRA 微調后的最新文生圖模型,幾乎不含 “一眼假” 的老舊低質的偽造圖像
- 專殺超現實畫風:
系統性過濾動漫、插畫等藝術風格圖像,這類樣本雖常見但誤導性低;數據集中僅保留逼真程度高、最具欺騙性的超現實風格圖像,聚焦人類最難分辨的 “視覺死角”
- 三維解剖級標注:
每張圖像均附帶偽影掩碼、異常解釋與偽影類型標簽三類信息,系統覆蓋三大偽影類型:物理矛盾、結構畸形、風格失真,支持定位、診斷與歸因的全流程分析
- 去輪廓依賴魔咒:
摒棄依賴物體邊界變形的傳統篡改范式,專注捕捉 AI 原生生成圖像中非結構性、無規則分布的偽影信號,直擊深層次建模缺陷遺留的 “蛛絲馬跡”
核芯武器:多模態大模型重塑分析范式
圖片
作者提出了一個基于多模態大模型(MLLMs)的圖像偽造分析框架,主要由全局圖像編碼器、定位圖像編碼器、大語言模型、像素解碼器和檢測分類頭組成,能夠實現:
多任務架構統一:
偽造檢測 + 偽影定位 + 異常解釋三位一體,同步完成,無需零散專家拼湊實現。
偽影定位任務在 RichHF-18K 等 3 個數據集上進行了測試,結果如下:

作者指出,現有的一些通用多模態大模型,如 Qwen2-VL 在面對此任務時傾向于預測圖片的絕大部分(有時是整張圖片)為偽影,這是毫無意義的,這說明了現有 MLLMs 缺乏相關知識和能力。
異常解釋任務在 LOKI 等兩個數據集上進行了測試,結果如下:

LEGION 僅用 8B 參數量就能夠在異常解釋任務中打敗其他同等甚至更大規模的模型。作者還指出諸如 Deepseek-VL2/GPT-4o 這樣的模型會輸出看似全面的各種可能性,但實際上會導致答案冗雜,評分偏低。
偽造檢測任務選擇在 UniversalFakeDetect 基準上進行測試:

卓越的魯棒性:
作者嘗試了高斯噪聲攻擊、JPEG 壓縮失真和高斯模糊三種干擾處理,發現 LEGION 性能相較于傳統專家模型而言波動較小,具有更強的魯棒性:

可解釋性飛躍:
與傳統專家模型僅給出真偽判斷不同,LEGION 除此以外還利用視覺掩碼直擊 “造假部位”,語言能力生成 “打假報告” → 不只判真假,更說清何處假、為何假、有多假!
圖片
更多的可視化示例請關注項目主頁:https://opendatalab.github.io/LEGION
顛覆循環:實現檢測與生成的終極共生
一直以來,合成與檢測,宛如一對技術 “冤家”,在對抗中推動彼此演進。當合成跑過檢測,虛假內容得以輕易偽裝,真假難辨的風險驟增;當檢測勝過合成,生成模型便被迫進化,朝著更高真實度與隱蔽性邁進。
因此,這篇論文創造性地提出:
LEGION 不僅可以作為圖像安全的保衛者,也能是反向促進高質量生成的催化劑
為此,作者從兩種不同的角度,提出了利用檢測 “反哺” 生成的 pipelines:
全局提示詞優化
作者指出,現有生成圖片中的偽影部分來源于提示詞的模糊。利用 LEGION 的異常解釋文本,對全局提示詞進行多輪細化后再重新生成能夠有效修復一些缺陷,例如能對圖片進行現實風格遷移、結構細節調整等。
圖片
局部語義修復術
另外一種思路是直接對 LEGION 檢測出的偽影區域做局部修復。具體地,可以聯合檢測得到的偽影掩碼和異常解釋,利用圖像修復模型針對性地消除偽影細節,這種方法的好處在于不對正常區域處理,能夠最大程度的保留原圖語義。
圖片
上例中,原始生成圖像的偽影較為隱蔽,乍一眼看去往往會被忽略 —— 房子在水中的倒影與實際的顏色和形狀不一致,這是典型的物理定律違反。通過多輪對偽影區域的局部修正,能夠逐步得到更高質量、更逼真的合成圖片。
此外,我們利用 HPSv2.1 模型對應用上述兩種方法前后生成的圖像進行了定量的人類偏好評分,能夠明顯發現在引導圖像優化后有較大程度的提升,這說明了用 "打假" 反哺 "造真" 的可行性和有效性。































