視頻模型降維打擊？浙大&哈佛提出 IF-Edit：無需訓練，用“生成視頻”的思路修圖！

發布于 2025-12-16 09:43

瀏覽

0收藏

視頻模型降維打擊？浙大&哈佛提出 IF-Edit：無需訓練，用“生成視頻”的思路修圖！-AI.x社區

論文標題： Are Image-to-Video Models Good Zero-Shot Image Editors?
機構：浙江大學、哈佛大學
論文鏈接： https://arxiv.org/abs/2511.19435

導語：現在的 AI 消除、換背景已經很強了，但你試過讓 AI 把一張“完整的杯子”照片修成“被打碎的瞬間”嗎？或者把“生面團”修成“烤好的餅干”？傳統的生圖模型往往不懂這種物理過程和時間因果。今天介紹的這項工作 IF-Edit，另辟蹊徑，直接調用視頻生成模型（如 Wan 2.2）來修圖，不需要任何微調訓練，讓 AI 真正“理解”物理世界！

當視頻模型“降維”做修圖

現在的文生圖模型（SD, Flux等）在做局部替換時表現出色，但在涉及非剛性形變（如物體破碎、融化）或時間推理（如“一小時后”、“煮熟后”）的任務時，往往力不從心。

為什么？因為這些變化本質上是一個動態過程，而不僅僅是像素的替換。來自浙江大學和哈佛大學的研究團隊提出了 IF-Edit。他們的核心洞察是：大規模視頻擴散模型（Video Diffusion Models）已經具備了強大的“世界模擬”能力。如果我們能利用這種對物理和時間的理解，是不是就能實現更逼真的圖像編輯？

??看看這些效果，全是視頻模型“順手”修出來的：

視頻模型降維打擊？浙大&哈佛提出 IF-Edit：無需訓練，用“生成視頻”的思路修圖！-AI.x社區

IF-Edit 強在哪里？

與傳統的修圖方法（如 InstructPix2Pix, MagicBrush）相比，IF-Edit 在處理動作、形變、因果推理方面展現出了碾壓級的優勢。

它不需要訓練（Tuning-Free），直接復用現有的 Image-to-Video 模型（本論文使用了開源的 Wan 2.2）。

眼見為實，對比一下：當指令是“把椅子鋸成兩半”時，傳統模型只是在椅子上畫幾條線，而 IF-Edit 真的把椅子結構“鋸”斷了；當指令是“鳥兒低頭”時，IF-Edit 完美保持了鳥的身體結構，不僅是扭曲像素，而是模擬了動作。

視頻模型降維打擊？浙大&哈佛提出 IF-Edit：無需訓練，用“生成視頻”的思路修圖！-AI.x社區

甚至，它能處理復雜的推理任務（Reasoning）：

“一小時后的樣子”（比如手機充電電量增加）
“從高處掉落后的樣子”（比如玻璃杯碎裂）
“完全充氣后的樣子”（氣球變大）

視頻模型降維打擊？浙大&哈佛提出 IF-Edit：無需訓練，用“生成視頻”的思路修圖！-AI.x社區

在 RISEBench 上的推理能力展示。IF-Edit 在時間、因果、空間推理上表現優異，比如準確畫出餅干烤熟后的膨脹感，或者雞蛋打碎后的物理狀態。

它是如何工作的？(核心原理)

直接用視頻模型修圖面臨三個大坑：

指令聽不懂：視頻模型習慣了詳細的動態描述，而修圖指令通常很短（如“打碎它”）。
算力太浪費：修圖只需要一張圖，生成幾十幀視頻太慢太貴。
畫面容易糊：視頻截圖往往帶有運動模糊，不如照片清晰。

IF-Edit 提出了三個巧妙的模塊來解決這些問題：

視頻模型降維打擊？浙大&哈佛提出 IF-Edit：無需訓練，用“生成視頻”的思路修圖！-AI.x社區

“思維鏈”：CoT Prompt Enhancement 簡單的指令“把紙拿走”對視頻模型來說太抽象。IF-Edit 利用多模態大模型（VLM）將靜態指令轉化為基于時間演變的動態描述。

Before: "Remove the paper."
After: "(a) 她松開手，(b) 紙張飄落并移出畫面，(c) 手部保持空閑狀態..." 這樣視頻模型就能理解“動作的過程”，從而生成正確的最終幀。

“剪枝”：Temporal Latent Dropout (TLD) 既然我們只需要最后一張圖，為什么要生成中間所有的幀？研究發現，視頻生成的早期階段確立了全局布局（Layout），而后期階段主要在細化紋理。 IF-Edit 采用了一種“時序 Dropout”策略：在去噪的早期確定好結構后，直接丟棄中間幀的冗余計算，只保留關鍵幀進行后續計算。效果：推理速度提升，顯存占用降低，且不影響最終質量。
“銳化”：Self-Consistent Post-Refinement 視頻生成的單幀往往有運動模糊。 IF-Edit 不引入額外的超分模型，而是“回爐重造”： 1.自動選出最清晰的一幀。 2.把它扔回同一個視頻模型，輸入指令“一個完美的靜止視頻（A perfectly still video...）”。 3.利用視頻模型自身的先驗知識，去除運動模糊，增強細節紋理。

實驗結論與局限

在 TEdBench（非剛性編輯）和 RISEBench（推理編輯）基準測試中，IF-Edit 均取得了 SOTA 或極具競爭力的成績，特別是在 CLIP-T 和 CLIP-I 指標上表現優異。

視頻模型降維打擊？浙大&哈佛提出 IF-Edit：無需訓練，用“生成視頻”的思路修圖！-AI.x社區

實驗數據表明，IF-Edit 在保持原圖特征和響應文本指令之間取得了極佳的平衡，尤其是在需要物理常識的場景下。

ByteMorph 如果說 TEdBench 是考形變，ByteMorph 就是考動態物理規律。這是近期提出的一個專注于指令驅動動作編輯（Instruction-Guided Motion Editing）的基準。它涵蓋了 5 大類動態場景：鏡頭推拉（Camera Zoom）、視角移動（Camera Move）、物體運動（Object Motion）、人物動作（Human Motion）以及復雜交互。它要求模型不僅要修圖，還要像導演一樣理解“鏡頭怎么運”、“關節怎么動”。

正因為 IF-Edit 借用了視頻模型的“動態大腦”，它在 ByteMorph 的各項指標上（尤其是涉及物理運動的任務）完勝了 InstructPix2Pix 和 MagicBrush 等傳統修圖模型。這證明了：想修好“動作”，必須先懂“視頻”。

視頻模型降維打擊？浙大&哈佛提出 IF-Edit：無需訓練，用“生成視頻”的思路修圖！-AI.x社區

在ByteMorph測試中，IF-Edit 展現了對物理結構的深層理解，如瑜伽動作變化、火車移動

局限與啟示：視頻模型的“天性”之爭實驗顯示，IF-Edit 在局部屬性編輯（如簡單換色、風格遷移）上的精度有時不如傳統編輯模型。這揭示了 Image-to-Video 模型的歸納偏置（Inductive Bias）：它們更傾向于生成時空連貫的“整體演變”，而非死磕局部的“像素映射” 。

這種“偏科”并非不可改變。同期的 Video4Edit（百度）就證明，如果通過編輯數據對視頻模型進行微調（Fine-tuning），就能強補這塊短板。把 IF-Edit（無需訓練）和 Video4Edit（微調增強）放在一起看，不僅驗證了視頻模型在物理與結構理解上的原生優勢，也說明了它是一個上限極高的通用編輯底座。

視頻模型降維打擊？浙大&哈佛提出 IF-Edit：無需訓練，用“生成視頻”的思路修圖！-AI.x社區