国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定

發(fā)布于 2025-6-18 10:03
瀏覽
0收藏

論文鏈接:https://arxiv.org/pdf/2505.24873 
項(xiàng)目鏈接:https://minimax-remover.github.io/

亮點(diǎn)直擊

  • 提出了一種輕量且高效的基于 DiT 的視頻目標(biāo)移除架構(gòu)。MiniMax-Remover。受到“文本提示并不適合目標(biāo)移除任務(wù)”這一觀察的啟發(fā),用可學(xué)習(xí)的對比tokens(contrastive tokens)替代了文本條件,用于控制移除過程。這些 tokens被直接集成到自注意力流中,能夠移除預(yù)訓(xùn)練視頻生成模型中的所有交叉注意力層。在第一階段中,本文模型參數(shù)更少,并且不再依賴模糊的文本指令。
  • 在第二階段,在第一階段模型生成的1萬條人工篩選的視頻移除結(jié)果上進(jìn)行了蒸餾訓(xùn)練,并采用了 min-max 優(yōu)化策略。
  • 在多個(gè)基準(zhǔn)測試上進(jìn)行了大量實(shí)驗(yàn),表明本文方法在推理速度和視覺保真度方面都表現(xiàn)優(yōu)越。

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

如下圖4和下表1所示,本文模型在僅使用6個(gè)采樣步驟的情況下即可生成高質(zhì)量的移除結(jié)果,并且無需依賴無分類器引導(dǎo)(CFG)。

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

總結(jié)速覽

解決的問題

  1. 視頻目標(biāo)移除中的核心挑戰(zhàn)
  • 模型容易生成幻覺物體(hallucinated objects)
  • 存在視覺偽影(visual artifacts)
  1. 現(xiàn)有方法的局限性
  • 依賴計(jì)算成本高的采樣過程
  • 嚴(yán)重依賴無分類器引導(dǎo)(Classifier-Free Guidance, CFG)
  • 推理速度慢,效率低

提出的方案

  • 提出 MiniMax-Remover:一種兩階段的視頻目標(biāo)移除方法,包括:
  1. 第一階段:設(shè)計(jì)一個(gè)輕量化的視頻擴(kuò)散模型,移除文本條件輸入和交叉注意力機(jī)制,減少模型復(fù)雜度。
  2. 第二階段:基于第一階段生成并人工篩選的高質(zhì)量結(jié)果進(jìn)行蒸餾訓(xùn)練,引入minimax 優(yōu)化策略提升魯棒性與效果。

應(yīng)用的技術(shù)

  1. 架構(gòu)簡化
  • 移除文本輸入和 cross-attention 層
  • 使用可學(xué)習(xí)的對比 tokens (contrastive tokens)替代文本條件,直接嵌入自注意力流中
  1. 蒸餾訓(xùn)練
  • 在1萬條人工篩選的成功視頻移除結(jié)果上進(jìn)行蒸餾,提升模型泛化能力
  1. Minimax 優(yōu)化策略
  • 內(nèi)層最大化:尋找能誘發(fā)模型失敗的“壞噪聲”
  • 外層最小化:訓(xùn)練模型即使在惡劣輸入下也能生成高質(zhì)量結(jié)果

達(dá)到的效果

  1. 高質(zhì)量視頻目標(biāo)移除
  • 僅使用6 個(gè)采樣步即可生成高保真移除結(jié)果
  • 無需依賴 CFG,減少計(jì)算資源消耗
  1. 推理效率顯著提升
  • 模型更輕量,處理速度更快,適合實(shí)際部署
  1. 廣泛實(shí)驗(yàn)驗(yàn)證優(yōu)越性
  • 在多個(gè)基準(zhǔn)測試中表現(xiàn)出色,如上圖4和上表1所示
  • 在視覺質(zhì)量和推理速度上均優(yōu)于現(xiàn)有方法

方法論

總體框架

階段 1:訓(xùn)練一個(gè)輕量級的視頻目標(biāo)移除模型。 本文方法遵循標(biāo)準(zhǔn)的視頻修復(fù)流程,但在此基礎(chǔ)上做出了兩個(gè)簡單而有效的改進(jìn)。首先,本文通過移除無關(guān)組件設(shè)計(jì)了一個(gè)輕量級架構(gòu)。與許多現(xiàn)有方法,如[56, 53, 46, 24]不同,本文不使用文本提示或光流等額外輸入,因此可以移除所有的交叉注意力層。其次,本文引入了兩個(gè)對比條件 tokens 來引導(dǎo)修復(fù)過程:一個(gè)是正向 tokens ,用于鼓勵(lì)模型在被遮擋區(qū)域內(nèi)填充內(nèi)容;另一個(gè)是負(fù)向 tokens ,用于抑制模型在這些區(qū)域生成不需要的物體。需要注意的是,與以往工作,如[53, 54, 23] 不同,本文僅使用目標(biāo) mask ,不依賴其他附加條件。


階段 2:通過人工引導(dǎo)的 minimax 優(yōu)化增強(qiáng)模型的魯棒性與效率。 首先使用階段 1 的模型生成修復(fù)后的視頻樣本,然后請人工標(biāo)注者挑選出成功的結(jié)果。在這個(gè)經(jīng)過篩選的子集上,本文應(yīng)用 minimax 優(yōu)化訓(xùn)練策略,以增強(qiáng)模型的魯棒性和生成質(zhì)量。此外,蒸餾后的移除器在不使用 CFG 的情況下,僅需 6 步即可完成推理,從而實(shí)現(xiàn)快速推理。最終改進(jìn)后的模型被稱為 MiniMax-Remover

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

階段 1:用于視頻目標(biāo)移除的簡單架構(gòu)

本文方法基于預(yù)訓(xùn)練的視頻生成模型 Wan2.1-1.3B,該模型是一個(gè)基于 DiT 架構(gòu)的 Flow Matching 模型。

模型架構(gòu)

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

移除預(yù)訓(xùn)練 DiT 塊中的交叉注意力。 在預(yù)訓(xùn)練的 Wan2.1-1.3B 模型中,時(shí)間信息通過 shift table 注入,該機(jī)制基于偏置來編碼時(shí)間步信息。此外,模型使用交叉注意力模塊來引入文本條件。然而,對于視頻目標(biāo)移除任務(wù)而言,文本輸入通常是多余或模糊的。因此,在本文模型中,本文移除了 DiT 塊中的文本交叉注意力層,但保留了 shift table 以保留時(shí)間信息。

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

從 DiT 中移除交叉注意力帶來了一個(gè)挑戰(zhàn):如何在不依賴文本提示的情況下有效注入條件信息。一個(gè)直接的方法是重用 shift table 來同時(shí)編碼時(shí)間步和條件信息。然而,本文實(shí)驗(yàn)表明,這種方式會(huì)導(dǎo)致條件修復(fù)效果不佳。為了實(shí)現(xiàn)更有效的條件控制,本文選擇將對比條件 tokens 通過自注意力模塊注入到 DiT 塊中。


具體而言,本文使用一個(gè)可學(xué)習(xí)的嵌入層將條件 tokens 映射到高維特征空間,然后將該特征拆分為 6 個(gè) token,以增強(qiáng)在注意力計(jì)算過程中的控制能力。這些條件 token 被拼接到原始的 key 和 value 中,從而在不大幅修改架構(gòu)的前提下實(shí)現(xiàn)有效的條件控制。

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

用于目標(biāo)移除的對比條件控制

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

正向 token 引導(dǎo)移除網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)移除,而負(fù)向 token 則鼓勵(lì)模型生成目標(biāo)內(nèi)容。本文需要指出,在第一階段訓(xùn)練中本文使用了 CFG 以促進(jìn)條件學(xué)習(xí)。然而,在第二階段中 CFG 被移除,以提高推理效率。

第一階段的局限性

盡管在簡潔性和速度方面有所提升,當(dāng)前模型仍面臨三個(gè)局限性。(1) CFG 會(huì)使推理時(shí)間加倍,并且需要手動(dòng)調(diào)整引導(dǎo)尺度,而該尺度在不同視頻中可能有所不同。(2) 每幀采樣 50 個(gè)擴(kuò)散步驟仍然耗時(shí)較長。(3) 在目標(biāo)移除區(qū)域內(nèi)偶爾會(huì)出現(xiàn)偽影或不希望出現(xiàn)的目標(biāo)重建,表明對比信號尚未完全發(fā)揮作用。為了解決這些問題,本文引入第二階段方法,旨在提升魯棒性、質(zhì)量和效率。

MiniMax-Remover:基于人類反饋蒸餾更強(qiáng)的視頻目標(biāo)移除器

盡管本文視頻目標(biāo)移除器經(jīng)過對比調(diào)控訓(xùn)練,但它仍然會(huì)產(chǎn)生明顯偽影,甚至偶爾重建本應(yīng)被移除的目標(biāo)。進(jìn)一步觀察表明,這些失敗案例與特定的輸入噪聲模式密切相關(guān)。這一發(fā)現(xiàn)促使本文設(shè)定目標(biāo):識別這些“壞噪聲”,并訓(xùn)練目標(biāo)移除模型對其具備魯棒性。


minmax 優(yōu)化也使本文能夠擺脫對 CFG 的依賴。在第二階段中,本文移除了 CFG 以提高采樣效率。具體而言,在訓(xùn)練過程中,本文省略了正向和負(fù)向條件 token。本文選擇將對此設(shè)計(jì)的更多分析放在附錄中。

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

搜索“壞”噪聲

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

針對“壞”噪聲的魯棒性優(yōu)化

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

MiniMax-Remover 的優(yōu)勢

MiniMax-Remover 擁有幾個(gè)關(guān)鍵優(yōu)勢:

  • 低訓(xùn)練開銷。它僅需一次反向傳播來搜索“壞”噪聲,并使用簡化的架構(gòu)訓(xùn)練移除器,從而減少了內(nèi)存消耗。
  • 快速推理速度。MiniMax-Remover 僅使用 6 步采樣且不依賴 CFG,相比以往方法顯著加快了推理速度。
  • 高質(zhì)量。由于模型經(jīng)過訓(xùn)練能抵御“壞”噪聲,它很少在 mask 區(qū)域生成意外物體或視覺偽影,從而帶來更高的質(zhì)量。

實(shí)驗(yàn)

訓(xùn)練數(shù)據(jù)集。 在第一階段,本文使用 Grounded-SAM2和 CogVLM2提供的字幕在無水印的 WebVid-10M 數(shù)據(jù)集上生成 mask 。隨機(jī)選取約 250 萬對視頻- mask 對用于訓(xùn)練。在第二階段,本文從 Pexels收集了 1.7 萬個(gè)視頻,并應(yīng)用與第一階段相同的標(biāo)注流程。這些視頻隨后使用第一階段的模型進(jìn)行處理,并手動(dòng)挑選出 1 萬個(gè)視頻用于第二階段訓(xùn)練。

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

推理細(xì)節(jié)。 推理使用 RTX 4090 GPU 進(jìn)行。在輸入分辨率為 480p、幀長度為 81 的設(shè)置下,每個(gè)視頻推理大約耗時(shí) 24 秒,峰值 GPU 顯存消耗約為 14GB(DiT 占用 8GB,VAE 解碼占用 6GB),使用 6 步采樣。


基線方法。 本文將方法與 Propainter、VideoComposer 、COCOCO、FloED、DiffuEraser、VideoPainter和 VACE進(jìn)行比較。本文將評估幀長度設(shè)為 32。為了使用相同的幀長度進(jìn)行評估,本文擴(kuò)展了 VideoComposer和 FloED的輸入幀長度。其余的視頻修復(fù)方法則使用其代碼庫中的默認(rèn)幀長度。幀分辨率使用各自的默認(rèn)設(shè)置。


評估指標(biāo)。 本文使用 SSIM 和 PSNR 評估背景保留效果。TC 用于評估時(shí)間一致性,遵循 COCOCO 和 AVID,使用 CLIP-ViT-h-b14提取特征。GPT-O3用作客觀指標(biāo)。本文在 DAVIS 數(shù)據(jù)集和 200 個(gè)隨機(jī)選取的 Pexels 視頻上評估這些指標(biāo),以展示在不同數(shù)據(jù)集上的泛化能力。需要注意的是,這 200 個(gè) Pexels 視頻不包含在本文訓(xùn)練數(shù)據(jù)集中,其 mask 由 GroundedSAM2 提取。在用戶研究中,參與者會(huì)看到一個(gè)多選問卷,要求識別哪個(gè)視頻最有效地移除了原始視頻中的目標(biāo)對象,同時(shí)不引入模糊、視覺偽影或 mask 區(qū)域中的幻覺內(nèi)容。

定量比較

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

定性結(jié)果

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

消融實(shí)驗(yàn)

為了理解本文方法中各個(gè)組件和修改的影響,本文進(jìn)行了逐步的消融實(shí)驗(yàn)。所有實(shí)驗(yàn)均使用 50 步采樣。

第一階段。 本文首先考察文本編碼器和基于提示的條件的作用。在 Ab-1 和 Ab-2 的比較中(見下表 3),本文用可學(xué)習(xí)的對比 token 替換了文本編碼器和提示。結(jié)果顯示性能沒有顯著下降,說明在使用合適的可學(xué)習(xí) token 時(shí),文本編碼器對于移除任務(wù)是冗余的。

視頻去物“魔法橡皮擦”來了!MiniMax-Remover:新SOTA方法告別CFG,六步搞定-AI.x社區(qū)

接下來比較 Ab-2 和 Ab-3,本文在從 DiT 中移除交叉注意力模塊后觀察到輕微的性能下降。然而,當(dāng)本文在自注意力層中引入可學(xué)習(xí)的對比條件 token(Ab-4)時(shí),結(jié)果不僅恢復(fù)了,還超過了 Ab-1。這表明本文簡化的 DiT 架構(gòu)是有效的。


第二階段。 本文比較了使用和不使用人工標(biāo)注數(shù)據(jù)訓(xùn)練的模型。結(jié)果(Ab-1 對比 Ab-2)顯示,僅使用人工標(biāo)注數(shù)據(jù)并不能顯著提升性能,這可能是由于數(shù)據(jù)集規(guī)模(1 萬個(gè)視頻)和多樣性有限,限制了泛化能力。


此外,本文比較了訓(xùn)練中使用的不同噪聲類型(Ab-2 到 Ab-3)。本文發(fā)現(xiàn)將“壞噪聲”(人為退化的輸入)加入訓(xùn)練能顯著提升性能。

結(jié)論

MiniMax Remover,一個(gè)用于視頻中目標(biāo)移除的兩階段框架。在第一階段,本文通過移除交叉注意力并用對比條件 token 替換提示嵌入,對預(yù)訓(xùn)練的 DiT 進(jìn)行了簡化。在第二階段,本文應(yīng)用最小-最大優(yōu)化:最大步驟尋找導(dǎo)致失敗案例的挑戰(zhàn)性噪聲輸入,而最小步驟訓(xùn)練模型從這些對抗輸入中成功重建目標(biāo)。通過這種兩階段訓(xùn)練,本文方法實(shí)現(xiàn)了更干凈且視覺效果更佳的移除結(jié)果。由于無需分類器自由引導(dǎo)(CFG)且僅使用 6 步采樣,推理速度顯著加快。大量實(shí)驗(yàn)表明,本文模型在多個(gè)基準(zhǔn)上均實(shí)現(xiàn)了出色的移除性能。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/q_WUl7xn2AvTAoIFqOhgTQ??


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产精品久久久久久户外露出| 这里只有精品99re| 欧美日韩精品免费观看| 麻豆国产在线| 一区二区三区在线视频播放| 国产一区一区三区| 999久久久精品国产| 美女精品视频一区| 肉肉视频在线观看| 午夜欧美在线一二页| 亚洲中文字幕无码专区| 国产模特精品视频久久久久| 国产精品午夜国产小视频| 玖玖玖电影综合影院| 亚洲视频国产视频| 婷婷色在线资源| 欧美性大战久久| 在线播放av网站| 国产精品视频yy9299一区| 久草视频国产在线| 国产在线精品视频| 亚洲国产一区二区精品视频 | 懂色av中文一区二区三区天美 | 日韩视频免费观看高清完整版 | 亚洲精品国产a| 成人激情视频在线| 日韩成人在线看| 自拍偷拍亚洲一区| 国产剧情av在线播放| 色综合天天综合给合国产| 日本一二三区视频免费高清| 国产午夜精品美女毛片视频| 欧美狂野激情性xxxx在线观| 精品在线播放午夜| 中文字幕一区二区三区四区五区人 | 日韩欧美一级在线| 久久精品国产99| 三区精品视频观看| 日韩电影一二三区| 天天人人精品| 久草这里只有精品视频| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 亚洲欧美日本日韩| 日本中文不卡| 麻豆一区二区三| 亚洲天堂第一区| 成人午夜激情影院| 99爱视频在线| 国产精品女主播在线观看| 国产精品入口免费软件| 中文字幕永久在线不卡| 狠狠干婷婷色| 欧美aa国产视频| 亚洲第一se情网站| 国产成人高清视频| 欧美性色aⅴ视频一区日韩精品| 亚洲片在线资源| 国产在线美女| 中文字幕日韩在线视频| 免费一区二区三区在线视频| 久久这里有精品视频| 欧美一级二级三级视频| 国产精品一区二区在线| 黄色在线成人| 少妇高潮大叫好爽喷水| 国产欧美一区二区三区在线看蜜臀| fc2ppv完全颜出在线播放| 欧美视频精品一区| 欧美卡一卡二| 久久久精品国产网站| 亚洲免费毛片| 久久久久久亚洲精品不卡4k岛国 | 亚洲精品美女免费| 日韩福利影视| 日本aⅴ大伊香蕉精品视频| 国产精品久久久乱弄| 欧美精品欧美精品| 成人动漫视频在线| 黄色国产网站| 欧美一级一区二区| 中文字幕亚洲在线观看| 99国产在线视频| 国产一区二区三区免费播放| 天天干天天草天天| 欧美日韩国产a| 日韩一区二区三区四区五区 | 一本色道久久综合狠狠躁的番外| www日韩av| 9人人澡人人爽人人精品| 蜜桃一级网站.| 亚洲第一级黄色片| 欧美xxxx在线| 日本一区二区精品| 中日韩av电影| 欧美性爽视频| 日本午夜在线亚洲.国产| 日韩激情视频网站| 啦啦啦在线视频免费观看高清中文 | 簧片在线免费看| 欧美日韩电影在线播放| 经典三级久久| 伊人久久大香线蕉av超碰| 亚洲一区制服诱惑| www..com久久爱| 91在线视频| 亚州av一区二区| 美腿丝袜亚洲综合| 天堂av电影在线观看| 美女视频黄免费的亚洲男人天堂| 一区二区三区四区五区精品视频 | 亚洲第一在线视频| 神马影视一区二区| 国产成人一区二区三区别| 欧美丝袜丝交足nylons| 97一区二区国产好的精华液| 亚洲啪啪av| 在线观看视频一区| 都市激情亚洲综合| 91桃色在线观看| 国产视频一二区| 一区二区成人在线视频| 国产盗摄一区二区三区| 亚洲成人第一| 欧美高清不卡| 国产成人手机视频| 亚洲第一国产精品| 亚洲视屏一区| 一级毛片国产| 伦伦影院午夜日韩欧美限制| 日韩av电影免费观看高清完整版| av福利导福航大全在线播放| 欧美日韩aaaa| 成人免费视频一区二区| 久草成色在线| 韩国成人动漫在线观看| 亚洲国产sm捆绑调教视频| 亚洲无线观看| 爱福利视频一区二区| 亚洲人成人99网站| 日产国产高清一区二区三区 | 亚洲国产精品资源| 亚洲国产午夜| 青青色在线视频| 成人黄色av免费在线观看| 中文在线免费一区三区| 99热国内精品| 日韩av一级| av日韩在线免费观看| 久久成人免费观看| 成人在线视频你懂的| 成人三级av在线| 密臀av在线| 拍真实国产伦偷精品| 亚洲欧洲精品一区二区三区| 天天免费亚洲黑人免费| 一区二区av| 亚洲高清一区二| 欧美另类中文字幕| 欧美日韩一区二区在线免费观看| 久久国产精品亚洲77777| 日韩电影在线观看电影| 亚洲少妇自拍| 国产日韩欧美不卡在线| 成人黄色在线| 妞干网视频在线观看| 国产一区二区激情| 国产成人精品一区二区三区四区 | ww久久中文字幕| av一级久久| 欧美日韩亚洲自拍| 午夜精品福利视频| 中文无字幕一区二区三区 | 欧美久久精品| 成人黄色激情网站| 日本中文字幕久久看| 亚洲第一主播视频| 在线视频观看日韩| 久久99亚洲网美利坚合众国| 欧美日韩一区二区三区电影| www日韩欧美| 亚洲美女淫视频| 欧美1区2区3区| 欧美男男video| 欧美日韩国产精品激情在线播放| 欧美激情一级欧美精品| 亚洲综合精品久久| 在线综合欧美| 国产精品粉嫩| 97在线观看| 精品国产福利| 国产一区二区精品丝袜| 中文字幕在线一区二区三区| 一区二区三区在线电影| 青青青国内视频在线观看软件| a天堂资源在线观看| 青青精品视频播放| 6080国产精品一区二区| av成人免费在线观看| 日韩欧美亚洲在线| av电影天堂一区二区在线|