ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津

發(fā)布于 2024-7-30 10:00

瀏覽

0收藏

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2407.18247
git鏈接：https://github.com/LuJingyi-John/RegionDrag

亮點(diǎn)直擊

引入了一種基于區(qū)域的圖像編輯方法，以克服基于點(diǎn)拖拽方法的局限性，利用更豐富的輸入上下文來更好地對(duì)齊編輯結(jié)果與用戶的意圖。
通過采用無梯度的復(fù)制粘貼操作，基于區(qū)域的圖像編輯比現(xiàn)有方法快得多（見上圖1），在一次迭代中完成拖拽。
擴(kuò)展了兩個(gè)基于點(diǎn)拖拽的數(shù)據(jù)集，添加了基于區(qū)域拖拽的指令，以驗(yàn)證RegionDrag的有效性并為基于區(qū)域的編輯方法提供基準(zhǔn)。

基于點(diǎn)拖拽的圖像編輯方法，如DragDiffusion，已引起了廣泛關(guān)注。然而，由于點(diǎn)編輯指令的稀疏性，基于點(diǎn)拖拽的方法存在計(jì)算開銷大和用戶意圖誤解的問題。本文提出了一種基于區(qū)域的復(fù)制粘貼拖拽方法，RegionDrag，以克服這些局限性。RegionDrag 允許用戶以操作區(qū)和目標(biāo)區(qū)的形式表達(dá)其編輯指令，從而實(shí)現(xiàn)更精確的控制并減少模糊性。此外，基于區(qū)域的操作可以在一次迭代中完成編輯，速度比基于點(diǎn)拖拽的方法快得多。還引入了注意力交換技術(shù)，以增強(qiáng)編輯過程的穩(wěn)定性。為了驗(yàn)證本文的方法，擴(kuò)展了現(xiàn)有的基于點(diǎn)拖拽的數(shù)據(jù)集，添加了基于區(qū)域拖拽的指令。實(shí)驗(yàn)結(jié)果表明，RegionDrag在速度、準(zhǔn)確性和與用戶意圖的對(duì)齊方面均優(yōu)于現(xiàn)有的基于點(diǎn)拖拽的方法。值得注意的是，RegionDrag在分辨率為512×512的圖像上完成編輯的時(shí)間少于2秒，這比DragDiffusion快了100倍以上，同時(shí)性能更優(yōu)。

編輯效果

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津-AI.x社區(qū)

RegionDrag

RegionDrag 允許用戶輸入操作區(qū)和目標(biāo)區(qū)對(duì)，然后通過以下兩個(gè)主要步驟進(jìn)行編輯：

復(fù)制操作區(qū)覆蓋的潛在表示，并在反轉(zhuǎn)過程中存儲(chǔ)自注意力特征；
將復(fù)制的潛在表示粘貼到目標(biāo)位置，并在去噪過程中插入存儲(chǔ)的自注意力特征。

本節(jié)討論基于點(diǎn)拖拽方法的局限性，并介紹基于區(qū)域的輸入如何解決這些局限性。最后，展示了處理基于區(qū)域輸入的編輯流程。

從基于點(diǎn)的拖拽到基于區(qū)域的拖拽

盡管基于點(diǎn)拖拽的方法提供了一種直觀的用戶輸入方式，但從稀疏點(diǎn)中獲得的有限信息在編輯過程中對(duì)模型構(gòu)成了挑戰(zhàn)。具體來說，點(diǎn)指令會(huì)導(dǎo)致兩個(gè)主要問題：輸入模糊性和推理速度慢。

首先，點(diǎn)指令本質(zhì)上是模糊的。一種拖拽操作可能對(duì)應(yīng)多種可能的編輯效果。例如，用戶試圖在圖像中延長鳥的喙，如下圖2所示。用戶選擇鳥喙上的一個(gè)點(diǎn)并向左上角拖拽。然而，基于點(diǎn)拖拽的方法可能會(huì)誤解用戶的目標(biāo)，認(rèn)為是要放大喙或者將整只鳥移動(dòng)到左側(cè)，而不是延長喙，從而導(dǎo)致用戶意圖與模型輸出之間的不對(duì)齊。

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津-AI.x社區(qū)

其次，基于點(diǎn)拖拽的編輯涉及的復(fù)雜性需要相當(dāng)大的計(jì)算開銷。基于點(diǎn)拖拽的編輯具有挑戰(zhàn)性，因?yàn)槟Ｐ捅仨殢膯蝹€(gè)或少數(shù)點(diǎn)的運(yùn)動(dòng)中推斷出整個(gè)圖像的變化。為了在保持對(duì)象身份的同時(shí)執(zhí)行這種復(fù)雜的拖拽操作，基于點(diǎn)拖拽的方法嚴(yán)重依賴于兩個(gè)計(jì)算密集的步驟：為每個(gè)圖像訓(xùn)練一個(gè)獨(dú)特的LoRA和將拖拽過程分解為一系列子步驟。特別是，LoRA幫助模型保持原始圖像的身份，逐步拖拽則增加了實(shí)現(xiàn)預(yù)期編輯效果的機(jī)會(huì)。否則，編輯結(jié)果可能會(huì)受到顯著的身份扭曲或無效編輯的影響，如上圖2所示。問題的根源在于稀疏點(diǎn)對(duì)編輯施加的約束不足，因此模型必須依賴LoRA來防止扭曲，并通過迭代編輯在拖拽路徑上提供一定程度的額外監(jiān)督。因此，大多數(shù)基于點(diǎn)拖拽的方法需要幾分鐘才能編輯一張圖像，使其在現(xiàn)實(shí)世界應(yīng)用中不切實(shí)際。

解決這些問題的最簡單方法是鼓勵(lì)用戶提供足夠數(shù)量的點(diǎn)。然而，這種方法會(huì)導(dǎo)致用戶在指定和拖拽點(diǎn)時(shí)花費(fèi)過多時(shí)間。因此，作者設(shè)計(jì)了一種不僅對(duì)用戶友好且能為模型提供更多信息上下文的編輯形式，從而避免指令模糊、推理速度慢和用戶過度勞累。提出使用基于區(qū)域的操作來代替依賴拖拽點(diǎn)的方法，其中用戶指定一個(gè)操作區(qū)（H）以指示他們希望拖拽的區(qū)域，并指定一個(gè)目標(biāo)區(qū)（T）以展示他們希望實(shí)現(xiàn)的位置。然后，通過區(qū)域到點(diǎn)映射算法建立這兩個(gè)區(qū)域之間的密集映射，并通過一次反轉(zhuǎn)和去噪循環(huán)直接將操作區(qū)覆蓋的潛在表示復(fù)制到目標(biāo)區(qū)域來完成編輯。

盡管這種操作簡單，但它從兩個(gè)方面解決了模糊性和開銷問題：

基于區(qū)域的操作比拖拽點(diǎn)更具表現(xiàn)力和準(zhǔn)確性，從而顯著減少了模糊性。如圖2所示，通過簡單地畫一個(gè)更長的喙來表示延長鳥的喙，從而減少了基于點(diǎn)拖拽輸入的模糊性。
每個(gè)區(qū)域在密集映射后對(duì)應(yīng)大量的點(diǎn)，因此它比稀疏點(diǎn)對(duì)編輯結(jié)果提供了更強(qiáng)的約束。結(jié)果是，不需要沿拖拽路徑插值中間點(diǎn)或渴望額外的監(jiān)督，編輯可以在一個(gè)步驟中完成。此外，操作區(qū)和目標(biāo)區(qū)可以大小不一且形狀任意，允許用戶方便地定義它們。

編輯流程

首先介紹基于區(qū)域的用戶輸入，然后介紹區(qū)域到點(diǎn)映射算法，最后介紹主要的工作流程。

用戶輸入：操作區(qū)和目標(biāo)區(qū)可以通過兩種方式定義：

輸入頂點(diǎn)以形成多邊形（例如三角形或四邊形）
使用畫筆工具刷出一個(gè)靈活的區(qū)域。

輸入形式的選擇主要取決于用戶的偏好。頂點(diǎn)適用于編輯定義明確的形狀，如移動(dòng)建筑物上的窗口；畫筆工具則更適合處理不規(guī)則的形狀，如彎曲的道路或人類的頭發(fā)。

區(qū)域到點(diǎn)映射：為了在復(fù)制和粘貼潛在表示時(shí)保留原始空間信息，需要在操作區(qū)和目標(biāo)區(qū)之間建立密集的映射。如果區(qū)域限制為三角形或四邊形，可以使用仿射或透視映射計(jì)算轉(zhuǎn)換矩陣。然而，為任意形狀的刷出區(qū)域找到類似的轉(zhuǎn)換是具有挑戰(zhàn)性的。為了解決這個(gè)問題，提出了一種算法來數(shù)值地找到兩個(gè)區(qū)域之間的映射。

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果

評(píng)估指標(biāo)

LPIPS：按照【24】的方法，使用 Learned Perceptual Image Patch Similarity (LPIPS) v0.1來測(cè)量編輯后圖像與原始圖像之間的身份相似性。LPIPS 計(jì)算圖像對(duì)之間的 AlexNet特征距離。高 LPIPS 分?jǐn)?shù)表明由于編輯而發(fā)生了意外的身份變化或偽影。較低的 LPIPS 分?jǐn)?shù)表明在編輯過程中對(duì)象的身份得到了很好的保留；然而，這并不一定意味著編輯效果更好，因?yàn)閮蓚€(gè)完全相同的圖像會(huì)產(chǎn)生 LPIPS 分?jǐn)?shù)為0。

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津-AI.x社區(qū)

實(shí)現(xiàn)細(xì)節(jié)

本文的方法使用 Python 實(shí)現(xiàn)，依賴于 HuggingFace和 PyTorch庫。采用 Stable Diffusion v1-5 作為擴(kuò)散模型，圖像尺寸為 512 × 512，保持與之前基于擴(kuò)散的拖拽方法一致。使用 DDPM 采樣器進(jìn)行反轉(zhuǎn)和去噪采樣過程，配置為總共使用 20 個(gè)步驟。潛在表示反轉(zhuǎn)到時(shí)間步 t′ = 500（總共 1000 個(gè)步驟中的 SD1-5）。因此，進(jìn)行 10 次反轉(zhuǎn)步驟和 10 次去噪步驟。互相自注意力控制在所有時(shí)間步中都啟用，并且潛在的復(fù)制粘貼操作在 t'' = 200 處終止。噪聲權(quán)重a設(shè)置為 1。所有實(shí)驗(yàn)結(jié)果均在 NVIDIA Tesla V100 GPU 上獲得。

基準(zhǔn)對(duì)比

將 RegionDrag 與基于點(diǎn)拖拽的擴(kuò)散方法進(jìn)行比較，包括 DragDiffusion、SDE-Drag和 DiffEditor。由于 GAN 基于的方法在編輯 DragBench-S 和 DragBench-D 數(shù)據(jù)集中的多樣圖像時(shí)存在局限性，且需要領(lǐng)域特定的 StyleGAN 檢查點(diǎn)，因此排除了 GAN 基于的方法。基于擴(kuò)散的方法在編輯任務(wù)中優(yōu)于 GAN 基于的方法，更適合評(píng)估。執(zhí)行時(shí)間在兩個(gè)數(shù)據(jù)集上取平均，并且所有方法均在同一設(shè)備上使用公開發(fā)布的代碼進(jìn)行測(cè)試。

定量評(píng)估

為了定量評(píng)估方法的編輯性能，使用 LPIPS 和平均距離作為指標(biāo)，并將兩者均乘以 100 以便于說明。如下表1所示，RegionDrag 在 DragBench-S(R) 和 DragBench-D(R) 數(shù)據(jù)集上顯著優(yōu)于那些計(jì)算開銷大的基于點(diǎn)的方法。這些結(jié)果突顯了 RegionDrag 在保持圖像一致性同時(shí)，在不同數(shù)據(jù)集上實(shí)現(xiàn)競爭性編輯結(jié)果的卓越性能。除了效果外，RegionDrag 在效率方面也表現(xiàn)出色。RegionDrag 實(shí)現(xiàn)了快速推理速度，編輯一個(gè) 512 × 512 的圖像大約需要 1.5 秒，比第二快的方法快 20 倍，比 DragDiffusion快 100 倍。鑒于復(fù)制粘貼操作引入的計(jì)算開銷可忽略不計(jì)，RegionDrag 的推理時(shí)間與使用 SD1-5 生成一張 20 步的圖像相當(dāng)。

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津-AI.x社區(qū)

定性結(jié)果

下圖6 比較了基于點(diǎn)拖拽和基于區(qū)域的編輯輸入及其對(duì)應(yīng)的結(jié)果，展示了 RegionDrag 的有效性。基于區(qū)域的方法利用了注釋區(qū)域提供的全面上下文來實(shí)現(xiàn)期望的修改，同時(shí)保持圖像的整體一致性，優(yōu)于基于點(diǎn)拖拽的編輯方法。

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津-AI.x社區(qū)

消融研究

作者認(rèn)為點(diǎn)輸入的稀疏性導(dǎo)致了較差的編輯結(jié)果。為了定量證明這一點(diǎn)，在 DragBench-DR 數(shù)據(jù)集上進(jìn)行了測(cè)試，通過隨機(jī)選擇每個(gè)樣本中等效轉(zhuǎn)換點(diǎn)的子集，并使用這些子集進(jìn)行推理。逐漸減少所選點(diǎn)的百分比，以觀察對(duì) MD 指標(biāo)的影響。如下圖7所示，隨著所用點(diǎn)的百分比減少，MD 的結(jié)果明顯呈上升趨勢(shì)。這表明，與基于區(qū)域的輸入相比，稀疏點(diǎn)輸入對(duì)輸出的約束較弱，導(dǎo)致編輯結(jié)果不令人滿意。這證實(shí)了在 RegionDrag 中采用基于區(qū)域的輸入的好處。

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津-AI.x社區(qū)

在去噪過程中，在時(shí)間間隔內(nèi)進(jìn)行圖像潛在表示的復(fù)制和粘貼。為了驗(yàn)證這一設(shè)計(jì)，將其與僅在初始去噪時(shí)間步進(jìn)行復(fù)制粘貼的方法進(jìn)行了比較。下圖8顯示，僅在初始步驟進(jìn)行編輯可能會(huì)導(dǎo)致不可預(yù)測(cè)的結(jié)果，因?yàn)楹罄m(xù)的去噪階段可能會(huì)丟失這些編輯。多步復(fù)制粘貼通過在較小的時(shí)間步提供額外的指導(dǎo)，同時(shí)保持圖像的保真度，從而解決了這一問題。

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津-AI.x社區(qū)

結(jié)論

本文引入了一個(gè)高效且有效的基于區(qū)域的編輯框架——RegionDrag，用于高保真圖像編輯。與現(xiàn)有的基于點(diǎn)拖拽的編輯方法不同，RegionDrag 從區(qū)域的角度重新審視了編輯問題。RegionDrag 通過復(fù)制和粘貼圖像的潛在表示和自注意力特征，實(shí)現(xiàn)了單步編輯，這不僅提供了卓越的效率，還達(dá)到了優(yōu)越的編輯性能。此外，基于現(xiàn)有數(shù)據(jù)集引入了兩個(gè)新的基準(zhǔn)測(cè)試，DragBench-SR 和 DragBench-DR，用于評(píng)估基于區(qū)域的編輯。實(shí)驗(yàn)結(jié)果一致證明了本文方法在效率和編輯性能上的卓越表現(xiàn)。

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津-AI.x社區(qū)