国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成 精華

發布于 2024-8-2 09:52
瀏覽
0收藏

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

論文鏈接:https://arxiv.org/pdf/2407.21705
項目鏈接:https://ali-videoai.github.io/tora_video/

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

亮點直擊

  • 本文引入了Tora,這是第一個軌跡導向的DiT用于視頻生成。如下圖2所示,Tora無縫整合了廣泛的視覺和軌跡指令,從而能夠熟練地創建可操控運動的視頻。
  • 為了與DiT的可擴展性保持一致,本文設計了一種新穎的軌跡提取器和運動引導融合機制,以獲取時空運動塊,隨后將這些塊注入DiT塊中。本文對幾種架構選擇進行了消融實驗,并為未來基于DiT的運動控制研究提供了實證基線。
  • 實驗表明,Tora能夠生成具有不同縱橫比的720p分辨率視頻,最長可達204幀,所有這些都由指定的軌跡引導。此外,它在模擬物理世界中的運動方面表現出色。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

最近在 Diffusion Transformer (DiT) 方面的進展展示了其在生成高質量視頻內容方面的卓越能力。然而,基于transformer的擴散模型在有效生成具有可控運動的視頻方面的潛力仍然是一個探索有限的領域。本文介紹了Tora,這是第一個軌跡導向的DiT框架,它同時整合了文本、視覺和軌跡條件用于視頻生成。具體來說,Tora由軌跡提取器 (TE)、時空DiT和運動引導融合器 (MGF) 組成。TE通過3D視頻壓縮網絡將任意軌跡編碼為分層時空運動塊。MGF將運動塊整合到DiT塊中,以生成遵循軌跡的一致視頻。本文的設計與DiT的可擴展性無縫對接,允許對視頻內容的動態進行精確控制,支持多種時長、縱橫比和分辨率。大量實驗表明,Tora在實現高運動保真度方面表現出色,同時還精細地模擬了物理世界的運動。

方法

Preliminary

潛在視頻擴散模型(Latent Video Diffusion Model, LVDM)。LVDM通過集成3D U-Net增強了Stable Diffusion模型,從而提升了視頻數據處理的效率。這個3D U-Net設計在每個空間卷積中增加了一個額外的時間卷積,并在每個空間注意力塊之后跟隨相應的時間注意力塊。它通過噪聲預測目標函數進行優化:

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

Tora

Tora 采用 OpenSora 作為其 DiT 架構的基礎模型。為了在不同持續時間內實現精確且用戶友好的運動控制,Tora 引入了兩個新的運動處理組件:軌跡提取器(Trajectory Extractor, TE)和運動引導融合器(Motion-guidance Fuser, MGF)。這些模塊用于將提供的軌跡編碼為多層次時空運動補丁,并將這些補丁精細地集成到 DiT 塊的堆疊結構中。Tora 的工作流程概述如下圖 3 所示。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

時空 DiT(ST-DiT) ST-DiT 架構包含兩種不同類型的塊:空間 DiT 塊(S-DiT-B)和時間 DiT 塊(T-DiT-B),它們以交替順序排列。S-DiT-B 包含兩個注意力層,每個注意力層依次執行空間自注意(Spatial Self-Attention, SSA)和交叉注意(Cross-Attention),然后是一個逐點前饋層,用于連接相鄰的 T-DiT-B 塊。值得注意的是,T-DiT-B 僅通過用時間自注意(Temporal Self-Attention, TSA)替換 SSA 來修改此架構,從而保持架構的一致性。在每個塊內,輸入在歸一化后,通過跳躍連接(skip-connections)連接回塊的輸出。通過利用處理可變長度序列的能力,去噪 ST-DiT 可以處理不同持續時間的視頻。


寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

運動引導融合器。 為了將基于 DiT 的視頻生成與軌跡相結合,本文探索了三種將運動塊注入每個 ST-DiT 塊的融合架構變體。這些設計如下圖 4 所示。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區


本文實驗了三種類型的融合架構,發現自適應歸一化表現出最佳的生成性能和計算效率。在本文的其余部分,MGF 使用自適應歸一化層,除非另有說明。

訓練策略和數據處理

為了在使用任意軌跡生成視頻時實現細粒度控制,以及文本、圖像或它們的組合,本文為不同的條件注入引入了幾種訓練策略。


運動條件訓練,受到 DragNUWA 和 MotionCtrl 的啟發,本文采用兩階段的訓練方法來進行軌跡學習。在第一階段,本文從訓練視頻中提取稠密光流作為軌跡,提供更豐富的信息以加速運動學習。在第二階段,為了使模型從完整的光流適應到更用戶友好的軌跡,本文根據運動分割結果和光流得分隨機選擇 1 到N個對象軌跡樣本。從稀疏軌跡中解決分散問題,本文應用高斯濾波進行細化。完成兩階段訓練后,Tora 能夠使用任意軌跡實現靈活的運動控制。


圖像條件訓練,本文遵循 OpenSora 使用的mask策略來支持視覺條件。具體來說,本文在訓練期間隨機解除幀的mask,未mask幀的視頻塊不受任何噪聲影響。這使得本文的 Tora 模型能夠無縫地將文本、圖像和軌跡整合到一個統一的模型中。


寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

實驗

定量和定性結果

本文將本文的方法與流行的運動引導視頻生成方法進行了比較。評估在三種設置下進行:16幀、64幀和128幀,所有幀的分辨率均為512X512,以確保公平比較。提供的軌跡被剪裁以適應不同評估的視頻長度。對于大多數基于U-Net的方法,本文采用序列推理,其中上一批生成的最后一幀作為當前批次的視覺條件,以符合其推理設置。如下表1所示,在基于U-Net的方法常用的16幀設置下,MotionCtrl和DragNUWA與提供的軌跡對齊較好,但仍不及本文提出的Tora。當幀數增加時,基于U-Net的方法在某些幀中表現出顯著的偏差,錯位誤差傳播并導致后續序列中的變形、運動模糊或對象消失。相比之下,Tora由于整合了transformer的縮放能力,對不同幀數表現出高度的魯棒性。Tora生成的運動更加平滑,并且更符合物理世界。當在128幀測試設置下進行評估時,Tora的軌跡準確性超過其他方法3到5倍,展示了其卓越的運動控制能力。在下圖5中,本文提供了不同分辨率和時長下的軌跡誤差分析。與基于U-Net的模型不同,后者隨時間推移表現出顯著的軌跡誤差,Tora的軌跡誤差僅隨時長增加而逐漸增加。這種誤差的逐漸增加與DiT模型在時長延長時觀察到的視頻質量下降相一致。結果清楚地表明,本文的方法在較長時長內保持了有效的軌跡控制。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

下圖6展示了本文提出的方法與主流運動控制技術的對比分析。在第一個場景中,涉及兩個人的共同運動,所有方法都能夠生成相對準確的運動軌跡。然而,本文的方法在視覺質量上表現出色。這一優勢主要歸功于使用了更長的序列幀,從而實現了更平滑的運動軌跡和更逼真的背景渲染。例如,在本文生成的自行車場景中,人類的腿部表現出真實的踩踏動作,而DragNUWA的輸出中腿部幾乎水平漂浮,違反了物理現實。此外,DragNUWA和MotionCtrl在視頻結尾處都出現了顯著的運動模糊。更進一步,盡管沒有攝像機運動條件,MotionCtrl在騎行序列中引入了意外的攝像機移動。在另一個案例中,隨著提供的軌跡不斷上升和下降,DragNUWA顯示了燈籠的嚴重變形。盡管MotionCtrl的軌跡相對準確,但生成的視頻未能匹配預期的兩個燈籠的描繪。總體而言,本文的方法不僅緊密遵循提供的軌跡,還最大限度地減少了物體變形,從而確保了更高保真度的運動表現。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

消融實驗

本文進行了若干消融研究以分析設計選擇的影響。所有模型均在480p分辨率、16:9寬高比和204幀的條件下進行評估。


軌跡壓縮。 為了將軌跡向量整合到與視頻片段相同的潛在空間中,本文研究了三種不同的軌跡壓縮方法,如下表2所總結的。第一種方法在連續的4幀區間內采樣中幀作為關鍵幀,并采用Patch-Unshuffle進行空間壓縮。盡管其簡單,但由于在遇到快速運動或遮擋時可能產生潛在的流估計誤差,這種方法在運動控制方面表現不佳。此外,所選幀間隔引起的片段間相似性放大,增加了學習難度。第二種方法使用平均池化來匯總連續幀。雖然這捕捉到了一般的運動感,但通過均質化軌跡的方向和幅度,它無意中犧牲了精度,從而稀釋了關鍵的運動細節。為了盡可能保留連續幀之間的軌跡信息,本文進一步使用3D VAE提取連續軌跡區間的全局上下文。軌跡數據被視覺化為RGB圖像格式,以利用現有的3D VAE權重。在大量軌跡視頻上進行廣泛訓練的這種設置下,產生了最有利的結果,強調了本文定制的3D VAE方法在軌跡壓縮中的有效性。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

設計塊和MGF的集成位置,本文按照之前描述的方法訓練了三種不同的MFG塊,結果如下表3所示。值得注意的是,自適應歸一化塊在FVD和軌跡誤差方面都比交叉注意力和額外通道條件方法更低,同時還表現出最高的計算效率。這種優勢歸因于其在不同條件下無需嚴格對齊的情況下進行動態特征適應的能力,這是交叉注意力常遇到的限制。此外,通過隨時間調節條件信息,它確保了時間一致性,這對于注入運動提示至關重要。相比之下,通道連接可能會導致信息擁塞,使運動信號的效果減弱。在訓練過程中,本文觀察到將歸一化層初始化為恒等函數對于實現最佳性能非常重要。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

此外,本文評估了MGF模塊在Spatial DiT和Temporal DiT塊中的集成位置。本文的研究結果表明,將MGFembeddingTemporal DiT塊中顯著增強了軌跡運動控制,軌跡誤差從23.39下降到14.25。這種方法提高了MGF與時間動態交互的效率,從而顯著改善了運動合成的保真度。


訓練策略。 本文評估了兩階段訓練方法的有效性,結果總結在下表4中。僅使用密集光流進行訓練效果不佳,因為它無法準確捕捉提供的稀疏軌跡中的復雜細節。另一方面,僅使用稀疏軌跡進行訓練提供的信息有限,使得學習過程更加困難。通過首先使用密集光流進行訓練,然后使用稀疏軌跡進行微調,本文的模型展示了對各種類型軌跡數據的更高適應性。這種方法不僅增強了整體性能,還提高了模型處理多樣化運動模式的能力。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

結論

本文介紹了Tora,這是第一個面向軌跡的擴散Transformer框架,用于視頻生成,集成了文本、圖像和軌跡條件。Tora有效地將任意軌跡編碼為時空運動塊,這與DiT的縮放特性相一致,從而實現了更逼真的物理世界運動模擬。通過采用兩階段訓練過程,Tora在各種持續時間、縱橫比和分辨率下實現了運動可控的視頻生成。值得注意的是,它可以生成符合指定軌跡的高質量視頻,最高可達204幀,分辨率為720p。這一能力突顯了Tora在處理多樣化運動模式時的多功能性和魯棒性,同時保持高視覺保真度。本文希望本文的工作為未來的運動引導擴散Transformer方法研究提供一個強有力的基線。


本文轉自 AI生成未來 ,作者:Zhenghao Zhang


原文鏈接:??https://mp.weixin.qq.com/s/QGz1sWZAgJQ02Ew96WcLtA??

已于2024-8-2 09:53:37修改
收藏
回復
舉報
回復
相關推薦
国产伦精品一区二区三区| 美女黄色片网站| 国产精品1luya在线播放| 亚洲视频网站在线观看| 成人黄色免费网站| 日韩在线观看免费| 久久动漫网址| 91色视频在线观看| 国产婷婷精品| 亚洲一区二区三区精品在线观看| 久久精品123| 黄网站色视频免费观看| 久久久99久久| 深夜福利视频一区| 亚洲第一国产精品| 日韩高清在线观看一区二区| 26uuu久久噜噜噜噜| 国精一区二区| 欧美日韩一区在线观看视频| 久久99久久久欧美国产| 日韩在线第三页| 国产亚洲一区二区三区在线观看| 日本高清好狼色视频| 69久久99精品久久久久婷婷| 欧美美女日韩| 国产精品综合不卡av| 免费在线看一区| 成人禁在线观看网站| 91国产精品成人| 人人精品久久| 欧美一区二区综合| www久久久久| 超碰个人在线| 国产成人精品午夜| 激情另类小说区图片区视频区| 日韩免费一级视频| 在线免费观看日韩欧美| 欧美亚洲视频一区| 成人一区二区在线观看| 三级黄视频在线观看| 性色av一区二区咪爱| 成人av网站免费| 欧美jizz18hd性欧美| 日韩免费观看高清| 久久蜜桃av一区精品变态类天堂 | 在线看三级网站视频| 国模叶桐国产精品一区| 成人av在线一区二区三区| 在线观看h网| 亚洲成人一区二区三区| 欧美主播一区二区三区| 欧美视频四区| 国产在线三区| 亚洲mv在线观看| 日本a级片免费| 在线免费观看视频一区| 久cao在线| 欧美一级片在线看| 99久久这里有精品| 日韩午夜小视频| 另类专区亚洲| 亚洲电影成人av99爱色| 国产成人a视频高清在线观看| 日韩精品高清在线| 欧美wwwsss9999| 少妇久久久久久被弄到高潮| 欧美大片拔萝卜| 国产成人免费在线观看不卡| 在线播放国产区| 日韩欧美一级特黄在线播放| 精品在线播放| 樱空桃在线播放| 亚洲成人激情综合网| 综合中文字幕| 成年人免费观看的视频| 欧美日韩国产高清一区二区三区| 国产一区99| 日韩av在线免费看| 国产成人午夜精品5599| 极品视频在线| 亚洲成人自拍| 亚洲裸体xxxx| 国产一区二区网址| 在线能看的av网址| 热国产热中文视频二区| 欧美久久精品午夜青青大伊人| 国内成人免费视频| 国产精品麻豆一区二区三区| 91精品国产91久久久久久吃药| 国产乱一区二区| 免费av网站在线观看| 亚洲自拍小视频| 一区二区三区四区不卡在线| 盗摄牛牛av影视一区二区| 99色这里只有精品| 精品99re| 国产精品论坛| www在线观看免费| 精品少妇一区二区三区| 日本午夜一本久久久综合| 国产区美女在线| 亚洲欧洲国产日韩精品| 亚洲欧美日韩图片| 久久久91精品国产一区二区三区| 日韩三级av高清片| 福利视频网站| 日本高清视频一区二区三区 | 欧美日韩www| 国产亚洲一卡2卡3卡4卡新区 | 91tv亚洲精品香蕉国产一区| 尤物在线视频| 在线观看黄av| 国产伦精品一区二区三区高清 | 337p亚洲精品色噜噜噜| 免费观看成人鲁鲁鲁鲁鲁视频| 91制片厂毛片| 成人精品福利视频| 久久精品国产综合| 亚洲午夜久久久久久久久电影院| 欧美xxxxx视频| 欧美三区在线| 日韩大胆成人| 日本高清不卡一区二区三区视频 | 在线播放中文字幕一区| 亚洲成人tv网| 玉足女爽爽91| 亚洲一区二区三区四区中文字幕| 综合欧美亚洲日本| 中文字幕视频一区二区三区久| 国产日韩欧美电影| 国产白丝精品91爽爽久久| 国产精品99精品久久免费| 七七婷婷婷婷精品国产| 美女精品在线| 久久99久久精品| 99久久er热在这里只有精品66| 国产久卡久卡久卡久卡视频精品| 美女高潮久久久| 成人黄色91| 亚洲综合欧美激情| 欧美中文字幕精品| 亚洲大片一区二区三区| 久久免费午夜影院| 国产乱国产乱300精品| 精品999成人| 欧美变态网站| 91jq激情在线观看| 好久没做在线观看| 在线免费观看的av| 欧美私人网站| 丝袜国产在线| 免费看成人人体视频| 女人色偷偷aa久久天堂| 999国产精品| 亚洲资源av| 欧美国产成人在线| 99久久免费精品| 国产一区二区0| 久久亚洲一区二区三区四区| 中文字幕不卡在线| 日韩精品一区二区三区在线播放| 欧美男人的天堂一二区| 亚洲成人中文字幕| 日韩三级成人av网| av一区二区在线看| 国产一区二区三区色淫影院| 午夜久久久久久久久久久| 日日干夜夜操s8| 福利电影导航| 欧美日韩国产在线观看网站| 日韩成人一级片| 99久久国产综合精品麻豆| 麻豆成人精品| 欧美精品 日韩| xxx成人少妇69| 精品国产aⅴ麻豆| 中文字幕黄色大片| 一区二区xxx| av免费在线网站| 香蕉视频一区二区三区| 高清不卡在线观看av| 日韩一区二区三区视频在线| 不卡av在线播放| 豆国产97在线| 国产a国产a国产a| 国产 日韩 欧美| 狠狠久久亚洲欧美| 欧美午夜美女看片| 午夜剧场成人观在线视频免费观看| 久久免费视频3| 日韩欧美国产综合在线| 成人c视频免费高清在线观看| 黑人巨大亚洲一区二区久 | 国产在线拍揄自揄拍无码| 免费在线毛片| 蜜桃视频在线观看视频| 日韩三级毛片| 国产无一区二区| 国内精品久久久| 91在线免费看|