LongVie突破超長視頻生成極限:1分鐘電影級絲滑視頻,雙模態控制告別卡頓退化


論文鏈接:??https://arxiv.org/pdf/2508.03694??
項目鏈接:https://vchitect.github.io/LongVie-project/?
亮點直擊
- 對現有可控長視頻生成模型的局限性進行了全面分析,識別出兩個關鍵挑戰:長期時序不一致性和視覺質量退化。基于此提出LongVie,首個用于可控長視頻生成的自回歸框架。
- 為了提升視覺質量,提出了一種多模態控制機制,將密集控制信號與稀疏控制信號相結合,以發揮它們各自的優勢。同時引入一種感知退化的訓練策略,以平衡它們的貢獻。
- 為了增強時間一致性,利用了統一的噪聲初始化和全局控制信號歸一化,從而在時間步之間實現世界一致性生成動態。
- 引入了LongVGenBench,一個用于可控長視頻生成的評估數據集,包含100個多樣化、高質量的視頻,每個視頻長度均不少于一分鐘。

LongVie:一種可控超長視頻生成框架
總結速覽
解決的問題
- 長期時序不一致性:現有方法在生成長視頻時難以保持前后幀之間的時間一致性,導致動作不連貫或場景突變。
- 視覺質量退化:隨著視頻長度增加,生成內容的細節和清晰度顯著下降。
- 控制能力不足:單一模態的控制方式(如僅使用文本或關鍵點)難以精準引導復雜視頻內容。
提出的方案
- 提出LongVie:首個用于可控超長視頻生成的端到端自回歸框架,從根本上解決長視頻生成中的一致性與質量問題。
- 構建LongVGenBench:一個專為可控長視頻生成設計的評測基準集,包含100個多樣化、高質量的視頻(每個視頻時長超過1分鐘)。
應用的技術
- 統一的噪聲初始化策略:確保不同時間段的視頻片段在生成過程中保持連續性,提升時序一致性。
- 全局控制信號歸一化機制:在整個視頻生成過程中統一控制信號的尺度和分布,避免控制漂移。
- 多模態控制框架:
- 融合稀疏控制信號(如關鍵點)與密集控制信號(如深度圖),提升控制精度和靈活性。
- 感知退化訓練策略:
- 動態調整不同模態控制信號的重要性,緩解長時生成中的視覺退化問題。
達到的效果
- 在多個維度上實現了SOTA性能:
- 長距離可控性:能夠精確控制超過一分鐘的視頻內容。
- 時序一致性:生成的視頻在時間維度上保持連貫自然。
- 視覺質量:在長時生成過程中仍保持高分辨率和高保真度。
- LongVGenBench為后續研究提供了統一的評估標準,推動了超長視頻生成領域的發展。
方法
概述。 在 CogVideoX 的基礎上擴展了一個 ControlNet 風格的架構,以引入外部控制信號。一個輕量級的控制分支與基礎模型部分共享,用于處理控制信號。盡管在短視頻合成中表現有效,但大多數基于擴散的可控模型(包括 CogVideoX 及其變體)并未設計用于處理長時長生成,例如一分鐘的序列。生成如此長的視頻在一次前向傳播中計算代價過高。因此,常見的做法是以自回歸的方式生成視頻——依次生成短片段,每個片段從前一個片段的最后一幀開始初始化。在本文的實現中,采用了這種策略,使用了一個基于深度圖引導的 CogVideoX 變體。然而,正如下一小節所討論并在下圖2中所示,這種策略引入了兩個主要挑戰:(1)連續片段之間的時間不一致性,以及(2)由于誤差累積導致的逐步質量下降。

重新思考可控長視頻生成
時間不一致性。 為了研究時間不一致性的來源,本文分析了可控視頻生成模型中使用的輸入信號。在依賴外部控制的模型中,例如深度圖(見下圖3 (a)),這些信號通常是對每個片段獨立歸一化的。本文發現,這種逐片段歸一化在片段之間引入了不一致性。例如,同一場景在連續片段中可能具有不同的深度值。結果是,模型在片段之間接收到不匹配的引導,從而扭曲了其對場景幾何和運動連續性的感知。這會導致時間偽影,例如不自然的縮放或突然的視角變化(下圖3 (a))。這些發現表明,獨立歸一化破壞了片段之間控制信號的對齊,特別是當這些信號缺乏全局上下文或一致的參考尺度時,最終導致片段之間出現可見的不一致性。

受到本文對控制信號歸一化分析的啟發,本文進一步研究了噪聲初始化對時間一致性的影響。在基于擴散的視頻生成中,初始噪聲在決定輸出的整體結構和運動方面起著關鍵作用。本文觀察到,時間不一致性經常出現在每個生成片段的開頭,表明噪聲初始化與時間擾動之間存在強相關性。在標準的自回歸生成中,每個片段都從不同的隨機噪聲輸入中采樣。這種變化在片段之間引入了運動、外觀或場景布局的不一致性,即使控制信號保持對齊。本文的實證研究(見上圖3 (b))驗證了這一效應:與第一個片段相比,初始化噪聲差異(通過均方根誤差 RMSE 衡量)較大的片段,更容易表現出明顯的時間不一致性,如上圖3 (b) 中的結構相似性指數(SSIM)曲線所示。
總之,長視頻生成中的時間不一致性主要由片段之間未對齊的控制信號和初始化噪聲的變化引起,這兩者都會破壞運動和外觀的連續性。
視覺質量退化。 在對時間不一致性的分析基礎上,進一步研究了長視頻生成中的視覺質量退化問題。使用逐幀信號控制長視頻生成是一種在實踐中保持穩定性和視覺質量的策略。然而,不同的控制模態具有固有的權衡,這限制了它們在長序列中的有效性。以深度圖作為一種稠密模態為例,它在幀間提供像素級的結構信息。雖然它在保持局部幾何方面有效,但對鄰近或遠處區域的控制能力有限,且缺乏表示高級語義(如物體運動或場景動態)的能力。如圖4所示,這些限制在復雜場景中會導致偽影和質量下降。相比之下,基于點的控制是一種稀疏模態,通過指定少量關鍵點來捕捉語義線索。雖然它在引導運動和物體結構方面有效,但由于其稀疏性,使其對場景變化敏感,并且在跨幀保持語義對齊方面不夠可靠。這些限制表明,單獨使用稠密或稀疏控制都不足以實現一致的長視頻生成。當控制信號無法與不斷變化的場景對齊時,視覺質量會逐步退化。
LongVie 框架
為了解決上述挑戰,提出了LongVie——一個用于可控長視頻生成的框架,如下圖5所示。模型的核心是一個多模態框架,結合了稠密和稀疏控制,有效地引導場景生成。

多模態控制注入。 具體來說,采用深度圖作為稠密控制信號,采用點圖作為稀疏控制信號,分別利用深度圖提供的詳細結構信息和點軌跡捕捉的高級語義線索。為了構建點圖序列,遵循 DAS 中的方法,在幀間追蹤一組關鍵點,并根據其深度值進行著色。



全局歸一化。 為減少由獨立歸一化控制輸入引起的時間不一致性,本文對深度視頻采用全局歸一化策略。具體而言,本文計算整個視頻序列中所有像素值的第 5 百分位數和第 95 百分位數,作為全局最小值和最大值歸一化邊界。然后將深度值截斷至該范圍,并線性縮放至【0,1】 。這種基于百分位的歸一化對異常值具有魯棒性,并確保所有片段中的深度值處于一致的尺度。如上圖 3(右上)所示,該全局歸一化有效減少了片段間的變化,帶來了更時間對齊的控制信號。歸一化后,深度視頻被分割為重疊的片段,以匹配自回歸推理過程,并便于相應點圖的提取。
統一噪聲初始化。 為進一步增強時間一致性,本文在生成過程中對所有視頻片段使用共享的噪聲初始化。本文不再為每個片段單獨采樣噪聲向量,而是采樣一個統一的噪聲實例,并將其應用于整個序列。該統一噪聲作為一致的潛在先驗,減少了由獨立采樣噪聲引起的相鄰片段之間的變化。如上圖 3(右下)所示,這種方法顯著提升了時間連貫性,緩解了閃爍現象,并促進了生成視頻中的平滑過渡。
模態平衡的退化策略。 雖然多模態控制有可能帶來更豐富和更準確的視頻生成,但簡單地結合稠密和稀疏控制信號并不能保證性能提升。在實踐中,本文觀察到像深度這樣的稠密信號往往在生成過程中占主導地位,常常壓制了關鍵點等稀疏信號所提供的語義和運動層級引導。這種不平衡可能導致視覺質量不佳,特別是在需要時間上的高級語義對齊的場景中。
為了解決這個問題,本文提出了一種基于退化的訓練策略,旨在調節稠密控制信號的相對影響力,并鼓勵更平衡地利用兩種模態。該策略通過在特征層和數據層的受控擾動,削弱稠密輸入的主導性:


該操作降低了稠密特征的幅度,使模型更加依賴稀疏模態所提供的補充信息。隨著時間推移,這促使網絡學習更平衡地整合兩種控制來源。

b)自適應模糊增強: 對稠密輸入應用一個平均模糊操作,使用一個隨機選擇的奇數大小核來降低圖像清晰度,從而限制模型對局部深度細節的過擬合傾向。
這些退化方法共同防止對稠密信號的過度依賴,并提升模型整合稀疏模態補充信息的能力,最終增強生成視頻的長期質量和一致性。
面向下游視頻生成任務的多樣性
視頻編輯。 LongVie 可用于長距離視頻編輯。本文首先編輯初始幀,選擇目標區域并使用 FLUX 的填充模型進行補全。補全后的幀與稠密和稀疏控制信號一起輸入 LongVie,以生成時間一致的編輯視頻。
運動與場景遷移。 LongVie 支持跨長視頻的運動與場景遷移。給定一個具有目標運動或布局的源視頻,使用 FLUX 的深度到圖像模型合成反映所需屬性的初始幀。提取深度圖和點圖作為 LongVie 的控制信號,從而生成在保持遷移運動或場景的同時,確保時間和視覺一致性的視頻。
可控的 Mesh 到視頻生成。 LongVie 能夠從無紋理的動畫 3D 網格生成長視頻。本文在 3D 引擎(例如 Blender)中渲染網格以生成動畫。使用 depth-to-image 模型合成初始風格化幀,并從動畫中提取深度圖和點軌跡。這些信號引導 LongVie 生成連貫、高質量的視頻,使動畫 3D 資產能夠無縫集成到真實感領域中。
實驗
實現細節。 通過復制并微調每個模型中的 18 個 DiT 模塊來實現 LongVie。在訓練過程中,首先使用 Video Depth Anything 提取深度圖作為稠密控制信號,然后應用 SpatialTracker 基于歸一化深度跟蹤 3D 點。按照 DAS 的方法,本文從每個短視頻中均勻采樣 4,900 個點作為稀疏控制信號。每個訓練視頻被劃分為 49 幀的片段,分辨率為 480x720,幀率為 8 幀每秒(fps)。然后,使用 Qwen2.5-VL-7B 自動為訓練視頻生成字幕。總共使用了 130,000 個視頻來訓練 LongVie。訓練數據包括 ACID、VchitectT2VDataVerse 和 MovieNet。

定性與定量結果
LongVGenBench。 為了解決缺乏適用于可控長視頻生成的基準問題,引入了 LongVGenBench,這是一個包含 100 個 one-shot 視頻的數據集,每個視頻時長至少為一分鐘,分辨率為 1080p。現有數據集不足以勝任此任務,因為它們缺乏長時間、連續、one-shot 的視頻,而這對于評估時間一致性和可控性至關重要。LongVGenBench 覆蓋了多種真實世界和游戲場景,并包含諸如快速場景切換和復雜動作等具有挑戰性的案例,使其成為該任務的強基準。用于評估時,每個視頻被劃分為多個 6 秒片段,并使用 Qwen-2.5-VL-7B 自動生成字幕作為提示。每個視頻進一步被分割為十個 49 幀的片段,幀率為 8 fps,片段之間有 1 幀重疊,遵循本文實驗中使用的自回歸設置。從劃分后的片段中提取控制信號。在驗證過程中,不對每個視頻的第一幀進行任何變換,以確保公平比較并實現對生成質量的準確評估,因為可參考的真實幀是可用的。
評估指標與基線模型。 為了評估 LongVie 的有效性,本文對多個視頻生成模型進行了適配,以支持長視頻生成,包括基礎模型 CogVideoX;可控模型 VideoComposer、Motion-I2V、Go-With-The-Flow 和 DAS;以及一個基于深度控制的 CogVideoX 變體,稱為 Depth-LV。本文還與 StreamingT2V 進行了比較,這是一個強大的基于圖像驅動的長視頻生成基線模型。
在評估中,遵循廣泛使用的基準 VBench,并采用七個指標——背景一致性(Background Consistency)、主體一致性(Subject Consistency)、整體一致性(Overall Consistency)、時間風格(Temporal Style)、動態程度(Dynamic Degree)、時間閃爍(Temporal Flickering)和成像質量(Imaging Quality)——來評估時間連貫性和視覺逼真度。本文還報告了傳統的基于相似度的指標,包括 SSIM 和 LPIPS,以量化生成視頻相對于其輸入參考的重建質量。
實驗結果。 下表 1 中的定量結果表明,LongVie 在所有基線模型中實現了最佳的時間一致性和可控性,達到了最先進的性能。

為了進一步展示 LongVie 在可控長視頻生成方面的有效性,本文在下圖 7 中展示了視頻編輯結果,LongVie 能夠忠實地替換指定的目標角色或物體。

下圖 8 展示了動作和場景遷移的結果,表明 LongVie 能夠處理復雜的動作和場景變換。此外,

在下圖 9 中展示了可控的 mesh-to-video 生成結果。本文首先將所需的動畫 3D 模型放置在 Blender 中,并使用 FLUX 進行重新上色。如圖所示,LongVie 成功地從重新上色的網格中合成了高質量的視頻。

用戶研究。 為了全面評估各模型,本文精心設計并開展了一項主觀用戶研究。為了減輕參與者的疲勞,本文對評估流程進行了相應設計。從生成的視頻中,本文隨機選擇了 80 個樣本,每個樣本都配有相應的提示詞和控制信號。評估聚焦于五個關鍵方面:視覺質量(Visual Quality)、提示詞與視頻一致性(Prompt-Video Consistency)、條件一致性(Condition Consistency)、顏色一致性(Color Consistency)以及時間一致性(Temporal Consistency)。本文比較了五個模型:CogVideoX、StreamingT2V、DAS-LV、Depth-LV 和 LongVie。共邀請了 60 名參與者。對于每個評估維度,參與者對五個模型的輸出進行排序,最好的賦 5 分,最差的賦 1 分。所有評估的平均得分匯總于下表 2。如圖所示,本文提出的方法 LongVie 在所有評估標準中均獲得了最高分。

消融研究
統一初始噪聲與全局歸一化。 觀察發現,噪聲的統一初始化以及控制信號的歸一化對生成視頻的一致性和質量都有顯著影響。為了評估它們的影響,本文在三種設置下生成視頻:無全局歸一化、無統一初始噪聲,以及兩者都無。下表 3 中的結果使用四個對應的指標進行評估,表明全局歸一化和統一初始噪聲均對可控長視頻生成有積極貢獻。

退化訓練策略。 對退化感知訓練策略進行了消融研究,以平衡多模態的貢獻。上表 3 中的結果顯示,特征級和數據級的策略都提升了長視頻生成的視覺質量。
結論
本工作研究了可控長視頻生成中的時間不一致性與視覺退化的成因。為了解決這些問題,提出了 LongVie,一個多模態引導框架,以自回歸方式整合稠密與稀疏的控制信號,并輔以退化感知訓練策略以提升視覺質量。該方法還對控制信號應用全局歸一化,并使用統一噪聲初始化以增強時間一致性。為了評估可控長視頻生成,構建了 LongVGenBench,一個包含 100 個高質量視頻的數據集,每個視頻時長超過一分鐘,涵蓋真實世界與游戲場景。在 LongVGenBench 上的實驗和消融研究表明,LongVie 在長視頻生成中達到了SOTA。此外,下游的視頻生成任務也表明,LongVie 能夠生成最長達一分鐘的高質量可控視頻。
本文轉自AI生成未來 ,作者:AI生成未來

















