突破長視頻生成瓶頸:南大、TeleAI推出全新AI生成范式MMPL,讓創意一鏡到底
向迅之,南京大學 R&L 課題組在讀博士生,導師是范琦副教授。研究聚焦圖像/視頻生成與世界模型等 AIGC 方向。
你是否曾被 AI 生成視頻的驚艷開場所吸引,卻在幾秒后失望于?彩漂移、畫面模糊、節奏斷裂? 當前 AI 長視頻?成普遍?臨 “高開低走 ” 的困境:前幾秒驚艷奪? ,之后卻質量驟降、細節崩壞;更別提幀間串行生成導致的低效問題 —— 動輒數小時的等待,實時預覽幾乎難以企及。
這—行業難題,如今迎來突破性解法!
南京大學聯合 TeleAI 推出長視頻自回歸生成新范式——Macro-from-Micro Planning( MMPL),重新定義 AI 視頻創作流程。
靈感源自電影工業的 “分鏡腳本 + 多組并行拍攝” 機制,MMPL 首創 “宏觀規劃、微觀執行 ” 的雙層?成架構:
- 先謀全局:在宏觀層面統—規劃整段視頻的敘事脈絡與視覺—致性,確保劇情連貫、風格統—;
- 再精細節:將長視頻拆解為多個短片段,并通過并行化?成管線?效填充每—幀細節,大幅提升速度與穩定性。
成果令人振奮:
- 實現分鐘級?質量長視頻穩定生成,告別 “虎頭蛇尾”;
- ?成效率顯著提升,結合蒸餾加速技術,預覽幀率最高可達約 32 FPS ,接近實時交互體驗;
- 在色彩—致性、 內容連貫性上全?超越傳統串行生成方案。
MMPL 不僅是—項技術升級,更是向 “AI 導演” 邁進的重要—步 —— 讓機器不僅會 “拍鏡頭” ,更能 “講好—個故事”。

- 論文標題:Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
- 作者:Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li
- 機構 :南京大學;中國電信人工智能研究院;上海交通大學;香港中文大學(深圳);中國科學院大學
- 論?地址:https://arxiv.org/abs/2508.03334
- 項?主頁:https://nju-xunzhixiang.github.io/Anchor-Forcing-Page/

傳統困境:逐幀?成的兩大瓶頸
在長視頻生成領域,隨著時長從幾秒擴展到數十秒甚至一分鐘以上,主流自回歸模型面臨兩個根本性挑戰:
1. 時域漂移(Temporal Drift)
由于每—幀都依賴前—幀生成,微小誤差會隨時間不斷累積,導致畫面逐漸 “跑偏”:人物變形、場景錯亂、色彩失真等問題頻發,嚴重影響視覺質量。
2. 串?瓶頸(Serial Bottleneck)
視頻必須逐幀?成,?法并?處理。?成 60 秒視頻可能需要數分鐘乃?數?時,難以?持實時預覽或交互式創作。

這些問題使得當前 AI 視頻仍停留在 “ 片段級表達” ,難以勝任需要長時連貫性的敘事任務。
創新突破:導演式雙層生成框架 MMPL
為解決上述問題,我們提出 Macro-from-Micro Planning( MMPL) —— — 種 “先規劃、后填充” 的兩階段生成范式,其核心思想是:
先全局規劃,再并行執行。
這—理念借鑒了電影工業中 “導演制定分鏡腳本 + 多攝制組并行拍攝” 的協作模式,將長視頻生成從 “接龍式繪畫” 轉變為 “系統性制片 ”。
MMPL 的核心優勢在于實現了三大突破:
- 長時?致性:通過宏觀規劃抑制跨片段漂移;
- 高效并行性:各片段可獨立填充細節,支持多 GPU 并行;
- 靈活調度性:采用流水線機制,進—步提升資源利用率。
最終,系統可在保證高質量的前提下,實現分鐘級、節奏可控的穩定?成,結合蒸餾加速方案,預覽速度可達 ≥32 FPS ,接近實時交互體驗。
效果呈現:更穩、更長 、更快
在統—測試集上,MMPL 顯著優于現有方法(如 MAGI 、SkyReels 、CausVid 、Self Foricng 等),在視覺質量、時間—致性和穩定性方面均取得領先。
- 更穩:無明顯色彩漂移、 閃爍或結構崩壞,長時間生成仍保持高保真;
- 更長: 支持 20 秒、30 秒乃至 1 分鐘的連貫敘事,片段銜接自然;
- 更快:得益于并行填充與自適應調度,長視頻生成整體吞吐量大幅提升。


技術解析:兩階段協同工作機制
MMPL 的成功源于其精心設計的 “規劃 — 填充” 雙階段架構。整個流程分為兩個層次:微觀規劃( Micro Planning) 和宏觀規劃( Macro Planning),隨后進行并行內容填充(Content Populating)。
第?階段:雙層規劃,構建穩定骨架

1. Micro Planning: 片段內關鍵幀聯合預測
我們將長視頻劃分為多個固定長度的片段(例如每段 81 幀)。對每個片段,模型不直接生成所有幀,而是基于首幀
,聯合預測?組稀疏的關鍵未來錨點幀,包括:
- 早期鄰近幀

- 中部關鍵幀

- 末端結束幀

記錨點集合為
,其生成過程建模為:

這些錨點在同—去噪過程中聯合生成,彼此之間語義協調、運動連貫;且均以首幀為條件單步預測,避免了多步累積誤差。它們共同構成了該片段的 “視覺骨架” ,為后續填充提供強約束。
2. Macro Planning:跨片段敘事?致性建模
為了確保整個視頻的連貫性,我們將各片段的 Micro 計劃串聯成—個?回歸鏈:第 s 段的末端錨點作為第 s + 1 段的起始條件。設第 s 段的錨點集合為
,首幀為
,則全局規劃可表示為:

這種 “分段稀疏連接” 的設計,將誤差累積從 T 幀級別降低至 S 段級別( S ? T),從根本上緩解了長程漂移問題。
第二階段:并行填充,釋放計算潛能

1. Content Populating:基于錨點的并行細節生成
在所有片段的錨點
就緒后,即可并行填充各?段內的中間幀。
以第 i 個片段為例,其內容被劃分為兩個子區間:

條件概率分解如下:

由于每個片段的填充僅依賴本片段的錨點
,與其他片段無關, 因此所有片段的內容填充可完全獨立:

這意味著: 多個片段可以同時在不同 GPU 上并行?成,極大提升效率。
2. Adaptive Workload Scheduling:動態調度,實現流水線加速
為進—步提升資源利用率,我們引入自適應工作負載調度機制,實現 “規劃” 與 “填充” 的重疊執行:
當片段 s 的錨點生成后,即可:
- 立即啟動下—片段 s + 1 的 Micro 計劃;
- 同時,片段 s 自身可提前開始中間幀填充,無需等待全局規劃完成。
該機制的形式化表達為:

其中,下—片段的起始幀
可選擇為
或
, 由此衍?出兩種運行模式:
最小內存峰值模式
選用
作為
,跳過當前片段末尾部分
的填充。
- 優勢:降低峰值內存占用與單段延遲;
- 缺點:引入幀重用 ,影響吞吐量。
最大吞吐量模式
選用
作為
,完整生成當前片段所有中間幀。
- 優勢:消除冗余,最大化流水線效率;
- 缺點:每段計算負載更高。
這兩種策略可在內存、延遲與吞吐量之間靈活權衡,適配不同部署場景。
結語:從 “會畫” 到 “會拍”,AI 開始有了導演思維
當 AI 不再局限于逐幀生成,而是具備了從整體出發的規劃能力 —— 理解情節的推進、協調畫面的連貫性、控制運動的節奏,長視頻生成便邁出了從 “ 片段拼接” 走向 “統—表達” 的關鍵—步。我們希望,MMPL 能為視頻創作提供—種更穩定、更高效的技術路徑。借助其近實時的生成能力,創作者可以在快速反饋中不斷調整與完善自己的構想,讓創意更自由地流動。
也許真正的 “所見即所得” 尚在遠方 ,但至少,我們正朝著那個方向,穩步前行。





































