機器人「看片」自學新技能:NovaFlow從生成視頻中提取動作流,實現零樣本操控
本文共同第一作者為李鴻宇(布朗大學博士生)和孫凌峰(Robotics and AI Institute 研究員,博士畢業于加州大學伯克利分校)。通訊作者付佳慧在 Robotics and AI Institute 任研究員,博士畢業于麻省理工學院。George Konidaris 為布朗大學副教授。
構建能夠在新環境中、無需任何針對性訓練就能執行多樣化任務的通用機器人,是機器人學領域一個長期追逐的圣杯。近年來,隨著大型語言模型(LLMs)和視覺語言模型(VLMs)的飛速發展,許多研究者將希望寄托于視覺 - 語言 - 動作(VLA)模型,期望它們能復刻 LLM 和 VLM 在泛化性上取得的輝煌。然而,理想很豐滿,現實卻很骨感。VLA 模型的端到端訓練范式,要求海量與特定機器人相關的 “視覺 - 語言 - 動作” 數據。與 LLM 和 VLM 可以輕易獲取的網絡規模數據不同,機器人數據的采集成本極高、難度極大,這形成了一個巨大的 “數據瓶頸”。有沒有可能繞過這個瓶頸,讓機器人不依賴于昂貴的 “親身經歷” 數據,也能學會新技能呢?
最近,來自布朗大學(Brown University)和機器人與人工智能研究所(Robotics and AI Institute,前波士頓動力人工智能研究所)的研究團隊提出了一個全新的自動操作框架 NovaFlow。該方法另辟蹊徑,不再要求通過機器人或者人類演示去收集數據,而是巧妙地利用了大型視頻生成模型中蘊含的、源于互聯網海量視頻的 “常識” 知識。通過讓機器人 “觀看” 由視頻模型生成的任務視頻,并從中提煉出一種名為 “可執行 3D 對象流” 的任務表征,NovaFlow 成功實現了在無需任何真實演示或額外訓練的情況下,讓機器人零樣本(Zero-Shot)完成復雜的操控任務。這項工作為通用機器人的實現提供了一條極具潛力的新路徑。

- 論文標題:NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos
- 論文地址:https://novaflow.lhy.xyz/
- 作者信息:Hongyu Li (hli230@cs.brown.edu), Jiahui Fu (jfu@rai-inst.com)

核心思想:從 “觀看” 視頻到 “理解” 動作
傳統的機器人學習范式,要么需要人類提供大量的示教數據(模仿學習),要么需要機器人在環境中進行大量的試錯(強化學習),兩者都效率不高且泛化能力有限。NovaFlow 的核心洞見在于:將人類指令的 “任務理解” 與機器人的 “底層控制” 徹底解耦。
研究團隊假設,在互聯網海量視頻數據上訓練出來的視頻生成模型,已經學習到了關于世界如何運作的豐富常識和物理知識。比如,如何 “把杯子掛到架子上”,這個任務中物體間的相對位置關系和軌跡等信息,都已涵蓋在視頻模型中。因此,我們不再需要從頭教機器人這些知識,而是可以通過一個簡單的文本指令(例如 “把杯子掛到架子上” 或者 “把抽屜打開”)和一張現場照片,讓視頻模型生成一段展示該任務如何完成的 “教學視頻”。
然而,原始的視頻像素無法直接被機器人控制器使用。這里的關鍵挑戰是如何將視頻中非結構化的視覺信息,轉化為機器人可以理解和執行的結構化指令。為此,NovaFlow 引入了一個核心的中間表征 —— 可執行 3D 對象流(Actionable 3D Object Flow)。
這種 “動作流” 本質上是目標物體在三維空間中運動軌跡的點云集合。它只描述物體本身應該如何移動,而與執行任務的是人手還是機械臂無關。這種以物體為中心的設計,是 NovaFlow 能夠跨不同機器人平臺(embodiment-agnostic)實現泛化的關鍵。

圖 1:NovaFlow 框架概覽。給定任務指令,模型生成一段任務視頻,并從中提煉出與機器人觀測對齊的 3D 可執行對象流,進而生成機械臂軌跡,完成對剛性、關節體和可變形物體的操作。
NovaFlow 的工作流程:兩步走
NovaFlow 的整體框架由兩個核心組件構成:動作流生成器(Flow Generator) 和動作流執行器(Flow Executor)。
動作流生成器:四步將視頻 “翻譯” 成 3D 動作指令
這個模塊的目標是,根據用戶輸入的一句自然語言指令和一張初始場景的 RGB-D 圖像,生成目標物體的 3D 動作流。整個過程無需任何人工干預,完全由一系列預訓練好的視覺模型完成。

圖 2:動作流生成器。從初始圖像和文本提示生成視頻,再通過一系列視覺模塊將其提煉為以對象為中心的 3D 可執行流。
1. 視頻生成:首先,使用像 通義萬相 或 可靈 AI 這樣的 SOTA 視頻生成模型,根據初始圖像和文本指令(如 “打開抽屜”)生成一段幾秒鐘的視頻。

2. 2D 到 3D 提升:由于生成的視頻是 2D 的,而我們在 3D 世界中執行任務,我們需要將 2D 信息提升到 3D 空間。NovaFlow 通過單目視頻深度估計算法,為視頻的每一幀生成對應的深度圖。由于單目深度估計模型會產生系統性誤差,研究團隊額外利用了第一幀真實的深度圖來對估計的單目深度視頻進行校準。
3. 3D 點追蹤:在有了 3D 視頻后,使用 3D 點追蹤模型,密集地追蹤視頻中每一個點在三維空間中的運動軌跡。
4. 對象分割與提?。荷弦徊阶粉櫫苏麄€場景的運動。為了得到 “對象” 的動作流,NovaFlow 使用開放詞匯的對象檢測和分割模型(如 Grounded-SAM2),將視頻中的目標物體(如抽屜)從背景中分割出來。最后,只保留屬于該物體的運動軌跡,就得到了最終的、純凈的 “可執行 3D 對象流”。
值得一提的是,由于視頻生成模型有時會產生不符合物理規律或指令的 “幻覺” 內容,研究團隊還引入了一個拒絕采樣步驟:并行生成多個候選視頻及其動作流,然后利用一個強大的 VLM 模型(如 Gemini)來評估哪個動作流最 “合理”,并選擇最優的那個用于后續執行。

動作流執行器:將 3D 動作流轉化為機器人動作
這個模塊負責將抽象的 3D 對象流 “翻譯” 成機器人可以執行的具體動作序列。它針對不同類型的物體,采用了不同的策略:
- 對于剛性物體(和鉸接物體如抽屜):由于移動物體是剛性的,它的運動可以用一個簡單的剛體變換(旋轉和平移)來描述。執行器通過分析動作流中關鍵點的變化,計算出物體在每個時間步的 6D 位姿(位置 + 姿態)。然后,結合抓取位姿生成模型,計算出機械臂末端執行器需要達到的相應位姿序列,最后通過軌跡優化生成平滑且無碰撞的關節指令。
- 對于可變形物體(如繩子):可變形物體的動力學更為復雜,無法用簡單的剛體變換描述。此時,3D 動作流就成了一個更強大的工具。它被用作一個密集的追蹤目標,指導一個基于模型的規劃器(如模型預測控制 MPC)進行操作。規劃器會利用一個粒子動力學模型來預測繩子的形態變化,并不斷優化機器人的動作,使得繩子的實際狀態盡可能地去擬合動作流所定義的理想狀態。
“真金火煉”:實驗效果如何?
研究團隊在 Franka 機械臂(桌面操作)和波士頓動力的 Spot 四足機器人(移動操作)上,對 NovaFlow 進行了廣泛的實驗驗證。任務涵蓋了剛性物體(掛杯子、插木塊)、鉸接物體(開抽屜)和可變形物體(拉直繩子)三大類。

圖 3:真實世界桌面操作任務的成功率對比。NovaFlow(紫色)在所有零樣本方法中表現最佳,甚至優于使用 10 個和 30 個示教數據訓練的模仿學習策略(DP)。
實驗結果令人印象深刻:
1. 超越同類零樣本方法:與 AVDC、VidBot 等同樣不需要示教數據的零樣本方法相比,NovaFlow 在各項任務上均取得了最高的成功率。這得益于其精確的 3D 動作表示,而其他方法多依賴 2D 光流,缺乏 3D 感知和長期一致性。
2. 超越需要數據的模仿學習方法:更引人注目的是,NovaFlow 的表現甚至超過了使用 10 個乃至 30 個真實示教數據為每個任務單獨訓練的模仿學習基線(Diffusion Policy)。這充分證明了從生成視頻中提取常識知識的巨大潛力,成功繞過了對真實機器人數據的依賴。
挑戰與未來展望

盡管 NovaFlow 取得了顯著成功,但研究也揭示了當前方法的局限性。失效分析表明,大部分的失敗并非發生在 “理解” 階段,而是發生在物理執行的 “最后一公里”,如抓取失敗、或因意外的物理動態導致的執行偏差。這暴露了當前開環(open-loop)規劃系統的脆弱性 —— 計劃制定后便不再根據實際情況調整。未來的一個重要研究方向是開發閉環反饋系統。通過實時感知環境反饋,動態地調整或重新規劃生成的動作流,從而使系統對現實世界中的不確定性和干擾更加魯棒。
總而言之,NovaFlow 為機器人自主操作提出了一個全新的、無需示教的框架。它通過解耦任務理解與底層控制,并創造性地利用大型視頻生成模型作為常識知識的來源,有力地證明了在沒有機器人特定數據的情況下實現通用、泛化操作的可能性。這或許將是我們向著能夠 “舉一反三” 的通用機器人邁出的關鍵一步。



































