視頻生成模型變身智能體：斯坦福Percy Liang等提出VideoAgent，竟能自我優(yōu)化

作者：機(jī)器之心 2024-10-21 12:40:00

文本生視頻模型的這些近期應(yīng)用既有望實(shí)現(xiàn)互聯(lián)網(wǎng)規(guī)模級(jí)別的知識(shí)遷移（比如從生成人類視頻到生成機(jī)器人視頻），也有望打通實(shí)現(xiàn)通用智能體的道路（比如用單個(gè)策略控制不同環(huán)境中不同形態(tài)的機(jī)器人來執(zhí)行多種多樣的任務(wù)）。

現(xiàn)在正是「文本生視頻」賽道百花齊放的時(shí)代，而且其應(yīng)用場(chǎng)景非常多，比如生成創(chuàng)意視頻內(nèi)容、創(chuàng)建游戲場(chǎng)景、制作動(dòng)畫和電影。甚至有研究表明還能將視頻生成用作真實(shí)世界的模擬器，比如 OpenAI 今年初就發(fā)布過一份將視頻生成模型作為世界模擬器的技術(shù)報(bào)告，參閱機(jī)器之心報(bào)道《我在模擬世界！OpenAI 剛剛公布 Sora 技術(shù)細(xì)節(jié)：是數(shù)據(jù)驅(qū)動(dòng)物理引擎》。

然而，現(xiàn)實(shí)情況是，文本生視頻模型的下游應(yīng)用還很有限，原因包括幻覺問題以及生成的視頻內(nèi)容不符合現(xiàn)實(shí)物理機(jī)制等。

雖然理論上可以通過擴(kuò)大數(shù)據(jù)集和模型大小來有效減輕這些問題，但對(duì)視頻生成模型來說，這會(huì)很困難。

部分原因是標(biāo)注和整理視頻的人力成本很高。另外，視頻生成方面還沒有一個(gè)非常適合大規(guī)模擴(kuò)展的架構(gòu)。

除了擴(kuò)大規(guī)模，LLM 領(lǐng)域的另一個(gè)重要突破是能整合外部反饋來提升生成質(zhì)量。那文本生視頻模型也能受益于這一思路嗎？

為了解答這一問題，一個(gè)多所機(jī)構(gòu)的研究團(tuán)隊(duì)探索了視頻生成模型能自然獲得的兩種反饋類型，即來自視覺 - 語(yǔ)言模型（VLM）的 AI 反饋和將生成的視頻轉(zhuǎn)換成運(yùn)動(dòng)控制時(shí)得到的真實(shí)世界執(zhí)行反饋。

為了利用這些反饋來實(shí)現(xiàn)視頻生成模型的自我提升，該團(tuán)隊(duì)提出了 VideoAgent，即視頻智能體。該研究有三位共一作者：Achint Soni、Sreyas Venkataraman 和 Abhranil Chandra。其他參與者包括滑鐵盧大學(xué) Sebastian Fischmeister 教授、斯坦福大學(xué)基礎(chǔ)模型研究中心（CRFM）主任 Percy Liang 以及 DeepMind 的 Bo Dai 和 Sherry Yang（楊夢(mèng)嬌）。

論文標(biāo)題：VideoAgent: Self-Improving Video Generation
論文地址：https://arxiv.org/pdf/2410.10076
代碼地址：https://github.com/Video-as-Agent/VideoAgent

不同于將生成的視頻直接轉(zhuǎn)換成運(yùn)動(dòng)控制的策略，VideoAgent 的訓(xùn)練目標(biāo)是使用來自預(yù)訓(xùn)練 VLM 的反饋來迭代式地優(yōu)化生成的視頻規(guī)劃。

在推理階段，VideoAgent 會(huì)查詢 VLM 以選擇最佳的改進(jìn)版視頻規(guī)劃，然后在環(huán)境中執(zhí)行該規(guī)劃。

在在線執(zhí)行過程中，VideoAgent 會(huì)觀察任務(wù)是否已成功完成，并根據(jù)來自環(huán)境的執(zhí)行反饋和從環(huán)境收集的其它數(shù)據(jù)進(jìn)一步改進(jìn)視頻生成模型。

生成的視頻規(guī)劃獲得了兩方面的改進(jìn)：

該團(tuán)隊(duì)受一致性模型的啟發(fā)，提出了用于視頻擴(kuò)散模型的自我調(diào)節(jié)一致性（self-conditioning consistency），其可將來自視頻擴(kuò)散模型的低質(zhì)量樣本進(jìn)一步優(yōu)化成高質(zhì)量樣本。
當(dāng)可在線訪問環(huán)境時(shí)，VideoAgent 會(huì)執(zhí)行當(dāng)前視頻策略并收集其它成功軌跡，以進(jìn)一步在成功軌跡上微調(diào)視頻生成模型。

圖 1 是 VideoAgent 的直觀圖示。

通過自我調(diào)節(jié)一致性實(shí)現(xiàn)視頻優(yōu)化

他們首先考慮的是基于第一幀和語(yǔ)言的視頻生成，即根據(jù)語(yǔ)言描述找到從初始圖像開始的一個(gè)圖像幀序列。通常來說，當(dāng)某個(gè)樣本來自一個(gè)視頻生成模型時(shí)，其中一部分更真實(shí)（開始部分），另一部分則充滿幻覺（結(jié)尾部分）。

也就是說，雖然生成的視頻規(guī)劃可能無法完全完成指定的任務(wù)，但它能提供有意義的信息，以幫助進(jìn)一步改進(jìn)以實(shí)現(xiàn)正確的規(guī)劃。

為了利用這樣的部分進(jìn)展，該團(tuán)隊(duì)使用了一個(gè)視頻一致性模型，即基于之前的自我生成的樣本為 ground truth 視頻執(zhí)行擴(kuò)散，這樣模型就可以學(xué)會(huì)保留視頻的真實(shí)部分，同時(shí)優(yōu)化其中的幻覺部分。

此外，除了基于之前生成的樣本來優(yōu)化視頻，該團(tuán)隊(duì)還納入了反饋，包括來自人類的反饋和來自 VLM 的反饋。這被稱為反饋引導(dǎo)的自我調(diào)節(jié)一致性。

這里我們僅描述了其大概方法，詳細(xì)過程和形式化描述請(qǐng)參閱原論文。

通過 VLM 引導(dǎo)的視頻生成實(shí)現(xiàn)推理

在訓(xùn)練了視頻生成模型和視頻優(yōu)化模型之后，可采樣視頻生成模型然后迭代式地使用優(yōu)化模型來實(shí)現(xiàn)視頻優(yōu)化。

具體來說，VideoAgent 首先會(huì)基于第一幀和語(yǔ)言的視頻生成來「猜測(cè)」視頻規(guī)劃。

接下來，迭代地使用優(yōu)化模型來執(zhí)行優(yōu)化，這里會(huì)使用 VLM 來提供反饋。

算法 1 展示了使用 VLM 反饋的視頻生成和優(yōu)化模型。

算法 2 則給出了在推理時(shí)間生成、優(yōu)化和選擇視頻規(guī)劃（重新規(guī)劃）的方式。

通過在線微調(diào)實(shí)現(xiàn)自我改進(jìn)

除了上面描述的基于自我調(diào)節(jié)一致性的視頻優(yōu)化，該團(tuán)隊(duì)還進(jìn)一步將視頻生成和視頻細(xì)化的組合描述為一種策略，該策略可以通過在線交互期間從環(huán)境中收集的額外真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練，從而實(shí)現(xiàn)改進(jìn)。

有多種強(qiáng)化學(xué)習(xí)技術(shù)可以滿足這一需求，算法 3 描述了其細(xì)節(jié)。

實(shí)驗(yàn)

為了評(píng)估 VideoAgent，該團(tuán)隊(duì)進(jìn)行了多個(gè)實(shí)驗(yàn)，包括該模型的端到端成功率、不同組件的效果以及能否提升真實(shí)機(jī)器人視頻的質(zhì)量。

數(shù)據(jù)集

實(shí)驗(yàn)中，該團(tuán)隊(duì)考慮了三個(gè)數(shù)據(jù)集：

Meta-World：11 個(gè)機(jī)器人操作任務(wù)，由模擬的 Sawyer 機(jī)器臂執(zhí)行，視頻演示是從三個(gè)不同的攝像機(jī)角度拍攝的。
iTHOR：一個(gè)模擬的 2D 目標(biāo)導(dǎo)航基準(zhǔn)，其中智能體在四種房間類型中搜索指定的目標(biāo)物體。
BridgeData V2：一個(gè)真實(shí)的機(jī)器人操作數(shù)據(jù)集。

端到端任務(wù)成功率

實(shí)驗(yàn)過程就不過多贅述了，直接來看結(jié)果。

首先，表 1 給出了在 Meta-World 上的端到端任務(wù)成功率。

可以看到，自我調(diào)節(jié)一致性已經(jīng)能讓 VideoAgent 的總體成功率超越基線（19.6% 到 22.3%），其中一些任務(wù)更是大幅提升，比如在關(guān)閉水龍頭（faucet-close）任務(wù)上的成功率從 12% 猛增至 46.7%。

而如果再進(jìn)一步引入在線微調(diào)，成功率還能進(jìn)一步提升，并且多迭代一次都會(huì)多一點(diǎn)提升。

引入重新規(guī)劃后，VideoAgent 的優(yōu)勢(shì)仍然存在，并且總體任務(wù)成功率達(dá)到了 50%，達(dá)成了該設(shè)置下的當(dāng)前最佳水平。

表 2 展示了在 iTHOR 上的成功率，可以看到 VideoAgent 同樣全面優(yōu)于基線 AVDC。

理解 VideoAgent 不同組件的效果

該團(tuán)隊(duì)也通過對(duì)比研究分析了 VideoAgent 不同組件的效果，具體包括 (1) 向優(yōu)化模型提供不同類型的反饋，(2) 改變優(yōu)化和在線迭代的次數(shù)，(3) 調(diào)整 VLM 反饋的質(zhì)量。

表 3 展示了不同 VLM 反饋的效果（基于 Meta-World）。可以看到，不管是二元反饋還是描述性反饋，都比沒有反饋好，更比基線 AVDC 好得多。

圖 3 和 4 分別展示了優(yōu)化和在線迭代的次數(shù)的影響。整體來看，增多迭代次數(shù)有助于提升模型，并且效果很顯著。

由于這項(xiàng)研究是首批利用 VLM 為視頻生成提供反饋的研究之一，因此一個(gè)重要的研究課題是：了解 VLM 是否真的可以為視頻生成提供足夠準(zhǔn)確的反饋。

表 4 給出了 VLM 反饋的各項(xiàng)性能指標(biāo)，這里使用了人工標(biāo)注作為 ground truth 來進(jìn)行評(píng)估。

可以看到，原始提示詞（Unweighted）的準(zhǔn)確度是 69%，這說明 VLM 足以評(píng)價(jià)生成的視頻。而通過重新加權(quán)來懲罰假正例（Weighted）還能大幅提升其準(zhǔn)確度。另外值得注意的是，從提示詞中移除第三個(gè)攝像頭甚至還能獲得更高的準(zhǔn)確度，這說明 VLM 的準(zhǔn)確性會(huì)受到部分可觀測(cè)性的影響。

在真實(shí)世界視頻上評(píng)估自我優(yōu)化

最后，該團(tuán)隊(duì)也評(píng)估了 VideoAgent 改進(jìn)真實(shí)視頻的能力。結(jié)果見表 5。

可以看到，在視頻分?jǐn)?shù)的 5 個(gè)子指標(biāo)上，VideoAgent 在其中 4 個(gè)上表現(xiàn)更優(yōu)，在唯一的例外「動(dòng)態(tài)分?jǐn)?shù)」上也與基線差距細(xì)微。此外，VideoAgent 在 CLIP 分?jǐn)?shù)、流一致性和人類評(píng)估上也都更好。這表明 VideoAgent 可以生成更流暢、更符合現(xiàn)實(shí)世界的物理邏輯的視頻。

最后，圖 5 給出了一個(gè)定性評(píng)估結(jié)果。