Tora2震撼發(fā)布!阿里巴巴首創(chuàng)視頻多角色「外觀+運(yùn)動」同步定制,告別視頻角色錯(cuò)位!

亮點(diǎn)直擊
- Tora2,首個(gè)支持多實(shí)體定制化的視頻擴(kuò)散Transformer框架。如圖1所示,Tora2 支持外觀和運(yùn)動軌跡的雙重控制。引入了一種解耦的個(gè)性化提取器(Decoupled Personalization Extractor),用于學(xué)習(xí)開放集實(shí)體的細(xì)粒度個(gè)性化嵌入,從而提升多實(shí)體生成中的主體和面部相似度。
- 設(shè)計(jì)了一種新穎的綁定策略和對比學(xué)習(xí)方法,以確保實(shí)體、運(yùn)動模式和文本描述的一致性與對齊表示。
- 實(shí)驗(yàn)評估表明,Tora2 在定制化任務(wù)上達(dá)到與最先進(jìn)方法(SOTA)相競爭的性能,同時(shí)引入了先進(jìn)的運(yùn)動軌跡控制能力。

總結(jié)速覽
解決的問題
- 多實(shí)體定制難題:現(xiàn)有方法主要針對單實(shí)體(如單個(gè)人或物體)進(jìn)行外觀或運(yùn)動定制,難以同時(shí)控制多個(gè)實(shí)體的個(gè)性化外觀和運(yùn)動軌跡。
- 細(xì)節(jié)保真度不足:傳統(tǒng)方法依賴低頻全局特征(如DINOv2),導(dǎo)致高頻細(xì)節(jié)(如人臉、物體紋理)丟失,影響生成內(nèi)容的視覺一致性。
- 多模態(tài)條件對齊困難:在訓(xùn)練過程中,文本描述、運(yùn)動軌跡和視覺信息之間的對齊存在偏差,導(dǎo)致生成視頻的語義與運(yùn)動不匹配。
- 架構(gòu)局限性:現(xiàn)有工作多基于U-Net架構(gòu),難以適配新興的Diffusion Transformer(DiT)模型,限制了生成能力和擴(kuò)展性。
提出的方案
- 解耦個(gè)性化特征提取器(DPE):
- 結(jié)合低頻(全局特征)和高頻細(xì)節(jié)(如人臉ReID網(wǎng)絡(luò)、物體特征),生成更全面的個(gè)性化嵌入,提升多實(shí)體的外觀保真度。
- 門控自注意力機(jī)制:
- 動態(tài)融合軌跡、文本描述和視覺信息,確保多模態(tài)條件在訓(xùn)練中的對齊,減少語義-運(yùn)動偏差。
- 對比學(xué)習(xí)框架:
- 通過顯式映射運(yùn)動嵌入與個(gè)性化嵌入,聯(lián)合優(yōu)化軌跡動力學(xué)和實(shí)體一致性。
- 分層嵌入注入策略:
- 運(yùn)動嵌入通過自適應(yīng)層歸一化(AdaLN)注入擴(kuò)散Transformer的早期階段,而個(gè)性化嵌入通過獨(dú)立的交叉注意力模塊在后期引入,實(shí)現(xiàn)外觀與運(yùn)動的解耦控制。
應(yīng)用的技術(shù)
- 擴(kuò)散Transformer(DiT)架構(gòu):替代傳統(tǒng)U-Net,支持多條件視頻生成。
- 高頻特征提取工具:人臉分析網(wǎng)絡(luò)(如ArcFace)、ReID網(wǎng)絡(luò),增強(qiáng)細(xì)節(jié)保留能力。
- Q-Former網(wǎng)絡(luò):將多模態(tài)特征轉(zhuǎn)換為統(tǒng)一的個(gè)性化嵌入。
- 自適應(yīng)層歸一化(AdaLN):動態(tài)調(diào)制視頻隱變量,適配運(yùn)動控制。
- 對比學(xué)習(xí)損失:強(qiáng)化運(yùn)動與實(shí)體外觀的跨模態(tài)對齊。
達(dá)到的效果
- 多實(shí)體同步定制:首次實(shí)現(xiàn)同時(shí)對多個(gè)實(shí)體的外觀和運(yùn)動軌跡進(jìn)行個(gè)性化控制。
- 細(xì)節(jié)保真度提升:高頻特征的引入顯著改善了人臉和物體紋理的生成質(zhì)量(實(shí)驗(yàn)驗(yàn)證)。
- 運(yùn)動-語義對齊優(yōu)化:門控自注意力機(jī)制減少了多模態(tài)條件的訓(xùn)練偏差,生成視頻更符合文本和軌跡輸入。
- 性能競爭力:在MSRVTT-Personalization基準(zhǔn)測試中超越現(xiàn)有方法(如Video Alchemist、Tora),同時(shí)支持更復(fù)雜的運(yùn)動控制。
- 數(shù)據(jù)擴(kuò)展性:整合110萬視頻片段的數(shù)據(jù)集,涵蓋多樣實(shí)體和運(yùn)動模式,支撐模型訓(xùn)練。
方法論
本文的目標(biāo)是實(shí)現(xiàn)多實(shí)體可控的視頻生成,支持外觀和軌跡條件控制。首先介紹Tora2,解釋如何獲取開放集實(shí)體的個(gè)性化嵌入、如何將其與實(shí)體詞匯和軌跡關(guān)聯(lián),并作為條件注入。再描述訓(xùn)練數(shù)據(jù)集的構(gòu)建過程。
Tora2
如下圖2所示,Tora2是一個(gè)隱空間擴(kuò)散Transformer,集成了實(shí)體和軌跡輸入的提取與注入過程。在保留Tora軌跡條件架構(gòu)的基礎(chǔ)上,本文重點(diǎn)介紹其新穎的個(gè)性化表示提取方法和綁定策略,該策略將實(shí)體與相應(yīng)的文本和軌跡條件關(guān)聯(lián)起來。

為解決這些限制,本文提出了一種解耦的個(gè)性化提取器。首先利用人臉識別和ReID主干網(wǎng)絡(luò)分別提取針對人類和通用物體的強(qiáng)身份特征。解耦的合理性在于人眼對面部細(xì)節(jié)的敏感性,實(shí)驗(yàn)證明該方法在本文的場景中提高了面部相似性。隨后,使用兩個(gè)額外的外觀適配器將這些高頻特征投影到統(tǒng)一的特征空間。這些以身份為中心的特征隨后與DINOv2圖像編碼器捕獲的語義魯棒特征拼接,從而形成全面的視覺表示。



該方法顯著增強(qiáng)了模型在同時(shí)處理多個(gè)概念時(shí)保持高保真度的能力。
實(shí)體與詞匯及軌跡的綁定。實(shí)證研究[5]表明,將視覺概念與其對應(yīng)的文本描述解綁會導(dǎo)致多實(shí)體個(gè)性化中的錯(cuò)位問題。因此,使用線性投影將個(gè)性化嵌入與文本信息進(jìn)行擴(kuò)展。本文的框架將這一要求擴(kuò)展到軌跡條件生成,需要實(shí)現(xiàn)實(shí)體、文本和運(yùn)動軌跡之間的精確三模態(tài)對齊。通過門控自注意力機(jī)制來解決這一問題,確保定制實(shí)體沿指定軌跡的空間一致分配。

個(gè)性化和運(yùn)動注入。如前面圖2所示,運(yùn)動條件通過運(yùn)動引導(dǎo)融合器引入,該融合器采用自適應(yīng)層歸一化來調(diào)制視覺標(biāo)記。經(jīng)過運(yùn)動歸一化的視覺標(biāo)記與文本標(biāo)記拼接后,通過3D全注意力機(jī)制捕獲文本描述與視覺元素之間的細(xì)粒度關(guān)系。為保留原始基礎(chǔ)模型知識,我們應(yīng)用額外的交叉注意力來促進(jìn)個(gè)性化嵌入與視覺標(biāo)記之間的交互。通過這種方式,在DiT塊的不同位置注入三種模態(tài)條件,實(shí)現(xiàn)多實(shí)體的聯(lián)合可控視頻生成。
對比損失。本文還引入了雙分支對比學(xué)習(xí)框架來加強(qiáng)實(shí)體與運(yùn)動模式之間的跨模態(tài)對齊。對比目標(biāo)強(qiáng)制實(shí)現(xiàn)三個(gè)特性:(1)通過正樣本實(shí)體-運(yùn)動配對實(shí)現(xiàn)語義-運(yùn)動對應(yīng),(2)通過負(fù)樣本實(shí)體-實(shí)體對實(shí)現(xiàn)概念間可區(qū)分性,(3)通過負(fù)樣本運(yùn)動-運(yùn)動對實(shí)現(xiàn)運(yùn)動軌跡區(qū)分。形式上,該損失可表示為


數(shù)據(jù)收集
基于Video Alchemist和Tora,本文開發(fā)了一個(gè)兩階段的數(shù)據(jù)管理框架用于多實(shí)體運(yùn)動學(xué)習(xí)。第一階段嚴(yán)格篩選可能對物體運(yùn)動訓(xùn)練產(chǎn)生負(fù)面影響或?qū)е聜€(gè)性化模糊的原始視頻,第二階段構(gòu)建精確的實(shí)體-文本-軌跡三元組,通過系統(tǒng)化標(biāo)注生成110萬條高保真訓(xùn)練樣本。

實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置

基準(zhǔn)與指標(biāo)
本文使用MSRVTT-Personalization基準(zhǔn)評估當(dāng)前方法,該基準(zhǔn)包含2,130個(gè)手工標(biāo)注的視頻片段,涵蓋單主體和多主體場景。此外,為消融研究,我們手動收集并標(biāo)注200個(gè)包含多概念的在線視頻。評估指標(biāo)包括:
- 文本相似度(Text-S):CLIP文本嵌入與生成幀特征的余弦相似度
- 視頻相似度(Vid-S):真實(shí)視頻與生成視頻的CLIP特征平均相似度
- 主體相似度(Subj-S):基于Grounding-DINO的參考圖像與生成主體區(qū)域的DINO特征對齊度
- 人臉相似度(Face-S):參考人臉裁剪與YOLOv9-C檢測區(qū)域的ArcFace-R100特征一致性
- 軌跡誤差(TrajError):CoTracker3預(yù)測軌跡與真實(shí)軌跡的平均L1距離
定性與定量分析
下表1展示定量評估結(jié)果。為消除基礎(chǔ)模型差異帶來的不公平比較,構(gòu)建了基于Flux.1+Tora-I2V流程的基線方法。

在個(gè)性化條件方面,Tora2的主體相似度均值比Video Alchemist低1.1%,但人臉屬性保留提升0.8%。盡管共享基礎(chǔ)視頻DiT架構(gòu),Tora2的運(yùn)動條件訓(xùn)練范式相比Video Alchemist的個(gè)性化特征學(xué)習(xí)方法增加了復(fù)雜度。可比的個(gè)性化性能表明,DPE在運(yùn)動條件聯(lián)合優(yōu)化下仍能有效捕獲判別性身份特征。
在運(yùn)動驅(qū)動生成場景中,Video Alchemist未提供軌跡精度評估實(shí)現(xiàn),因其方法設(shè)計(jì)不涵蓋該能力。Tora+Flux.1流程因分離控制的架構(gòu)限制,在主體和身份保真度(尤其是面部區(qū)域)出現(xiàn)顯著退化。雖然微調(diào)后的Flux.1模型能較好對齊首幀參考,但后續(xù)幀因缺乏持續(xù)個(gè)性化條件而劣化。值得注意的是,Tora2通過運(yùn)動動態(tài)與概念表征的聯(lián)合學(xué)習(xí)策略,在身份和運(yùn)動條件任務(wù)中均取得更優(yōu)生成質(zhì)量指標(biāo)。
下圖3展示生成視頻的對比分析。由于閉源限制,未包含Video Alchemist結(jié)果。
Tora+Flux.1采用簡單的外觀-運(yùn)動控制拼接策略,導(dǎo)致模態(tài)融合不佳,表現(xiàn)為長時(shí)序中實(shí)體一致性下降和軌跡區(qū)域過度偏移。Tora2則通過外觀-運(yùn)動條件的隱空間對齊,生成具有更優(yōu)照片真實(shí)感、時(shí)序平滑性和身份保持的視頻。

消融研究
本文使用200個(gè)標(biāo)注視頻進(jìn)行消融實(shí)驗(yàn)。文本相似度、視頻相似度和軌跡誤差指標(biāo)在物體和人體實(shí)體上取平均以提供統(tǒng)一評估。
個(gè)性化嵌入提取的不同設(shè)計(jì)
為評估解耦個(gè)性化編碼器的有效性,本文對比了四種嵌入提取方法:(a) 使用DINOv2圖像編碼器的低頻全局特征(如Video Alchemist);(b) 通過線性投影合并全局特征與ReID模型的高頻特征;(c) 通過線性投影合并全局特征與ReID/人臉識別模型的解耦高頻特征;(d) 采用本文DPE,通過Q-Former架構(gòu)查詢拼接嵌入。下圖4和表2展示了定性與定量結(jié)果。


實(shí)驗(yàn)表明:DINOv2提取的語義特征能生成符合文本描述的實(shí)體,但難以傳遞面部表情等高階細(xì)節(jié)。僅注入ReID模型的高頻判別特征會導(dǎo)致訓(xùn)練不穩(wěn)定,顯著降低視覺保真度和文本指令遵循能力。解耦策略雖提升主體保真度,但MLP投影的token級交互不足導(dǎo)致文本指令執(zhí)行偏差(如圖4(c)中實(shí)體未按指令對視)。本文方法在所有指標(biāo)上取得最優(yōu)結(jié)果,證實(shí)了開放集個(gè)性化需要組合多類特征,且顯式查詢-關(guān)注機(jī)制顯著優(yōu)于簡單特征拼接。
多模態(tài)特征綁定的效果
本文通過三種架構(gòu)變體驗(yàn)證實(shí)體綁定機(jī)制:(a) 直接向DiT塊注入個(gè)性化嵌入;(b) 沿通道維度拼接個(gè)性化嵌入、運(yùn)動嵌入和文本特征后線性投影;(c) 本文門控自注意力機(jī)制動態(tài)調(diào)節(jié)三模態(tài)特征交互。
下表3顯示,缺乏顯式實(shí)體綁定的基線架構(gòu)軌跡對齊偏移增加12.6像素,主體相似度下降1.5%。如下圖5所示,無綁定策略時(shí)鳥的軌跡錯(cuò)誤轉(zhuǎn)為相機(jī)右移。線性投影變體雖能關(guān)聯(lián)軌跡-實(shí)體-文本,但視頻相似度下降1.0%(視頻后半段貓和鳥出現(xiàn)形變)。本文門控注意力架構(gòu)在保持保真度的同時(shí)實(shí)現(xiàn)了最優(yōu)的實(shí)體-軌跡綁定。


對比損失的效果
下表4定量驗(yàn)證了我們的對比學(xué)習(xí)策略。通過優(yōu)化隱空間中個(gè)性化嵌入與運(yùn)動模式的相對距離,該方法在保證多實(shí)體屬性解耦的同時(shí),促進(jìn)其在給定運(yùn)動條件下的和諧融合,使軌跡跟蹤精度提升約3.2像素偏移量,同時(shí)提高約1.0%的身份保持保真度。

運(yùn)動與個(gè)性化嵌入注入順序的消融
通過自適應(yīng)層歸一化和交叉注意力注入運(yùn)動與個(gè)性化嵌入被證明是最有效的方式。我們在保持這些先進(jìn)設(shè)計(jì)的同時(shí)探索特征注入順序。下表5顯示:過早注入個(gè)性化嵌入會輕微降低運(yùn)動跟蹤保真度,因?yàn)榻徊孀⒁饬C(jī)制對風(fēng)格化身份特征的過度激活會抑制運(yùn)動軌跡語義在擴(kuò)散過程中的傳播。因此我們最終選擇運(yùn)動-文本-個(gè)性化的注入順序,該安排確保:運(yùn)動嵌入先建立時(shí)序動態(tài),文本條件維持語義完整性,最后個(gè)性化嵌入在不犧牲軌跡精度的情況下增強(qiáng)外觀特征。

結(jié)論
Tora2——一個(gè)支持多實(shí)體運(yùn)動軌跡控制的統(tǒng)一視頻生成框架。Tora2通過解耦個(gè)性化提取器,在Q-Former框架下融合語義特征與高頻本質(zhì)特征,實(shí)現(xiàn)開放集個(gè)性化嵌入提取;采用新穎的綁定策略關(guān)聯(lián)視覺實(shí)體、運(yùn)動軌跡與文本詞匯,確保多實(shí)體間的協(xié)調(diào)控制。大量實(shí)驗(yàn)表明,Tora2在保持與最先進(jìn)定制方法相當(dāng)性能的同時(shí),提供了更先進(jìn)的運(yùn)動軌跡控制能力,顯著提升了可控視頻生成的現(xiàn)有技術(shù)水平。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















