音畫同步視頻生成重磅開源!Character AI和耶魯大學(xué)推出Ovi,讓音、畫在一個(gè)大腦里思考
OpenAI的Sora 2,谷歌的Veo 3.1能音畫同步生成視頻,但都是閉源產(chǎn)品。
開發(fā)者們苦苦等待的的源神阿里的wan 2.5,也沒選擇開源。
這不,終于有人打破了寂靜。

Character AI和耶魯大學(xué)的研究團(tuán)隊(duì)聯(lián)手推出OVI(Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation)。

它沒有遵循先生成畫面再配聲音,或反之的傳統(tǒng)路徑,而是將音頻和視頻這兩種模態(tài),視為一個(gè)不可分割的整體,在同一個(gè)生成過程中同步誕生。
這套方法的核心,是一種被稱為雙骨干交叉模態(tài)融合的架構(gòu)。
想象一下,OVI擁有兩個(gè)并行且結(jié)構(gòu)完全相同的大腦,一個(gè)負(fù)責(zé)視覺,一個(gè)負(fù)責(zé)聽覺。它們并非各自為政,而是在思考的每一步都進(jìn)行著深度交流。這種設(shè)計(jì),從根本上消除了音畫不同步的問題,不再需要復(fù)雜的多階段流程或后期對(duì)齊。
過去,要讓AI生成的視頻音畫同步,是一件極其棘手的事情。
開發(fā)者們嘗試了各種方法,比如先固定聲音,再根據(jù)聲音生成視頻畫面(A2V),或者反過來(V2A)。
也有些方法是先各自生成,再用后期技術(shù)強(qiáng)行對(duì)齊,如同給電影配音,但效果往往差強(qiáng)人意。
還有一些方法依賴于特定的捷徑,比如只關(guān)注人臉區(qū)域的口型同步,但這大大限制了模型的通用性,無法處理更廣泛的場(chǎng)景。
這些多階段的處理方式,不僅增加了系統(tǒng)的復(fù)雜性,也難以保證時(shí)間上的精確同步。
OVI為開源的音視頻生成技術(shù)提供了一條全新的、可行的道路。
OVI讓音畫天生同步
OVI的架構(gòu)設(shè)計(jì)精妙而對(duì)稱。

它擁有兩個(gè)并行的分支,一個(gè)處理視頻,一個(gè)處理音頻,兩者都構(gòu)建在相同的擴(kuò)散變換器(Diffusion Transformer, DiT)架構(gòu)之上。
視頻分支的能力,繼承自一個(gè)強(qiáng)大的預(yù)訓(xùn)練視頻模型Wan2.2 5B。
而音頻分支,雖然是從零開始訓(xùn)練的,但其架構(gòu)設(shè)計(jì)與視頻分支完全一致,就像一對(duì)同卵雙胞胎。
這種對(duì)稱性是關(guān)鍵。
它保證了兩種模態(tài)在模型內(nèi)部具有相同的潛在維度、相同的transformer塊數(shù)量、相同的注意力頭數(shù)和頭維度。
因?yàn)榧軜?gòu)上的完全對(duì)稱,音頻和視頻的語言得以互通,無需任何額外的翻譯層。這不僅避免了不必要的參數(shù)和計(jì)算開銷,也讓信息交換變得更加直接高效。
在模型的每一個(gè)transformer處理塊中,都含有一對(duì)交叉注意力層。
在這里,音頻流會(huì)關(guān)注視頻流,同時(shí)視頻流也會(huì)關(guān)注音頻流。
具體來說,音頻信息會(huì)作為查詢信號(hào),去視頻信息中尋找相關(guān)的鍵和值,這使得音頻能夠看到與之相關(guān)的視覺內(nèi)容。
反之亦然,視頻信息也會(huì)作為查詢信號(hào),去音頻信息中尋找對(duì)應(yīng),這讓視頻能夠聽到匹配的聲音。
這種雙向的、實(shí)時(shí)的信息交互,貫穿了整個(gè)生成過程。
模型因此能夠自主學(xué)習(xí)到音頻和視頻之間復(fù)雜的對(duì)應(yīng)關(guān)系,比如嘴唇的微妙運(yùn)動(dòng)如何與特定的發(fā)音同步,或者一個(gè)物體的動(dòng)作如何與它發(fā)出的聲音精確匹配。
OVI用數(shù)學(xué)技巧對(duì)齊時(shí)間
音頻和視頻雖然共享架構(gòu),但它們的時(shí)間分辨率天生不同。
在OVI中,一段5秒的視頻,其潛在變量會(huì)跨越31個(gè)時(shí)間幀。
而同樣時(shí)長(zhǎng)的音頻,在采樣和編碼后,會(huì)形成157個(gè)時(shí)間token。
這是一個(gè)157對(duì)31的不等關(guān)系,如何讓它們?cè)跁r(shí)間上精確對(duì)齊?
OVI采用了一種名為旋轉(zhuǎn)位置嵌入(Rotary Positional Embedding, RoPE)的技術(shù),并對(duì)其進(jìn)行了巧妙的縮放。
RoPE是一種為模型輸入信息標(biāo)注時(shí)間順序的方法。OVI將音頻分支的RoPE頻率,乘以一個(gè)縮放因子31/157,約等于0.197。
這個(gè)簡(jiǎn)單的數(shù)學(xué)操作,相當(dāng)于給節(jié)奏更快的音頻帶上了一個(gè)節(jié)拍器,使其時(shí)間步點(diǎn)與視頻的較粗糙的幀率完美匹配。
對(duì)齊前后的效果差異是顯著的。

在沒有進(jìn)行RoPE縮放時(shí),音頻和視頻的交叉關(guān)注矩陣在對(duì)角線上是錯(cuò)位的,信息無法有效同步。
而經(jīng)過縮放后,對(duì)角線變得清晰而銳利,表明音頻和視頻的token在時(shí)間上實(shí)現(xiàn)了精準(zhǔn)的一對(duì)一關(guān)注,為同步生成打下了堅(jiān)實(shí)基礎(chǔ)。
處理用戶輸入的提示詞時(shí),OVI也采取了統(tǒng)一的策略。
它使用一個(gè)凍結(jié)的T5編碼器來理解一個(gè)組合后的提示。
這個(gè)提示詞會(huì)將描述視覺事件的文本,與描述可聽語音的文本連接在一起。
例如,一段提示可能是:一個(gè)男人坐在公園長(zhǎng)椅上,<S>‘今天天氣真好’<E>,周圍有鳥叫聲<AUDCAP>男人聲音低沉,鳥鳴清脆</AUDCAP>。
其中<S>和<E>標(biāo)記了語音的起止,而<AUDCAP>和</AUDCAP>則標(biāo)記了對(duì)所有聲音的描述。
這個(gè)統(tǒng)一的文本嵌入,會(huì)同時(shí)被用于指導(dǎo)音頻和視頻的生成。
這樣做的好處是直觀的。
視覺場(chǎng)景的細(xì)節(jié)(公園長(zhǎng)椅),可以提升音頻的特異性和多樣性(鳥叫聲)。
而聲音的細(xì)節(jié)描述(男人聲音低沉),則可以反過來指導(dǎo)視頻中人物的面部表情和動(dòng)作。
單一的語義上下文,不僅簡(jiǎn)化了訓(xùn)練和推理過程,也極大地改善了跨模態(tài)的對(duì)齊效果。
OVI的訓(xùn)練食譜極為考究
要訓(xùn)練一個(gè)統(tǒng)一的音視頻生成器,一個(gè)高質(zhì)量、大規(guī)模、多樣化且音畫同步的多模態(tài)數(shù)據(jù)集是成功的基石。
OVI的團(tuán)隊(duì)為此設(shè)計(jì)了一套復(fù)雜而嚴(yán)謹(jǐn)?shù)亩嚯A段數(shù)據(jù)處理流程。
他們精心策劃了兩個(gè)互補(bǔ)的數(shù)據(jù)語料庫。
一個(gè)是由成對(duì)的音頻和視頻組成的語料庫,用于教會(huì)模型理解兩種模態(tài)之間的對(duì)應(yīng)關(guān)系。
另一個(gè)是純音頻語料庫,用于音頻模型的預(yù)訓(xùn)練和微調(diào),以建立強(qiáng)大的聲音生成能力。
這個(gè)純音頻庫又被分為兩個(gè)子集:一個(gè)包含較長(zhǎng)音頻(最長(zhǎng)12秒),用于初始預(yù)訓(xùn)練;另一個(gè)則包含較短音頻,用于后續(xù)的微調(diào)。
這種兩階段的訓(xùn)練方法,讓模型先在長(zhǎng)音頻中學(xué)習(xí)聲音的普遍規(guī)律,再在短音頻上進(jìn)行精細(xì)調(diào)整,以更好地適應(yīng)最終生成任務(wù)的需求。
對(duì)于成對(duì)的音視頻數(shù)據(jù),處理流程分為四個(gè)步驟:分割與過濾、同步檢測(cè)、字幕描述和打包。
第一步,使用場(chǎng)景檢測(cè)算法,從海量視頻中切分出符合標(biāo)準(zhǔn)的121幀(約5秒,24fps)的視頻片段。
團(tuán)隊(duì)設(shè)定了嚴(yán)格的篩選標(biāo)準(zhǔn):視頻分辨率必須大于720x720像素;使用光流模型過濾掉靜態(tài)或幾乎沒有運(yùn)動(dòng)的視頻;同時(shí),利用美學(xué)預(yù)測(cè)器剔除低質(zhì)量的內(nèi)容。
為了讓模型具備更廣泛的生成能力,數(shù)據(jù)集中還特意混合了單人、多人以及無人物的視頻,避免模型過度擬合于某一特定場(chǎng)景。
第二步,同步檢測(cè)是重中之重。
團(tuán)隊(duì)使用了廣泛應(yīng)用的SyncNet模型,它通過學(xué)習(xí)聲音和嘴部圖像之間的聯(lián)合嵌入,來判斷語音和口型是否同步。
為了處理數(shù)百萬規(guī)模的視頻數(shù)據(jù),團(tuán)隊(duì)對(duì)SyncNet進(jìn)行了優(yōu)化。只有同步偏移在3幀以內(nèi),且置信度得分高于1.5的視頻片段才會(huì)被保留。
實(shí)驗(yàn)表明,即使是少量不同步的數(shù)據(jù),也會(huì)嚴(yán)重?fù)p害模型的唇語同步能力,因此必須采用如此嚴(yán)格的標(biāo)準(zhǔn)。
第三步,為視頻添加詳細(xì)的字幕描述。
團(tuán)隊(duì)使用了一個(gè)強(qiáng)大的多模態(tài)大語言模型(MLLM)來完成這項(xiàng)任務(wù)。
這個(gè)模型會(huì)接收視頻中的七個(gè)關(guān)鍵幀和完整的音軌,然后生成一段交織著視覺事件和語音內(nèi)容的詳細(xì)描述。
語音內(nèi)容會(huì)被<S>和<E>標(biāo)簽包裹,而對(duì)整體音頻環(huán)境的描述則被<AUDCAP>和</AUDCAP>包裹。
對(duì)于包含語音的片段,音頻描述會(huì)強(qiáng)調(diào)說話者的聲學(xué)特征,如年齡、性別、口音、音高、情感和語速。
對(duì)于沒有語音的片段,描述則會(huì)詳述存在的音效、背景聲或音樂元素。
第四步,打包數(shù)據(jù)。
在將數(shù)據(jù)送入模型前,所有視頻幀都會(huì)被調(diào)整到720x720的固定分辨率,音頻則被轉(zhuǎn)換為原始的波形字節(jié)流,確保模型接收到的輸入格式是統(tǒng)一的。
對(duì)于純音頻數(shù)據(jù),預(yù)處理流程相對(duì)簡(jiǎn)化。
音頻被提取為兩種不同長(zhǎng)度:用于預(yù)訓(xùn)練的數(shù)據(jù)最長(zhǎng)為12秒,用于微調(diào)的數(shù)據(jù)則精確到5.04秒,以匹配視頻片段的時(shí)長(zhǎng)。
同樣地,MLLM也被用來為這些音頻生成轉(zhuǎn)錄和詳細(xì)的聲學(xué)描述。
OVI的訓(xùn)練策略分步進(jìn)行
為了提升效率,OVI的音頻塔在一個(gè)緊湊的潛在空間中進(jìn)行操作,而不是直接處理原始的音頻波形。
它使用了MMAudio的預(yù)訓(xùn)練1D VAE(變分自編碼器)來完成音頻的編碼和解碼。
在訓(xùn)練時(shí),OVI的音頻塔(OVI-AUD)被分為兩個(gè)子階段。
首先是預(yù)訓(xùn)練階段,音頻骨干在數(shù)十萬小時(shí)的、主要是語音的長(zhǎng)音頻數(shù)據(jù)上從零開始學(xué)習(xí)。
這使得模型能夠廣泛接觸到各種自然的聲學(xué)變化,如音高、情感等,從而學(xué)會(huì)生成具有一致說話者特征的音頻。
接下來是微調(diào)階段,團(tuán)隊(duì)使用填充到5.04秒的短音頻,對(duì)預(yù)訓(xùn)練好的模型進(jìn)行微調(diào)。
這一步是為了讓音頻骨干的輸出與未來要生成的視頻在時(shí)長(zhǎng)上完全匹配。同時(shí),此階段還引入了大量的音效數(shù)據(jù),使OVI-AUD不僅僅是一個(gè)語音模型,更是一個(gè)能夠處理復(fù)雜聲音場(chǎng)景的通用音頻生成器。
當(dāng)音頻和視頻兩個(gè)骨干都準(zhǔn)備就緒后,就進(jìn)入了最終的融合訓(xùn)練階段。
團(tuán)隊(duì)將預(yù)訓(xùn)練好的音頻和視頻骨干結(jié)合在一起,并從零開始初始化它們之間的交叉模態(tài)注意力模塊。
為了減少計(jì)算資源的消耗,訓(xùn)練過程中凍結(jié)了所有的前饋網(wǎng)絡(luò)(FFN)層,使得110億總參數(shù)中只有57億是可訓(xùn)練的。
通過只微調(diào)單模態(tài)的自注意力和所有的交叉注意力模塊,團(tuán)隊(duì)成功地對(duì)齊了音頻和視頻,同時(shí)保留了它們?cè)陬A(yù)訓(xùn)練階段學(xué)到的強(qiáng)大表示能力。
在推理生成時(shí),音頻和視頻兩個(gè)分支共享相同的時(shí)間表,并通過一個(gè)求解器聯(lián)合生成,確保了最終輸出的同步性。
OVI的生成效果令人信服
為了直觀地展示OVI的學(xué)習(xí)效果,研究團(tuán)隊(duì)可視化了音頻到視頻(A2V)的交叉模態(tài)注意力圖。
這張圖可以告訴我們,當(dāng)模型在生成某種聲音時(shí),它的注意力集中在畫面的哪個(gè)區(qū)域。

當(dāng)音頻內(nèi)容是語音時(shí),模型的注意力會(huì)高度集中在說話者的嘴部區(qū)域。
當(dāng)音頻是鼓聲時(shí),注意力則聚焦在鼓上。
當(dāng)音頻是動(dòng)物的叫聲時(shí),注意力會(huì)與發(fā)出聲音的動(dòng)物身體部位對(duì)齊。
這有力地證明了OVI的融合模型能夠有效地將音頻線索與相關(guān)的視覺內(nèi)容同步起來。
為了量化評(píng)估OVI的性能,團(tuán)隊(duì)進(jìn)行了多項(xiàng)對(duì)比實(shí)驗(yàn)。
首先,他們獨(dú)立評(píng)估了音頻塔(OVI-AUD)的音頻生成能力,將其與業(yè)界頂尖的文本到音頻(T2A)和文本到語音(TTS)模型進(jìn)行了比較。
然后,他們?cè)u(píng)估了OVI完整的聯(lián)合音視頻生成(JAVG)能力,并與JavisDiT和UniVerse-1這兩個(gè)開源模型進(jìn)行了對(duì)比。
評(píng)估的核心是一項(xiàng)由50名真人參與者進(jìn)行的盲對(duì)偏好研究。
參與者會(huì)看到由不同模型生成的兩段帶音頻的視頻,并選擇他們更偏好哪一個(gè)。

在Verse-Bench數(shù)據(jù)集上,無論是在音頻質(zhì)量、視頻質(zhì)量還是音畫同步這三個(gè)維度上,參與者都?jí)旱剐缘仄珢跲VI的生成結(jié)果。
這表明OVI的統(tǒng)一設(shè)計(jì)和訓(xùn)練框架,不僅保持了強(qiáng)大的性能,而且顯著推動(dòng)了開源社區(qū)在聯(lián)合音視頻生成領(lǐng)域的發(fā)展,使其能力更接近像Veo 3這樣的前沿閉源模型。
團(tuán)隊(duì)也注意到,與作為其基礎(chǔ)的純視頻模型Wan2.2相比,OVI生成視頻的質(zhì)量有輕微下降。
這是可以預(yù)見的,因?yàn)槁?lián)合訓(xùn)練使用的數(shù)據(jù)集,在規(guī)模上小于Wan2.2預(yù)訓(xùn)練時(shí)所用的海量視頻語料庫。
但重要的是,這種權(quán)衡是微小的,并不會(huì)削弱OVI在聯(lián)合音視頻生成任務(wù)中的整體優(yōu)越性。
在純音頻生成的評(píng)估中,OVI-AUD的表現(xiàn)同樣出色。

作為一個(gè)能夠同時(shí)處理文本到音頻(T2A)和文本到語音(TTS)的統(tǒng)一模型,OVI-AUD在各自的指標(biāo)上,都實(shí)現(xiàn)了與那些專門為此任務(wù)設(shè)計(jì)的頂尖模型相當(dāng)?shù)男阅堋?/span>
這證明了OVI-AUD作為一個(gè)堅(jiān)實(shí)的基礎(chǔ),完全有能力支撐起更復(fù)雜的音視頻融合任務(wù)。
真實(shí)世界的視頻往往同時(shí)包含復(fù)雜的音效和連貫的語音,這是那些專用的、只能處理單一任務(wù)的模型所無法支持的。
一項(xiàng)有趣的消融研究揭示了OVI設(shè)計(jì)決策的智慧。
最初,團(tuán)隊(duì)曾嘗試為音頻塔設(shè)計(jì)兩個(gè)獨(dú)立的文本編碼器:一個(gè)CLAP編碼器處理音效描述,一個(gè)T5編碼器處理語音轉(zhuǎn)錄。
他們本以為這樣可以避免兩種任務(wù)互相干擾。
但實(shí)踐發(fā)現(xiàn),這種分離的設(shè)計(jì)反而限制了模型的發(fā)揮。模型可以很好地單獨(dú)處理音效或語音,卻難以將它們?nèi)诤铣梢粋€(gè)統(tǒng)一連貫的音頻流。
于是,團(tuán)隊(duì)改用了前文提到的組合文本提示方法,將語音轉(zhuǎn)錄和音效描述融合到單個(gè)T5文本嵌入中。

這一修改在保持了語音正確性(WER指標(biāo)相當(dāng))的同時(shí),顯著提升了音頻的保真度和對(duì)齊度指標(biāo)。
更重要的是,統(tǒng)一的文本嵌入也讓聯(lián)合音視頻生成變得更加簡(jiǎn)單和高效,因?yàn)橐纛l和視頻塔現(xiàn)在可以基于完全相同的文本指令進(jìn)行創(chuàng)作,增強(qiáng)了多模態(tài)的連貫性。
OVI第一版生成5秒長(zhǎng)的720p分辨率短視頻,這限制了它在創(chuàng)作長(zhǎng)篇敘事、處理鏡頭轉(zhuǎn)換等方面的應(yīng)用。
但剛剛升級(jí)的Ovi 1.1,將最初的5秒視頻+音頻生成時(shí)間擴(kuò)展到10秒,從而實(shí)現(xiàn)了更豐富的故事講述、更長(zhǎng)的對(duì)話和更具表現(xiàn)力的角色。
OVI的開源貢獻(xiàn)是開創(chuàng)性的。
它提出了一個(gè)統(tǒng)一的音視頻生成框架,通過架構(gòu)對(duì)稱性和塊級(jí)雙向融合,讓時(shí)間和語義在線索被聯(lián)合學(xué)習(xí),而非順序處理。
它的基礎(chǔ)音頻塔能夠同時(shí)處理語音和多樣的音效,支持了通用的同步生成,無需任何額外的輔助模塊。
這為后來的開發(fā)者們提供了非常難得的基礎(chǔ)和借鑒。
免費(fèi)試玩:
https://huggingface.co/spaces/akhaliq/Ovi

































