并行擴散架構突破極限,實現5分鐘AI視頻生成,「叫板」OpenAI與谷歌?
近日,一家名為 CraftStory 的 AI 初創公司推出了 Model 2.0 視頻生成系統,憑借可生成長達五分鐘的富有表現力、可媲美專業水準、以人為中心的視頻,破解了困擾 AI 視頻生成行業長久以來的「視頻時長」難題,引起熱議,并被視為或將是 OpenAI 的 Sora 和 Google 的 Veo 的強有力競爭者。


資料顯示,CraftStory 由全球使用最廣泛的計算機視覺庫 OpenCV 的創建者 Victor Erukhimov 創立,他是 OpenCV 的早期貢獻者之一,參與了 OpenCV 庫的開發和維護。此外,他曾聯合創立 Itseez——專注于開發運行于嵌入式平臺(特別是汽車安全系統)的計算機視覺解決方案,擔任首席技術官、首席執行官和總裁,2016 年 Itseez 被英特爾收購。
CraftStory 此次推出的 Model 2.0 視頻生成系統在視頻時長上的突破,可能會為那些難以擴大視頻制作規模以用于培訓、營銷和客戶教育的企業,帶來巨大的商業價值。


大家都知道,包括當前的行業佼佼者 OpenAI 的 Sora 2,所生成的視頻時長上限也僅為 25 秒,同類模型生成的視頻片段也在這個范圍甚至更短,雖然生成的視頻畫面精美、性能優良,但從市場角度考慮,難以將其廣泛應用,尤其是一些電影或長劇集。
據了解,CraftStory 之所以能夠破解視頻時長難題,突破性進展在于該公司的并行擴散架構,這是一種從根本上不同的 AI 模型生成視頻的方法。
傳統視頻生成模型的工作原理是在越來越大的三維空間中運行擴散算法,其中時間代表第三個軸。為了生成更長的視頻,這些模型需要相應更大的網絡、更多的訓練數據以及更多的計算資源。
而 CraftStory 會在整個視頻播放過程中同時運行多個較小的擴散算法,并通過雙向約束將它們連接起來。
據 Victor Erukhimov 介紹,之所以這樣做,是因為「視頻的后半部分也會影響前半部分,這一點非常重要,因為如果逐個進行處理,那么出現在前半部分中的瑕疵就會傳播到后半部分,然后不斷累積。」
比如,對于一個 5 分鐘的視頻片段,CraftStory 的系統不是生成 8 秒的片段,然后拼接其他片段,而是通過相互關聯的擴散過程同時處理所有 5 分鐘的片段。
另外,在模型訓練數據上,除了從互聯網抓取視頻外,CraftStory 聘請專業工作室,使用高幀率攝像系統拍攝演員,即使是手指等快速移動的物體也能捕捉到清晰的細節,從而避免了標準 30 幀 / 秒 YouTube 視頻中固有的運動模糊,從中獲取自有素材去對模型進行訓練。因為在 Victor Erukhimov 看來,制作高質量視頻并不需要大量數據,也不需要大量培訓預算,而是高質量的數據。
Model 2.0 是一個「視頻到視頻」的轉換模型:以圖像和行車視頻作為輸入,并利用行車視頻中人物的動作,根據圖像生成輸出視頻。用戶可以上傳自己的視頻,也可以使用 CraftStory 提供的預設視頻。該模型經過訓練,即使在長達數分鐘的視頻序列中,也能保留人物的身份、情感和細微差別。
目前,該系統可在大約 15 分鐘內生成 30 秒的低分辨率視頻片段。先進的唇形同步系統可將嘴部動作與腳本或音軌同步,而手勢對齊算法則確保肢體語言與語音節奏和情感基調相匹配。
視頻一經發布,引起網友熱議,有網友認為,「CraftStory 利用并行傳播和專有數據打造的長篇 AI 視頻是一項明智之舉。它突顯了深厚的計算機視覺技術如何能夠克服龐大的計算預算限制,滿足企業對時長至關重要的、以人為本的持續內容的關鍵需求。」

也有網友認為,Model 2.0 很好地解決了行業中的「8 秒 AI 視頻難題」,「這可能會徹底改變公司處理培訓、營銷和故事講述的方式。」另外,CraftStory 的視頻幀率更高,「OpenAI是不是要好好反省一下……」


資料顯示,本周 CraftStory 剛剛完成一輪 200 萬美元的融資,相較于大廠動輒數億甚至數十億美元的融資來說,這個數額并不高,但 Victor Erukhimov 似乎并不認同「巨額資金是成功的先決條件」。
他在接受媒體采訪時談道,「我并不完全認同計算能力是通往成功的唯一途徑,擁有計算能力當然會有幫助。但如果你僅僅靠一份 PPT 就籌集到十億美元,最終沒有人會滿意,無論是創始人還是投資者。」
而不同于大多數視頻生成企業聚焦消費者的創意工具這一塊,CraftStory 瞄準 ToB 市場,更關注企業,尤其是軟件公司該如何制作出色的培訓視頻、產品視頻和發布視頻。
據 Victor Erukhimov 透露,CraftStory 的下一個重大發展方向是「文本轉視頻」模型,該模型將允許用戶直接從腳本生成長篇內容。此外,團隊還在開發對移動鏡頭場景的支持,包括在高端廣告中常見的「邊走邊說」格式。



































