長視頻AI數字人來了!字節×浙大推出商用級音頻驅動數字人模型InfinityHuman
隨著內容創作智能化需求的爆發,長時長、高質量數字人視頻生成始終是行業痛點。近日,字節跳動商業化 GenAI 團隊聯合浙江大學推出商用級長時序音頻驅動人物視頻生成模型 ——InfinityHuman,打破傳統音頻驅動技術在長視頻場景中的局限性,開啟 AI 數字人實用化新征程。
從靜態圖像到動態視頻:音頻驅動的"數字復活術"
只需提供一張人物圖像與對應音頻素材,InfinityHuman 就能自動生成連貫自然的高分辨率長視頻:無論是 30 秒的產品快推、還是 3 分鐘的演講致辭,均能實現專業級呈現。技術團隊演示中,僅憑一段音頻即可讓電影中的人物復活 " 為動態數字人,視頻效果生動自然,肢體動作與語音節奏高度同步。

該圖由 AI 生成
核心突破:攻克長視頻兩大技術難關
InfinityHuman 的關鍵優勢在于創造性解決了長期動畫中的兩大核心難題:
- 身份漂移難題:通過 "姿態引導優化" 技術,以穩定的骨骼姿態序列為錨點,結合初始圖像的視覺特征,確保數字人在長時間視頻中保持面部特征、光影風格的一致性,避免傳統技術中常見的 "越生成越不像" 問題。
- 細節失真難題:精準捕捉并還原手部交互、面部微表情、情感起伏等細節,讓數字人的手勢動作自然流暢,情緒表達細膩真實,突破同類技術中 "手部僵硬"" 表情呆板 " 的瓶頸。
商用場景全面落地,推動數字人技術實用化
從項目主頁展示的案例來看,InfinityHuman 已實現多場景商用級應用:
- 電商帶貨中,虛擬主播可手持商品進行沉浸式講解;
- 企業培訓中,虛擬講師能完成長時間課程錄制;
- 自媒體創作中,數字人主播可實現每日內容量產。
尤其值得關注的是,該模型對中文語音的支持效果尤為出色,在分鐘級長視頻中仍能保持身份穩定與手部動作自然,充分滿足中文內容創作需求。



技術細節與更多展示
如需了解更多技術細節和效果演示,可訪問:

- 論文項目主頁:https://infinityhuman.github.io/
- 技術報告:https://arxiv.org/pdf/2508.20210
方法概述
如圖所示,InfinityHuman 是一個統一框架,旨在通過單張參考圖像、音頻和可選文本提示生成長時間、全身的高分辨率說話視頻,確保視覺一致性、精準唇同步和自然手部動作。該框架采用 “由粗到細” 策略:先通過低分辨率音視頻生成模塊得到含粗略動作的低分辨率視頻,再由姿態引導細化模塊結合低分辨率視頻和參考圖像生成高分辨率視頻,同時引入手部校正策略提升手部動作的真實感與結構完整性。
低分辨率音視頻生成模塊基于 Flow Matching 和 DIT,融合參考圖像、文本、音頻等多模態信息,通過多模態條件注意力機制增強音頻與視覺的對齊;姿態引導細化模塊利用參考圖像作為身份先驗,結合低分辨率視頻及其姿態序列,通過前綴潛變量參考策略和姿態引導確保長時生成中的時序連貫性與外觀一致性;手部特定獎勵反饋學習則針對手部易出現的畸變問題,利用預訓練獎勵模型進行偏好微調,提升手部結構的合理性與真實感。

實驗結果
實驗結果表明,InfinityHuman 在音頻驅動全身說話視頻生成任務中表現優異。在 EMTD 和 HDTF 數據集上的評估顯示,該方法在視覺真實感(FID)和時序連貫性(FVD)指標上均優于 FantasyTalking、Hallo3 等主流基線方法,生成視頻的整體質量顯著提升。身份一致性方面,通過姿態引導細化模塊有效維持了與參考圖像的相似度,解決了長時生成中的外觀漂移問題。針對手部生成這一難點,手部特定獎勵反饋學習顯著提升了手部關鍵點的準確性,減少了手指畸變、關節異常等常見問題,尤其在復雜手勢場景中表現穩定。
消融實驗進一步驗證了核心模塊的有效性:移除姿態引導細化模塊會導致視覺質量下降、身份一致性減弱,視覺細節模糊且時序連貫性降低;取消手部獎勵機制則使手部關鍵點精度下降,手部失真現象明顯增多。
綜合定量指標和定性分析,InfinityHuman 在高分辨率、長時長視頻生成任務中實現了真實感、一致性與動作自然度的全面提升。

字節跳動 VIVID Avatar 團隊:深耕音視頻數字人技術,推動AI生成走向實用化
作為字節跳動旗下專注于音視頻數字人生成的研發力量,商業化 GenAI 的 VIVID(Voice Integrated Video Immersive Digital)Avatar 團隊始終站在技術前沿,致力于突破音頻與視覺融合的技術邊界。團隊以 “讓數字人更鮮活、更實用” 為目標,在語音合成與視頻生成兩大方向持續深耕,形成了從基礎研究到商業化落地的完整技術鏈路。
語音合成方向,團隊推出 MegaTTS3、Make-An-Audio 2 等模型,視頻生成領域,從長視頻模型 HumanDiT、NeurIPS 2024 收錄的 MimicTalk 個性化 3D 建模,到 ICLR 2024 Spotlight 成果 Real3D-Portrait 單樣本 3D 合成,再到 DiTalker 等音頻驅動方案,構建了覆蓋長視頻、3D 肖像、實時驅動的完整技術矩陣。目前,團隊已通過 GitHub 開源平臺(https://github.com/VIVID-Avatar/)分享多項核心技術,并將最新研發的長時序音頻驅動視頻生成模型 InfinityHuman 部署至商業化即創平臺,讓前沿技術從實驗室快速走向產業應用,為內容創作、教育培訓、電商直播等領域提供低成本、高質量的數字人解決方案。
































