国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

超越Sora、Veo和Wan!開源生成式AI新里程碑Kandinsky 5.0重磅發布:從2B到19B全覆蓋!

發布于 2025-11-21 09:12
瀏覽
0收藏

超越Sora、Veo和Wan!開源生成式AI新里程碑Kandinsky 5.0重磅發布:從2B到19B全覆蓋!-AI.x社區

亮點直擊

  • Kandinsky 5.0,是一套專為高分辨率圖像和視頻合成設計的 SOTA基礎模型家族。
  • 全套模型開源陣容:(1) Kandinsky 5.0 Image Lite (6B):用于圖像生成和編輯。(2) Kandinsky 5.0 Video Lite (2B):輕量級文本/圖像生成視頻模型,速度快。(3) Kandinsky 5.0 Video Pro (19B):超大規模視頻生成模型,追求極致質量。
  • 技術創新:引入了NABLA 注意力機制,在保持質量的同時顯著降低了計算復雜度。
  • 訓練流程升級:采用多階段訓練,特別是引入了基于強化學習(RL)的后訓練和針對性的監督微調。

? 解決的問題

當前視頻生成領域面臨的主要挑戰包括:

  1. 計算復雜度高:處理隨時間變化的三維視頻數據會導致計算量呈指數級增長,難以擴展到高分辨率和長時長(如 >5秒)。
  2. 數據質量與篩選:如何從海量數據中清洗出高質量、無水印、美學評分高的數據用于訓練。
  3. 生成質量與可控性:在生成高動態視頻時,往往難以兼顧動作的一致性、物理真實感和對文本提示詞的精準遵循。
  4. 推理速度:高質量模型通常推理緩慢,難以滿足實際應用需求。

??? 提出的方案與應用的技術

本工作提出了一套完整的解決方案,涵蓋架構、數據和訓練策略:

  • 核心架構 (CrossDiT & Flow Matching)
  • 所有模型均基于流匹配(Flow Matching)范式和潛在擴散管道(Latent Diffusion Pipeline)。
  • 核心骨干網絡為 **CrossDiT (Cross-Attention Diffusion Transformer)**,融合了 Qwen2.5-VL 的文本嵌入和 FLUX.1-dev/HunyuanVideo VAE 的視覺潛在特征。
  • 注意力機制優化 (NABLA)
  • 為了解決長視頻生成的計算瓶頸,提出了NABLA。這是一種稀疏注意力機制,通過塊級降維、基于 CDF 閾值的自適應稀疏化以及滑動瓦片(Sliding-Tile)模式,實現了 2.7倍 的訓練/推理加速,并保持了 90% 的稀疏率。
  • 數據pipeline :
  • 構建了極其詳盡的數據處理流程,包括水印檢測、美學評分(TOPIQ, Q-Align)、文本過濾和合成描述生成(使用 InternVL2, Qwen2.5-VL 等多模態大模型)。
  • 構建了專門的Instruct Image Editing 數據集和 SFT 數據集。
  • 訓練策略
  • 多階段訓練 :預訓練  SFT(使用高質量篩選數據) 蒸餾  RL 后訓練。
  • RLHF (基于人類反饋的強化學習) :在圖像生成中,訓練了一個獎勵模型(Reward Model),并使用 DRaFT-K 算法進行微調,以提升視覺質量和提示詞對齊度。
  • 蒸餾 (Distillation) :結合了 CFG 蒸餾、軌跡分段一致性蒸餾 (TSCD) 和對抗性后訓練,將推理步數(NFE)從 100 降低至 16(Flash 版本)。

?? 達到的效果

  • 生成質量
  • 在人工評估(Side-by-Side)中,Kandinsky 5.0 Video Pro 在視覺質量和動作動態性上優于或持平于Veo 3Wan 2.2 A14B
  • Kandinsky 5.0 Video Lite 在與Sora的對比評估中,在特定維度上也展現了競爭力。
  • 性能效率
  • 通過 NABLA 和 Flash 蒸餾技術,Video Lite Flash 模型生成 5秒視頻(512x768)僅需35秒 (NFE=16),顯存占用低至 21GB。
  • Video Pro 模型支持生成 10秒、1408px 分辨率的高清視頻。
  • 開源貢獻:提供了完整的權重和代碼,支持 Hugging Face diffusers 庫,極大地降低了社區的研究門檻。

引言

在過去幾年中,擴散模型及其后續的流匹配方法在圖像生成領域引發了質的飛躍,實現了前所未有的合成質量和多樣性。這一基礎促使了商業和開源系統的快速發展,為用戶提供了從文本到圖像 (T2I) 合成到復雜編輯的廣泛生成能力。迄今為止,圖像生成模型不僅達到了高質量水平,而且還在積極改進,不斷提高真實感和可控性的標準,如 Stable Diffusion 3、Flux、Seedream 3 & 4和 Hunyuan Image 3等模型所示。


這一進展的自然延伸是對視頻生成的興趣日益增長,導致了許多調整和擴展圖像成功架構的方法,如[13, 14, 15, 16]等的出現。然而,由于處理隨時間變化的三維視頻數據時計算復雜度呈指數增長,這些方法的直接轉化面臨著根本性的可擴展性問題。通過積極采用像 Diffusion Transformer (DiT)這樣的架構,部分解決了這些限制,DiT 提供了必要的可擴展性和效率,同時配合一系列針對視頻數據處理的注意力機制修改。


如今,許多視頻生成模型展示了高水平的質量,例如 Sora和 Veo。這一進展的很大一部分是由開源計劃推動的。諸如 HunyuanVideo、Mochi、CogVideoX、Wan和 VACE等項目,通過普及基礎架構和預訓練權重,加速了研究和開發,并展示了接近專業級視頻制作的結果。所有這一切為視頻模型的應用開辟了廣闊的機會,并為創建多媒體生成系統、“世界模型” 和基礎視覺模型奠定了基礎,這些模型的重要性類似于自然語言處理 (NLP) 中的大語言模型 (LLMs)。


盡管發展迅速,但視頻生成仍面臨嚴峻挑戰。除了處理海量數據外,創建此類系統還需要對訓練過程和后續推理進行復雜的多階段優化。因此,高效地創建高質量、連貫且可控的視頻仍然是生成式 AI 中最具挑戰性的任務之一。


在本工作中,旨在解決視頻生成領域的一些關鍵挑戰。提出了 Kandinsky 5.0 —— 一個用于高分辨率圖像和視頻合成的基礎生成模型家族,旨在實現最先進的質量和運行效率。Kandinsky 5.0 套件包含三個模型陣容:

  • Kandinsky 5.0 Video Pro:高能的 19B 參數模型,用于文本到視頻和圖像到視頻生成,可創建長達 10 秒的高分辨率視頻。
  • Kandinsky 5.0 Video Lite:輕量級的 2B 參數模型,用于文本到視頻和圖像到視頻生成,可制作長達 10 秒的剪輯。
  • Kandinsky 5.0 Image Lite:6B 參數模型,用于高分辨率的文本到圖像生成和圖像編輯。

超越Sora、Veo和Wan!開源生成式AI新里程碑Kandinsky 5.0重磅發布:從2B到19B全覆蓋!-AI.x社區

本技術報告的主要貢獻如下:

  • 提供了數據收集和處理管線的全面描述,包括為指導性圖像編輯微調以及視頻和圖像模態的自監督微調 (SFT) 準備數據。
  • 詳細介紹了所有六個模型的多階段訓練管線,包括用于學習視覺世界通用模式的預訓練階段和用于增強視覺質量的 SFT 階段。本文還介紹了基于 RLHF 的對抗性后訓練方法,該方法基于比較生成圖像與 SFT 數據集中的圖像。此方法實現了更優越的真實感、視覺質量和提示詞對齊。
  • 展示了核心 CrossDiT 模型的架構,重點介紹了針對時長超過 5 秒的高分辨率視頻(超過 512 px)的關鍵注意力機制優化——NABLA 方法。這克服了標準時空注意力的二次復雜度,在保持生成視頻質量的同時,以 90% 的稀疏率實現了2.7倍的訓練和推理時間縮減,這一結果已通過 FVD、VBench、CLIP-score和人工側對側(Side-by-Side)測試得到證實。
  • 描述了在整個管線中實施的多種優化措施,以加速推理、訓練并減少內存消耗。這些技術包括變分自編碼器 (VAE) 優化、文本編碼器量化,以及使用全分片或混合分片數據并行 (F/HSDP)、激活檢查點 (Activation Checkpointing)等進行的 CrossDiT 訓練優化。
  • 對于視頻模型蒸餾,本文采用了一種組合方法,整合了無分類器指導蒸餾 (Classifier-Free Guidance Distillation)、軌跡分段一致性蒸餾 (TSCD)和隨后的對抗性后訓練以增強視覺質量。這將函數評估次數 (NFE) 從 100 減少到 16,同時保持了視覺質量,這一點已通過人工側對側評估結果得到證明。
  • 本文將最終模型與幾種最先進的方法進行了評估,并通過在來自 MovieGen [45] 的提示詞集上進行的人工評估,展示了卓越的視頻生成質量。
  • 最后,本文開源了所有模型在各個訓練階段的代碼和權重,并通過??diffusers?? 庫提供訪問。

報告概覽

本報告的結構旨在提供對模型設計、訓練和評估的全面理解:

超越Sora、Veo和Wan!開源生成式AI新里程碑Kandinsky 5.0重磅發布:從2B到19B全覆蓋!-AI.x社區

超越Sora、Veo和Wan!開源生成式AI新里程碑Kandinsky 5.0重磅發布:從2B到19B全覆蓋!-AI.x社區

超越Sora、Veo和Wan!開源生成式AI新里程碑Kandinsky 5.0重磅發布:從2B到19B全覆蓋!-AI.x社區

  • 第 3 節:背景:Kandinsky 模型的演變。追溯 Kandinsky 模型家族的歷史,從早期的基于自回歸的模型到當前最新版本的 Kandinsky 5.0。
  • 第 4 節:數據處理pipeline。描述用于整理和標注數據集的大規模多階段管線,這些數據集用于文本到圖像和文本到視頻的預訓練、自監督微調、圖像指令微調以及特定于俄羅斯多元文化數據的收集。本文強調了該方法中的質量控制和可擴展性。
  • 第 5 節:Kandinsky 5.0 架構。介紹了 Kandinsky 5.0 模型的架構,該架構對家族中的所有模型通用。核心組件包括交叉注意力擴散 Transformer (CrossDiT)、相應的 CrossDiT 塊方案以及鄰域自適應塊級注意力 (NABLA) 機制,這對于優化訓練和推理至關重要。
  • 第 6 節:訓練階段。概述了多階段訓練過程,從大規模數據集上的預訓練到自監督微調、蒸餾以及專為圖像和視頻模型定制的基于 RL 的后訓練。
  • 第 7 節:優化。涵蓋了諸如 VAE 編碼器加速、CrossDiT 訓練優化和 GPU 內存高效利用等技術。
  • 第 8 節:結果。展示了不同訓練階段視覺質量的增長以及人工側對側 (SBS) 評估,證明了與現有模型相比在動作一致性、視覺質量和提示詞對齊方面的卓越性能。
  • 第 9 節:用例。通過視覺示例和技術提示詞,重點介紹了在文本到圖像、圖像編輯、文本到視頻和圖像到視頻生成方面的實際應用。
  • 第 10 節:相關工作。將 Kandinsky 5.0 置于更廣泛的生成模型背景下,涵蓋文本到圖像和文本到視頻生成、蒸餾、后訓練技術和生成模型評估方法方面的進展。
  • 第 11 節:局限性與未來工作。討論了尚存的挑戰,指引未來的研究方向。
  • 第 12 節:邊界影響與倫理考量。詳述了實施的負責任 AI 框架,包括數據管理、運行時保障和倫理使用準則,以確保安全部署。
  • 第 13-14 節:結論、貢獻者與致謝。總結貢獻并感謝參與的團隊和合作者。

結論

本報告介紹了 Kandinsky 5.0,這是一個用于高分辨率圖像和視頻生成的通用且可擴展的基礎模型家族。該框架包括三個核心模型陣容:Kandinsky 5.0 Image Lite(6B 參數)、Kandinsky 5.0 Video Lite(2B 參數)和 Kandinsky 5.0 Video Pro(19B 參數),每個模型都針對特定的生成任務和效率要求進行了優化。


Kandinsky 5.0 樹立了開源生成式 AI 的新里程碑,提供了:

  • 具有強大美學和構圖控制力的高保真文本到圖像及圖像編輯能力。
  • 強大的文本到視頻和圖像到視頻合成能力,支持高達 1408p 分辨率、時長達 10 秒的視頻片段。
  • 高效的蒸餾變體 (Video Lite/Pro Flash),在保持質量的同時大幅縮短了推理時間。


盡管取得了這些進展,本文也承認在文本-視覺對齊、長期時間建模以及跨所有視覺領域的泛化能力等方面仍存在局限性。這些挑戰將指導本文正在進行的研究,朝著更統一、高效和符合倫理的生成模型邁進。


相信 Kandinsky 5.0 代表了向高質量生成媒體大眾化邁出的重要一步,并為多模態 AI 的未來發展奠定了堅實基礎。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/FTuw1s1nMmmbwoXpF3qo-Q??

收藏
回復
舉報
回復
相關推薦
日本sm极度另类视频| 欧美激情精品久久久久久免费印度 | 欧美日韩亚洲高清一区二区| 日韩视频 中文字幕| 欧美精品国产一区| 欧美亚洲日本网站| 成人午夜sm精品久久久久久久| 狠狠色香婷婷久久亚洲精品| 一路向西2在线观看| 国产成人8x视频一区二区| 久精品国产欧美| 香蕉久久网站| 日本a级片电影一区二区| 日韩成人精品一区二区三区| 亚洲第一网站男人都懂| 亚洲欧美视频一区二区| 精品国产精品三级精品av网址| 成人av小说网| 久久久欧美精品sm网站| av网站手机在线观看| 午夜亚洲伦理| 高清国产一区| 888久久久| 成人h视频在线| 欧美综合另类| 国产脚交av在线一区二区| 久久久久久夜| 久久成人一区二区| 成人免费黄色| 三级精品视频久久久久| 另类激情视频| 日韩精品免费综合视频在线播放| 日本高清视频在线播放| 欧美亚洲精品一区| 欧美精品少妇| 日本高清视频一区二区| 国产在线一二三区| 在线精品观看国产| 国产福利小视频在线观看| 色婷婷狠狠综合| 国产乱理伦片a级在线观看| 欧美日韩亚洲一区二| 亚洲男人天堂| 欧美三级欧美一级| 爆操欧美美女| 日韩精品在线观看网站| 自拍偷自拍亚洲精品被多人伦好爽| 欧美精品一区二区久久婷婷| 波多野在线观看| 亚洲少妇激情视频| **国产精品| 午夜精品福利视频| 欧美日韩国产传媒| 99国产盗摄| 久久综合导航| 亚洲精品一卡二卡三卡四卡| 国产在线视频一区二区| 搞av.com| 亚洲素人一区二区| 日本福利午夜视频在线| 欧美一三区三区四区免费在线看 | 欧美国产日韩在线| 亚洲va久久| 国产日韩精品综合网站| 亚洲精选国产| 女人帮男人橹视频播放| 成人免费在线视频| 最新国产在线观看| 亚洲午夜久久久影院| 丝袜久久网站| 国产亚洲欧美一区二区三区| 看电视剧不卡顿的网站| 成人午夜视频在线观看免费| 国产精品久久久一本精品| 四虎精品在永久在线观看 | 成人高清视频观看www| 亚洲黄色三级| 欧美性潮喷xxxxx免费视频看| 国产精品美女久久久久aⅴ国产馆| 网址你懂得在线观看| 日韩欧美国产一区二区在线播放| 福利精品一区| 国产精品综合网站| 日韩电影在线观看电影| 久久久久久久久久久久久国产精品 | 国产精选久久| 成人淫片在线看| 国产主播一区二区三区| 九色视频一区| 亚洲另类欧美自拍| 狠狠色丁香婷婷综合影院| 视频一区二区三区免费观看| 国产欧美一二三区| av在线女优影院| 精品中文字幕乱| 国产农村妇女毛片精品久久莱园子| 精品久久久久久久久久中文字幕| 午夜精品久久久久久不卡8050| 午夜影院一区| 99蜜桃在线观看免费视频网站| aaa欧美色吧激情视频| 蜜桃免费在线| 欧美激情在线观看| 日日噜噜夜夜狠狠视频欧美人 | 久久激情视频| 四虎永久在线高清国产精品| 精品少妇一区二区三区免费观看| 婷婷亚洲精品| 亚洲精品少妇一区二区| 色哟哟国产精品免费观看| 亚瑟国产精品| 亚洲精品成人三区| 日韩欧美aaa| 日韩大片在线免费观看| 天天操天天干天天玩| 91福利精品视频| 亚洲精华一区二区三区| 成年人网站国产| 91精品国产综合久久久久久| 国产成人高清| 男女啪啪网站视频| 亚洲人成欧美中文字幕| 免费在线播放第一区高清av| 亚洲小说区图片区情欲小说| 欧美多人乱p欧美4p久久| 精品在线播放午夜| 最新国产在线观看| 亚洲自拍偷拍福利| 一区二区三区不卡视频| xxxx日韩| 男女曰b免费视频| 中文亚洲视频在线| 精品一区二区影视| 天天色天天射天天综合网| 97在线电影| 午夜精彩视频在线观看不卡| 欧洲亚洲一区二区三区| 国产一级特黄a大片免费| 中文字幕日韩高清| 国产成人免费在线| 中文在线资源| 黄黄视频在线观看| 亚洲精品乱码久久久久久按摩观| 久久久青草婷婷精品综合日韩| 日本在线视频站| 国产精品国产一区二区| 欧美性猛交xxx| 一区二区电影| 国产三级在线看| aaa级精品久久久国产片| 色综合久久综合中文综合网| 自拍日韩欧美| 青青青青在线| 夜夜爽www精品| 亚洲一区av在线播放| 成人免费看视频| 99久久999| 99热热99| 国产精品高清在线| 欧美日韩亚洲精品内裤| 亚洲午夜精品久久久久久app| av大片在线看| 亚洲午夜精品久久久中文影院av| 亚洲免费视频网站| 2欧美一区二区三区在线观看视频| 高清久久一区| aaa一级毛片| 91日本在线观看| 欧美一区二区在线看| 久久国产精品第一页| 国产精品亚洲d| 91欧美视频在线| 国产综合在线观看视频| 欧美三级视频在线播放| 蜜臀av国产精品久久久久| 九九热线视频只有这里最精品| 人妻精品无码一区二区三区 | 91.麻豆视频| 免费观看成人av| 99久久伊人| 亚洲欧美在线精品| 成人网在线免费看| 精品成人在线观看| 久久久久久久综合狠狠综合| 俺要去色综合狠狠| 一区二区三区视频在线观看视频| 在线视频不卡一区二区| 久久久久国产一区二区三区| 欧美日韩亚洲视频| 国产真实乱对白精彩久久| 91九色鹿精品国产综合久久香蕉| 日本一二三区视频免费高清| 精品欧美一区二区在线观看视频 | 色婷婷综合久久久久中文一区二区 | ccyy激情综合| 五月综合激情在线| 91久久国产综合久久蜜月精品| 日韩视频不卡中文| 久久这里只有精品视频网| 第九色区aⅴ天堂久久香|