国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務

發布于 2025-2-17 09:32
瀏覽
0收藏

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

論文地址:https://arxiv.org/pdf/2409.04005 

項目主頁:https://360cvgroup.github.io/Qihoo-T2X 

代碼倉庫:https://github.com/360CVGroup/Qihoo-T2X

?

作者信息:論文一作為來自中山大學的博士生王晶;論文共同一作和項目leader為來自360 AI Research視頻生成方向的負責人馬傲


亮點直擊

  • 提出了Proxy-Tokenized擴散 transformer(Proxy-Tokenized Diffusion Transformer,PT-DiT)。
  • 推出了Qihoo-T2X系列模型,包括文本到圖像(T2I)、文本到視頻(T2V)以及文本到多視圖(T2MV)生成模型。
  • 實驗結果表明,該方法在保持競爭性能的同時顯著提高了效率。
  • 在標準的3D VAE設置下(8倍空間下采樣率和4倍時間下采樣率),實驗表明,該方法可以在64GB Ascend 910B上訓練PT-DiT/XL(1.1B參數)模型,用于分辨率為2048×2048的圖像生成或分辨率為512×512×288的視頻生成。


Diffusion Transformer模型由于全局self-attention,其計算復雜度與序列長度平方成正比,導致其在高分辨率圖像和長時間視頻生成任務中面臨計算成本高的問題。


為此,來自中山大學和360 AI Research的研究人員基于Proxy token提出了一種高效的Diffusion Transformer 即PT-DiT, 能夠適用于文本生成圖像、視頻和Multi-View的等多種生成任務。作者基于PT-DiT進一步構建了包含Qihoo-T2I,Qihoo-T2V和Qihoo-T2MV等模型的Qihoo-T2X系列實現文本生成任意任務。


ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

研究動機

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

當前,基于Diffusion Transformer 的模型(Sora , Vidu, Flux等)能夠生成高保真度圖像或視頻并與文本指令具有強一致性,極大的促進了視覺生成的進步。然而,global self-attention關于序列長度的二次復雜度增加了Diffusion Transformer的計算開銷,導致了實際應用時更長的生成時間和更高的訓練成本。


這個問題也阻礙了Diffusion Transformer在高質量和長時間視頻生成中的應用。


例如,優于2D spatial attention+ 1D temporal attention的3D full attention卻由于計算開銷的限制而難以進行更高分辨率和更長時間視頻生成的探索。


一些視覺理解和識別領域的研究發現,由于視覺信息的稀疏和重復性質,global self-attention具有一定的冗余性。研究團隊通過可視化注意力圖,發現同一窗口內的不同token對于空間上距離較遠的token的關注程度是相似的,對于空間上相近的token的關注程度是不同的。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

這表明計算所有token的注意力是冗余的,而對計算空間相鄰token的注意力至關重要。

所以,研究團隊提出了一種基于proxy token的稀疏注意力策略,從每個窗口采樣有限的proxy token來執行自注意力,從而減少冗余并降低復雜性。

Qihoo-T2X方法

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

如圖所示,研究團隊提出的 PT-DiT引入了proxy token來減少計算global self-attention所涉及的token數量,高效地建立全局視覺信息的關聯。PT-DiT包含兩個核心的模塊分別是Global Information Interaction Module (GIIM) 和Texture Complement Module (TCM)。

其中,GIIM 使用稀疏proxy token機制促進所有潛在代碼之間的高效交互,而空間相鄰token的關聯是不可忽略的,特別是對于細節紋理要求高的圖像生成任務,為此研究團隊設計了TCM,其通過window attention和shift window attention進一步細化局部細節。

下面將詳細介紹這兩部分:

Global Information Interaction Module

給定一系列latent token,首先根據空間和時間先驗(即位于同一個空間窗口)通過計算平均token得到一系列proxy tokens。


每個proxy token代表圖像或視頻內的一個局部區域的信息,并與其他局部區域中的proxy token通過self-attention進行交互以建立全局視覺關聯。


隨后,proxy tokens中蘊含的信息被通過與latent token的cross-attention傳播到全部latent token中,從而實現高效的全局視覺信息交互。

Texture Complement Module

由于稀疏proxy tokens交互的特點并且缺乏空間鄰近token的相互關聯,生成模型對于建模細節紋理的能力有限,難以滿足生成任務的高質量需求。


為了解決這個問題,研究團隊引入了局部window attention,補充模型的細節建模和平滑能力。


僅有window attention 會導致窗口間token缺乏聯系,導致生成圖像格子現象明顯,如圖所示。因此,TCM 中還引入了shift window attention,緩解局部window attention引起的問題。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

由于計算window attention涉及的token數量較少,所以模型的計算復雜度并沒有大規模增加。

壓縮比例

對于圖像生成任務,研究團隊發現在不同分辨率下保持相同數量的窗口對于確保一致的語義層次結構至關重要,這有助于從低分辨率到高分辨率的訓練過程。 同時,窗口應該維持較多的數量以防止窗口內的語義信息太過豐富導致單個token不足以表示局部區域完成全局信息建模。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

計算復雜度分析

PT-DiT 僅使用少量的代表性 token 注意力,就降低了原始全 token 自注意力的計算冗余度。研究團隊進一步從理論上分析PT-DiT在計算復雜度方面的優勢。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

其中N表示潛在標記的長度,D表示特征維度。


類似地,GIIM 和 TCM 的計算復雜度計算如下:

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

實驗

作者在T2I T2V和T2MV任務上進行了定性和定量是實驗來評估Qihoo-T2X。

定性分析

Text-to-Image:如圖所示。Qihoo-T2I 表現出了極具競爭力的性能,能夠生成與提供的文本提示完美匹配的照片般逼真的圖像。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

Text-to-Video:研究人員將 Qihoo-T2V 與最近發布的開源文本轉視頻模型(即 EasyAnimateV4 和 CogVideoX)在 512 分辨率下進行了比較,取得了更好的效果,如圖所示。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

Text-to-MultiView:作者進一步探索了 PT-DiT 在文本到多視圖 (T2MV) 任務中的有效性。經過訓練的 Qihoo-T2MV 能夠根據提供的文本指令從各個視點生成512x512x24圖像,表現出很強的空間一致性,如圖所示。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

定量分析

研究團隊在MS-COCO FID-30K, UCF-101和MSR-VTT等benchmark上定量評估Qihoo-T2I和Qihoo-T2V,結果表明Qihoo-T2I和Qihoo-T2V均能實現有競爭力的性能,證明了PT-DiT的有效性。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

計算復雜度分析

如圖所示,無論是圖像或視頻生成任務,在相同參數規模下,PT-DiT相比現有Diffusion Transformer方法,均有大幅度的計算復雜度優勢。同時對比3D full attention建模的EasyanimateV4,其訓練顯存隨著幀數的增加而爆炸增長,而PT-DiT的顯存僅有微弱增長,表明PT-DiT有潛力完成更長時間的視頻生成任務。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

消融實驗

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務-AI.x社區

結論

鑒于視覺信息的稀疏性和冗余性,本文提出了PT-DiT,它利用代理標記化注意機制來緩解擴散Transformer中自注意力的計算冗余?;跁r間和空間先驗計算出一系列代表性標記,并在它們之間進行全局交互。此外,引入了窗口注意和移位窗口注意來優化局部細節的建模。我們提出的代表性標記機制對于具有冗余信息的視頻任務特別有效,實現了3D時空建模,同時避免了計算復雜度的爆炸。實驗表明,PT-DiT在提供顯著效率的同時實現了具有競爭力的性能。我們進一步基于PT-DiT開發了Qihoo-T2X系列,包括T2I、T2V和T2MV等模型。希望PT-DiT和Qihoo-T2X能為擴散Transformer領域提供新的見解和參考。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/PL5j54lsAWlZkiJejdhEww??

收藏
回復
舉報
回復
相關推薦
亚洲成人激情自拍| 一区二区欧美视频| 一区二区国产视频| 亚洲午夜精品久久久久久浪潮| 日韩一区二区久久久| 亚洲va久久久噜噜噜久久狠狠 | 亚洲一区在线看| 高清欧美一区二区三区| 成熟了的熟妇毛茸茸| 欧洲成人一区| 国产经典三级在线| 久久亚洲不卡| 777精品伊人久久久久大香线蕉| 国产日韩二区| av女优在线| 亚洲欧美日本日韩| 91精品国产aⅴ一区二区| 国内精品**久久毛片app| 99精品在免费线中文字幕网站一区| 91免费看片在线观看| 亚洲另类激情图| 草b视频在线观看| 亚洲高清999| 不卡的av中国片| 欧美日韩中字| 国产精品一区在线看| 国产精品秘入口18禁麻豆免会员| 一区一区三区| 粉嫩av亚洲一区二区图片| 中文一区二区视频| 国产综合中文字幕| 91在线一区| 日韩一区二区av| 极品在线视频| 久久精品一区二区三区不卡 | 国产一级黄色电影| 91精品久久久久久久久久不卡| 欧美日韩视频专区在线播放| 国产66精品久久久久999小说| 国产秀色在线www免费观看| 精品一区二区三区影院在线午夜| 最近更新的2019中文字幕| 乱人伦xxxx国语对白| 日韩精品视频一区二区三区| 国产精品视频一二| 国产精品视频精品视频| 99reav在线| 欧美性高跟鞋xxxxhd| 亚洲欧美丝袜| 三级影片在线观看欧美日韩一区二区| 中文字幕不卡av| 在线观看爽视频| 欧美国产日韩在线观看| 国产精品视频白浆免费视频| 亚洲国产网址| 91精选在线观看| 黄色在线观看网站| 精品国免费一区二区三区| 日韩视频在线观看国产| 国产三级精品三级在线观看国产| 欧美亚洲一区二区在线观看| 免费观看国产精品视频| 91在线国产福利| 国产一区二区三区高清视频| 亚洲欧洲一区| 另类视频在线观看| 丁香婷婷在线观看| 欧美日韩国产首页| 四虎国产精品成人免费4hu| 日日骚欧美日韩| 欧美日韩亚洲国产成人| 水蜜桃精品av一区二区| 国产一区二区三区精品久久久| 日本桃色视频| 欧美96在线丨欧| 免费成人高清视频| 老司机在线看片网av| 欧美变态tickle挠乳网站| 欧洲精品一区二区三区| 亚洲国产精品久久一线不卡| 大地资源中文在线观看免费版| 国产午夜亚洲精品理论片色戒| 91文字幕巨乱亚洲香蕉| 四虎国产精品永久在线国在线| 欧美色爱综合网| 精精国产xxx在线视频app| 亚洲精品中文字幕在线观看| 国产精品va在线观看无码| 亚洲免费影视| 91视频 -- 69xx| 欧美日韩免费在线| 美女无遮挡网站| 911精品国产一区二区在线| 久久福利在线| 日韩精品一二三四区| 欧洲伦理片一区 二区 三区| 国产婷婷色一区二区三区四区| 久久白虎精品| 中文字幕亚洲欧美在线不卡| 免费在线观看视频a| 99热这里只有精品7| 久久99久久99| 97影院理论午夜| 亚洲欧美日韩精品久久久久| 久久精品蜜桃| 97精品国产福利一区二区三区| 日韩免费观看高清| 欧美精品免费观看二区| 2019中文字幕在线电影免费| 麻豆国产一区二区| 丁香一区二区三区| 亚洲色图13p| 中文字幕の友人北条麻妃| 中文字幕在线永久在线视频| av色综合久久天堂av色综合在| 久久久久久久久久福利| 久久美女性网| 无码人妻丰满熟妇区五十路百度| 一本大道久久精品懂色aⅴ| 骚视频在线观看| 精品国产免费一区二区三区四区| 国产精品sss在线观看av| 亚洲狠狠婷婷综合久久久| 国产精品久久国产精麻豆99网站| 红桃av在线播放| 成人一道本在线| 日韩大片b站免费观看直播| 俺也去精品视频在线观看| 在线亚洲激情| 日韩国产一区久久| 成人欧美一区二区三区在线播放| 九色porny丨国产首页在线| 5g国产欧美日韩视频| **欧美大码日韩| 国产电影一区| 久久久久国产一区二区三区| 欧美区一区二区| 国模精品系列视频| 久久精品国产久精国产| 黄色在线免费观看大全| 97在线视频观看| 日韩免费va| 日韩亚洲一区二区| 美洲天堂一区二卡三卡四卡视频| 日韩在线第一区| 狠狠躁夜夜躁人人躁婷婷91 | 蜜桃视频第一区免费观看| 国产在线电影| 91精品国产综合久久香蕉| 色喇叭免费久久综合| 97在线资源站| 亚洲网友自拍偷拍| 欧美深夜视频| 国产精品传媒毛片三区| 亚洲国产精品一区二区久久| 妖精视频一区二区三区| 欧美成年人视频在线观看| 欧美日韩国产色视频| 亚洲男人都懂第一日本| 国产福利电影在线观看| 欧美亚洲午夜视频在线观看| 亚洲乱码精品| 一区二区三区偷拍| 26uuu欧美| 亚洲成a人片777777久久| 狂野欧美激情性xxxx欧美| 国产午夜一区二区| 日韩成人免费在线| 精品国产丝袜高跟鞋| 欧洲亚洲精品在线| 真不卡电影网| 国产精品欧美风情| 一区二区三区日韩精品视频| 日韩在线观看www| 亚洲精品少妇网址| 国产传媒欧美日韩成人| 九九亚洲视频| 黄色片视频在线播放| 国产一区亚洲二区三区| 一本岛在线视频| 国产精品.com| 午夜探花在线观看| 国产精品99久久免费黑人人妻| 在线成人福利| 日韩专区第三页| 色综合久久88| 91tv官网精品成人亚洲| 爱情岛论坛亚洲品质自拍视频网站| a级片国产精品自在拍在线播放| 国产视频亚洲精品| 国产盗摄视频一区二区三区| 欧美日韩一区二区综合| 国产大学生校花援交在线播放 | sis001亚洲原创区| 香港伦理在线| 你懂的免费在线观看视频网站| 午夜精品久久久久久久久| 欧美xxxx黑人又粗又长| 粉嫩一区二区三区国产精品| 爆乳熟妇一区二区三区霸乳|