国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

開源全能圖像模型媲美GPT-4o!理解生成編輯同時搞定,解決擴散模型誤差累計問題

人工智能 新聞
在模型融合訓練、圖像Token數量提升、ScaleUp數據集和模型大小等等方面,Nexus-Gen依然存在著大量的優化潛力,目前ModelScope團隊在這些不同方向,還在進行更深入的探索。

OpenAI GPT-4o發布強大圖片生成能力后,業界對大模型生圖能力的探索向全模態方向傾斜,訓練全模態模型成研發重點。

開源的MLLMs和擴散模型已經過大規模預訓練,其從零開始訓練統一任務,不如取長補短,將MLLMs的語言建模能力,與擴散模型的像素級圖像建模能力,進行有機的結合。

基于這個思路,ModelScope團隊提出可同時完成圖像理解、生成和編輯的統一模型Nexus-Gen,在圖像質量和編輯能力上達GPT-4o同等水平,并將成果全方位開源,望引發開發者討論,促進All-to-All模型領域發展。

模型先進行圖像生成,然后進行圖像理解的可視化案例:

Nexus-Gen技術細節

總體框架

Nexus-Gen采用了與GPT-4o類似的 token → [transformer] → [diffusion] → pixels 技術路線,融合了SOTA MLLMs的強大文本預測能力和Diffusion模型的強大圖像渲染能力,其總體架構如圖所示。

飛書文檔 - 圖片

作為一個All-to-All模型,Nexus-Gen的輸入和輸出都支持圖像和文本模態,自回歸Transformer輸出的文本Token進行分類后解碼成對應的輸出文本。而輸出的視覺Token的embeddings則會作為條件輸入給Vision Decoder中解碼為輸出圖像。

之前的All-to-All模型大多直接使用自回歸Transformer直接對圖像的像素空間進行建模,然后用VAE等模型解碼為圖像,導致圖像質量較差。

為了保證圖像質量,Nexus-Gen選擇在高維特征空間對圖像進行建模,并選擇SOTA的擴散模型作為視覺解碼器。

相比于處理單一任務的模型,All-to-All模型的潛力在于圖像理解、生成、編輯等任務可以相互促進、互相組合

為了完成這一目標,將模型的輸入和輸出特征空間限定在同一個連續高維特征空間,統一使用Vision Encoder編碼圖像得到高維特征。對于理解任務,這些特征直接輸入模型中作為先驗。對于生成任務,這些特征則作為真值指導模型的訓練。

預填充自回歸策略

在訓練階段,自回歸模型直接使用真值作為輸入序列,然后將輸入序列左移一位后計算損失函數。在推理階段,則采用Token-by-Token的自回歸:即每預測一個Token,就將其送回輸入,預測后續的Token。

團隊發現,將這種自回歸范式,直接運用在連續特征空間的圖像Embedding預測上,會帶來比較嚴重的誤差累計問題。

如下圖所示,從第一個黃色的圖像Token開始,預測的Embedding就存在誤差。將帶誤差的Embedding送回輸入中,會導致后續的Embedding預測誤差不斷增大,最終導致整個圖像Token序列預測失敗。

飛書文檔 - 圖片

誤差累計本質上是由訓練和推理行為不一致導致的。為了解決這個問題,魔搭團隊提出了預填充自回歸的策略,如下圖所示。在訓練時使用可學習特殊Token填充對應的圖像Embedding位置,這樣就可以讓模型學習直接預測任意位置的圖像Token的能力。

在推理階段,只要預測到圖像的起始Token BOI,就直接預填充N個特殊Token到輸入序列中。通過這種方式,能夠保證訓練和推理階段行為的一致性,從而消除誤差累計。

任務構建與訓練細節

在Nexus-Gen工作之前,沒有看到過在統一的理解、生成和編輯任務上做訓練的先例。所以魔搭團隊首先從工程上,探索使用類messages格式來定義所有任務的數據格式。如下圖所示。

之后,團隊從開源社區收集了約25M訓練數據并轉化為以上統一的格式,其中,圖像理解數據6M,圖像生成數據12M,圖像編輯數據7M。

部分數據使用Qwen-VL-max API進行了重新標注。其中,圖像編輯數據包含了團隊在ModelScope社區最新開源的,圖像編輯數據集系列ImagePulse。

這一系列數據集中,針對GPT-4o不同的圖像編輯能力,包含了添加、去除、改變、風格遷移等原子能力而生成的,大約1M高質量樣本。

此外后續團隊也會將其他在訓練過程中使用到的全部數據,都進行開源。

由于Nexus-Gen將圖像特征統一在Vision Encoder的高維空間中,因此自回歸模型部分和擴散模型部分可以分開訓練。

自回歸模型使用魔搭開源的SWIFT框架訓練,擴散模型則使用了魔搭的DiffSynth-Studio框架訓練。下表詳細描述了訓練過程的細節。

自回歸模型采用了三階段訓練策略,前兩個階段逐步將圖像生成和圖像編輯能力嵌入語言模型中,最后一個階段則采用少量高質量數據來提升模型生圖質量。

擴散模型的訓練目標是將輸入條件由原本文本輸入調整為圖像Embedding輸入,采用單階段訓練策略。

Nexus-Gen 功能展示

Nexus同時具備圖像理解、生成和編輯能力,以下是每個能力的可視化案例。

圖像理解

圖像生成

圖像編輯

未來展望

在模型融合訓練、圖像Token數量提升、ScaleUp數據集和模型大小等等方面,Nexus-Gen依然存在著大量的優化潛力,目前ModelScope團隊在這些不同方向,還在進行更深入的探索。

Nexus-Gen的誕生,驗證了從SOTA的MLLMs和擴散模型出發,來對齊以GPT-4o為代表的閉源SOTA的可能性。其效果與GPT-4o具備許多共同點,比如圖像編輯會導致原圖部分變化、可以文本潤色進行多樣化圖像生成等;團隊也發現了許多OpenAI團隊沒有揭露的現象,比如圖像編輯能力極大受益于圖像生成,統一模型使多prompt編輯、故事性編輯成為可能等等。

ModelScope社區會持續將探索過程的模型權重、訓練數據以及工程框架全部開源,歡迎社區對Nexus-Gen和All-to-All統一模型的技術未來進行廣泛交流。

論文鏈接:https://arxiv.org/pdf/2504.21356
代碼鏈接:https://github.com/modelscope/Nexus-Gen
模型鏈接:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-Gen
數據集(ImagePulse)鏈接:https://www.modelscope.cn/collections/ImagePulse----tulvmaidong-7c3b8283a43e40

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-08-07 14:05:40

OpenAI大模型開源

2025-05-26 09:05:00

2024-05-15 17:34:15

2024-10-06 09:00:00

AI訓練數據

2025-12-03 17:17:29

AI圖像生成模型

2025-04-24 09:35:00

2025-05-27 15:59:41

AI工具模型

2025-07-23 09:32:02

2024-09-06 13:00:29

2025-04-09 09:08:34

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2025-10-28 02:11:00

2024-12-26 07:10:00

2025-03-31 08:50:00

AI生成模型

2025-07-14 09:00:00

2025-04-16 09:15:00

AI模型數據

2025-05-12 09:00:00

2025-06-06 14:17:11

模型訓練AI

2025-05-07 13:51:49

模型數據

2024-12-02 14:20:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

亚洲一区欧美一区| 九九九久久久精品| 在线视频你懂得一区二区三区| 亚洲成人在线视频网站| 亚洲人成亚洲精品| 欧美成人精品xxx| 免费在线毛片网站| 99国产欧美久久久精品| 成人免费视频网址| 日韩av黄色| 精品福利一区二区三区免费视频| 中文字幕一区免费| 成人欧美一区二区三区| 成人黄色片视频| 99精品视频免费观看| 欧美激情图片区| 国产第一页在线| 亚洲黄色免费电影| 男人舔女人下面高潮视频| 狠狠色丁香久久婷婷综| 五月天婷亚洲天综合网鲁鲁鲁| 国产最新精品| 欧洲精品毛片网站| 91视频亚洲| 中文字幕精品在线| 爱情电影网av一区二区| 在线视频2区| 亚洲三级在线看| 四虎影视在线播放| 欧美亚洲图片小说| 蜜桃免费在线| 欧美午夜宅男影院在线观看| 成年网站在线免费观看| 成人妖精视频yjsp地址| 日本天堂免费a| 中文字幕视频一区二区三区久| 97福利电影| 8x国产一区二区三区精品推荐| 国产一区二区三区中文| 久久亚洲a v| 麻豆极品一区二区三区| 日本黄网站色大片免费观看| 亚洲精品成人图区| 色综合天天综合网国产成人网| 日韩成人av在线资源| 国产精品视频500部| 另类图片国产| 国产黄页在线观看| 久久综合av免费| 在线播放av片| 亚洲另类图片色| 亚洲综合丝袜美腿| 国产精品白浆| 久久久青草婷婷精品综合日韩 | 久久视频免费| 久久久黄色av| 国内黄色精品| 超碰免费在线公开| 91福利国产精品| 在线成人免费| 国产高清一区二区三区| 精品一区二区三区av| 爱情岛论坛亚洲首页入口章节| 亚洲精品欧美激情| 在线观看爽视频| 国产伦精品一区二区三区高清 | 欧美日韩国产一区二区三区| 羞羞网站在线看| 26uuu另类亚洲欧美日本一| 一区在线免费观看| 免费h片在线| 欧美裸体xxxx极品少妇| 亚洲激情在线| 中文在线www| 97超碰色婷婷| 欧美激情一区二区三区四区 | 丁香天五香天堂综合| 国产69精品久久久久孕妇| 2019亚洲男人天堂| 99re视频精品| 欧美国产亚洲精品| 蜜臀av免费观看| 日韩中文字在线| 美国十次了思思久久精品导航| 区一区二日本| 欧美一级大片视频| 亚洲一区二区免费视频| 欧美成人午夜77777| 91极品尤物在线播放国产| 韩国v欧美v日本v亚洲| 国产日韩亚洲欧美综合| 一二三四社区在线视频| 成人激情av| 日本韩国欧美国产| 亚洲电影在线| 精品成人av| 日韩精品一区二区三区四| 欧美老肥婆性猛交视频| 狠狠爱在线视频一区| 99re国产精品| 中文字幕综合| 热久久最新网址| 久久视频免费在线播放| 高潮白浆女日韩av免费看| 日韩一级精品| 国产精品99久久免费| 天堂av在线播放| 亚洲欧美日韩不卡| 欧美激情免费在线| 在线观看不卡一区| 国产激情一区二区三区四区| 深夜成人影院| 116美女写真午夜一级久久| 国产伦一区二区三区色一情| 欧美mv日韩mv| 亚洲视频一区二区免费在线观看| 成人激情电影在线| 免费人成在线观看网站| 国产人妻人伦精品| 久久成人亚洲精品| 欧美日韩国产丝袜另类| 男人操女人的视频在线观看欧美| 亚洲日本中文| 免费观看在线一区二区三区| 男生女生差差差的视频在线观看| 日本高清视频一区二区三区| 不用播放器成人网| 精品国产区一区| 中文字幕在线不卡一区| 首页综合国产亚洲丝袜| 精品国产一区二区三区av片| 欧美激情成人动漫| 麻豆av在线免费看| 国产日韩精品在线看| 国产www在线观看| 久久人妻精品白浆国产| 欧美乱大交xxxxx潮喷l头像| 精品无码一区二区三区在线| 影音欧美亚洲| 成人在线国产视频| 成人性免费视频| 91久久中文字幕| 99久re热视频这里只有精品6| 国产做受高潮69| 97国产suv精品一区二区62| 日韩亚洲综合在线| 国产亚洲精品91在线| 日韩欧美高清dvd碟片| 欧美日韩精品一区二区三区四区| 黄色免费网站在线| 欧美日韩伦理片| 青青草视频在线观看| 人人超碰在线| 波多野结衣av在线| 国产中文在线观看| 污黄视频在线看| 免费在线观看黄| v片在线观看| 川上优av中文字幕一区二区| 校园春色亚洲色图| 日本在线一区二区| 黑人操亚洲人| 国产一区二区三区四区三区四| 国内精品久久久久国产盗摄免费观看完整版 | 久久久午夜电影| 亚洲靠逼com| 在线视频综合导航| 欧美另类高清zo欧美| 欧美videofree性高清杂交| 亚洲欧美日韩中文在线| 精品国偷自产在线视频| 999视频在线免费观看| 日韩电影天堂视频一区二区| 一区二区欧美激情| 91精品在线看| 欧美视频第一区| 日本理论片午伦夜理片在线观看| 精品久久综合| 欧美精彩视频一区二区三区| 精品日韩欧美在线| 一本久久综合亚洲鲁鲁| 亚洲国产精品99久久| 欧美日韩高清区| 91日本在线视频| 国产免费一区二区三区四在线播放| 白白操在线视频| 欧美hdfree性xxxx| free性欧美16hd| 成人羞羞网站入口免费| 高清在线不卡av| 91黄色激情网站| 欧美诱惑福利视频| 女人扒开屁股爽桶30分钟| 欧美zozo| 成人涩涩网站| 国产成人一级电影| 欧美无乱码久久久免费午夜一区 | 产国精品偷在线| 亚洲成人天堂网| 亚洲人成午夜免电影费观看|