多模態圖像生成新寵 Janus-4o?ShareGPT-4o-Image 打造數據集新標桿,將圖像生成與 GPT-4o 對齊
ShareGPT-4o-Image 是一個大規模、高質量的圖像生成數據集,其中所有圖像均由 GPT-4o 的圖像生成功能生成。該數據集旨在將開放式多模態模型與 GPT-4o 在視覺內容創作方面的優勢相結合。它包含 45,000 個文本轉圖像和 46,000 個文本轉圖像樣本,使其成為增強多模態模型在圖像生成和編輯任務中的實用資源。

Janus-4o是一款多模態 LLM,能夠進行文本轉圖像和文本+圖像轉圖像的生成。它基于 Janus-Pro,使用ShareGPT-4o-Image數據集進行微調。與 Janus-Pro 相比,Janus-4o新增了文本+圖像轉圖像的生成功能,并在文本轉圖像生成方面取得了顯著改進。
數據集概覽
ShareGPT-4o-Image 共包含 91,000 個 GPT-4o 圖像生成樣本,分類如下:
- 文本轉圖像 45,717
- 文本加圖像轉圖像 46,539
相關鏈接
- 代碼:https://github.com/FreedomIntelligence/ShareGPT-4o-Image
- 模型:https://huggingface.co/FreedomIntelligence/Janus-4o-7B
- 論文:https://arxiv.org/pdf/2506.18095
論文介紹
多模態生成模型的最新進展已解鎖了逼真的、指令對齊的圖像生成,然而像 GPT-4o-Image 這樣的領先系統仍然是專有的,無法訪問。為了使這些功能大眾化,論文推出了 ShareGPT-4o-Image,這是第一個包含 45,000 個文本轉圖像和 46,000 個文本加圖像轉圖像數據的數據集,所有這些數據均使用 GPT-4o 的圖像生成功能合成,以提煉其先進的圖像生成能力。利用此數據集,論文開發了 Janus-4o,這是一個多模態大型語言模型,能夠進行文本轉圖像和文本加圖像轉圖像的生成。Janus-4o 不僅在其前身 Janus-Pro 的基礎上顯著改進了文本轉圖像的生成能力,而且還新增了文本加圖像轉圖像的功能。值得注意的是,它在從零開始的文本和圖像到圖像生成方面取得了令人印象深刻的性能, 僅使用了 91K 合成樣本,并在一臺 8×A800 GPU 機器上進行了 6 小時的訓練。我們希望 ShareGPT-4o-Image 和 Janus-4o 的發布能夠促進照片級逼真、指令對齊圖像生成的開放研究。
方法概述

ShareGPT-4o-Image 提升圖像生成性能。 使用 ShareGPT-4o-Image 對 Janus-Pro 進行微調,生成 Janus-4o,其圖像生成性能顯著提升。Janus-4o 還支持文本和圖像到圖像的生成,僅用 91,000 個訓練樣本就超越了其他基準。

數據集構建流程圖。

Janus-4o 模型概述。 該模型基于 Janus-Pro,并通過在 ShareGPT-4o-Image 上進行微調構建而成。它融入了增強功能,以支持文本和圖像到圖像的生成。文本到圖像和文本和圖像到圖像的任務均采用聯合訓練。
實驗結果

結論
ShareGPT-4o-Image是首個能夠捕捉 GPT-4o 在文本轉圖像和文本轉圖像生成方面先進圖像生成能力的大規模數據集。基于此數據集,論文開發了 Janus-4o,這是一個能夠從純文本或圖像文本組合輸入生成高質量圖像的機器學習模型 (MLLM)。Janus-4o 在文本轉圖像生成方面取得了顯著提升,并在文本轉圖像任務中取得了極具競爭力的結果,彰顯了 ShareGPT4o-Image 的高質量和實用性。得益于基于 MLLM 的自回歸圖像生成的高效性,Janus-4o 僅需 6 小時即可在一臺 8×A800 GPU 機器上完成訓練,并以極低的計算量實現顯著的性能提升。
本文轉載自??AIGC Studio??,作者:AIGC Studio

















