前言
什么是 AI?在你的腦海中可能浮現由一個個神經元堆疊起來的神經網絡。那什么是繪畫藝術?是達芬奇的《蒙娜麗莎的微笑》,是梵高的《星空夜》、《向日葵》,還是約翰內斯·維米爾的《戴珍珠耳環的少女》?當 AI 遇上繪畫藝術,它們之間能擦出什么樣的火花呢??
2021年初,OpenAI 團隊發布了能夠根據文本描述生成圖像的 DALL-E 模型。由于其強大的跨模態圖像生成能力,引起自然語言和視覺圈技術愛好者的強烈追捧。僅僅一年多的時間,多模態圖像生成技術如雨后春筍般開始涌現,期間也誕生了許多利用這些技術進行 AI 藝術創作的應用,比如最近火得一塌糊涂的 Disco Diffusion。如今,這些應用正逐漸走進藝術創作者和普通大眾的視野,成為了很多人口中的“神筆馬良”。
?本文從技術興趣出發,對多模態圖像生成技術與經典工作進行介紹,最后探索如何使用多模態圖像生成進行神奇的 AI 繪畫藝術創作。
????筆者使用 Disco Diffusion 創作的 AI 繪畫藝術作品?
多模態圖像生成概念
多模態圖像生成(Multi-Modal Image Generation)旨在利用文本、音頻等模態信息作為指導條件,生成具有自然紋理的逼真圖像。不像傳統的根據噪聲生成圖像的單模態生成技術,多模態圖像生成一直以來就是一件很有挑戰的任務,要解決的問題主要包括:
(1)如何跨越“語義鴻溝”,打破各模態之間固有的隔閡?
(2)如何生成合乎邏輯的,多樣性的,且高分?辨率的圖像?近兩年,隨著 Transformer 在自然語言處理(如 GPT)、計算機視覺(如 ViT)、多模態預訓練(如 CLIP)等領域的成功應用,以及以 VAE、GAN 為代表的圖像生成技術有逐漸被后起之秀——擴散模型(Diffusion Model)趕超之勢,多模態圖像生成的發展一發不可收拾。?
多模態圖像生成技術與經典工作
分類
按照訓練方式采用的是 Transformer 自回歸還是擴散模型的方式,近兩年多模態圖像生成重點工作分類如下:

??
?
Transformer 自回歸
采取 Transformer 自回歸方式的做法往往將文本和圖像分別轉化成 tokens 序列,然后利用生成式的 Transformer 架構從文本序列(和可選圖像序列)中預測圖像序列,最后使用圖像生成技術(VAE、GAN等)對圖像序列進行解碼,得到最終生成圖像。以 DALL-E (OpenAI)[1] 為例:

??圖像和文本通過各自編碼器轉化成序列,拼接到一起送入到 Transformer(這里用的是 GPT3)進行自回歸序列生成。在推理階段,使用預訓練好的 CLIP 計算文本與生成圖像的相似度,進行排序后得到最終生成圖像的輸出。與 DALL-E 類似,清華的 CogView 系列 [2, 3] 與百度的 ERNIE-ViLG [4] 同樣使用 VQ-VAE + Transformer 的架構設計,谷歌的 Parti [5] 則將圖像編解碼器換成了 ViT-VQGAN。而微軟的 NUWA-Infinity [6] 使用自回歸方式可以做到無限視覺生成。
擴散模型
擴散模型(Diffusion Model)是一種圖像生成技術,最近一年發展迅速,被喻為 GAN 的終結者。如圖所示,擴散模型分為兩階段:(1)加噪:沿著擴散的馬爾可夫鏈過程,逐漸向圖像中添加隨機噪聲;(2)去噪:學習逆擴散過程恢復圖像。常見變體有去噪擴散概率模型(DDPM)等。??

采取擴散模型方式的多模態圖像生成做法,主要是通過帶條件引導的擴散模型學習文本特征到圖像特征的映射,并對圖像特征進行解碼得到最終生成圖像。以 DALL-E-2(OpenAI)[7] 舉例,其雖然是 DALL-E 的續作,但是采取的技術路線與 DALL-E 截然不同,其原理更像是 GLIDE [8](有人稱 GLIDE 為 DALL-E-1.5)。DALL-E-2 的整體架構如圖所示:??

DALL-E-2 使用 CLIP 對文本進行編碼,并使用擴散模型學習一個先驗(prior)過程,得到文本特征到圖像特征的一個映射;最后學習一個反轉 CLIP 的過程,將圖像特征解碼成最終的圖像。相比于 DALL-E-2,谷歌的 Imagen [9] 則使用預訓練好的 T5-XXL 來取代 CLIP 進行文本編碼,然后使用超分擴散模型(U-Net 架構)增大圖像尺寸,得到 1024??1024 高清的生成圖像。
小結
自回歸 Transformer 的引入與 CLIP 對比學習的方式,建立了文本和圖像之間的橋梁;同時基于帶條件引導的擴散模型,為生成多樣性且高分辨率的圖像奠定了基礎。然而,評估圖像生成質量往往帶有主觀因素,因此在這里比較 Transformer 自回歸還是擴散模型的技術誰更勝一籌是一件困難的事情。并且像 DALL-E 系列、Imagen 以及 Parti 等模型在大規模數據集上訓練,使用會存在倫理問題以及社會偏見,因此這些模型尚未開源。但是還是有很多愛好者在嘗試使用其中的技術,期間也產生了很多可玩的應用。?
AI 藝術創作
多模態圖像生成技術的發展,為 AI 藝術創作提供了更多的可能。目前,被廣泛使用的 AI 創作應用及工具包括 CLIPDraw,VQGAN-CLIP,Disco Diffusion,DALL-E Mini,Midjourney(需被邀請資格),DALL-E-2(需內測資格),Dream By Wombo(App),Meta ”Make-A-Scene”,Tiktok “AI 綠幕” 功能,Stable Diffusion [10],百度“一格”等。本文主要利用在藝術創作圈火爆的 Disco Diffusion 進行 AI 藝術創作。
Disco Diffusion 簡介
Disco Diffusion [11] 是一個在 Github 上由眾多技術愛好者共同維護的 AI 藝術創作應用,目前已經迭代了多個版本。從 Disco Diffusion 的名字不難看出,其采用的技術主要是用 CLIP 引導的擴散模型。Disco Diffusion 可以根據指定的文本描述(和可選底圖)來生成藝術圖像或視頻。比如輸入“花海”,模型就會隨機產生一張噪聲圖像,通過 Diffusion 的去噪擴散過程一步步迭代,達到一定步數后就能渲染出一張美麗的圖像。得益于擴散模型多樣化的生成方式,每次運行程序都會得到不同的圖像,這種“開盲盒”的體驗著實讓人著迷。
Disco Diffsion 存在問題
基于多模態圖像生成模型 Disco Diffusion(DD)進行 AI 創作目前存在以下幾個問題:
(1)生成圖像質量參差不齊:根據生成任務的難易程度,粗略估算描述內容較難的生成任務良品率 20%~30%,描述內容較容易的生成任務良品率 60%~70%,大多數任務良品率在 30~40% 之間。
(2)生成速度較慢+內存消耗較大:以迭代 250 steps 生成一張 1280*768 圖像為例,需要大約花費 6分鐘,以及使用 V100 16G 顯存。
(3)嚴重依賴專家經驗:選取一組合適的描述詞需要經過大量文本內容試錯及權重設置、畫家畫風及藝術社區的了解以及文本修飾詞的選取等;調整參數需要對 DD 包含的 CLIP 引導次數/飽和度/對比度/噪點/切割次數/內外切/梯度大小/對稱/... 等概念深刻了解,同時要有一定的美術功底。眾多的參數也意味著需要較強的專家經驗才能獲得一張還不錯的生成圖像。
技能儲備
針對上述問題,我們做了一些數據與技術儲備,同時 YY 了一些未來可能的應用。如下圖所示:

??
- 針對第一個問題,我們從藝術創作社區爬取了近 2w 張 AI 生成的藝術作品,從生成圖像的基礎屬性以及內容合理性進行三分類打標:質量好/質量一般/質量差,訓練一個藝術作品質量評估模型。該模型能自動評估 AI 生成圖像的質量并挑選出良品率高的圖像,解決手動挑選高質量圖像效率低的問題。
- 針對第二個問題,我們通過減少迭代次數+生成小尺寸圖像,然后利用超分辨率算法 ESRGAN 進行高分辨率圖像重建的方式,來提高 DD 的生成效率。該方法能達到與 DD 正常迭代生成的圖像效果,生成效率與顯存優化至少提升了一倍。
- 針對第三個問題,我們沉淀了一套底圖預處理邏輯,包括色溫色調調整/前背景調色/添加噪點等,能快速應用不同底圖生成任務;同時,我們也積累了海量的文本提示詞,進行了大量的 DD 調參試錯,依賴專家經驗生成個性化、多樣化的高質量圖像。
?利用這些數據與技術儲備,我們已經積累了手機/電腦壁紙、藝術姓/名、地標城市風格化、數字藏品等多模態圖像生成應用方式。下面我們將展示具體的 AI 生成藝術作品。
AI 藝術作品
城市地標建筑風格化
通過輸入文本描述與地標城市底圖,生成不同風格的畫作(動漫風格 / 賽博朋克風格 / 像素畫風格):
(1) A building with anime style, by makoto shinkai and beeple, Trending on artstation.
(2) A building with cyberpunk style, by Gregory Grewdson, Trending on artstation.
(3) A building with pixel style, by Stefan Bogdanovi, Trending on artstation.


????數字藏品
通過輸入文本描述與底圖,在底圖上進行創作。
- 螞蟻 Logo 系列(螞蟻森林 / 螞蟻小屋 / 螞蟻飛船):
(1) A landscape with vegetation and lake, by RAHDS and beeple, Trending on artstation.(2) Enchanted cottage on the edge of a cliff foreboding ominous fantasy landscape, by RAHDS and beeple, Trending on artstation.
(3) A spacecraft by RAHDS and beeple, Trending on artstation.

- 螞蟻小雞系列(小雞之變形金剛 / 小雞之海綿寶寶):
(1) Transformers with machine armor, by Alex Milne, Trending on artstation.
(2) Spongebob by RAHDS and beeple, Trending on artstation.

手機/電腦壁紙
- 通過輸入文本描述,生成手機壁紙:
(1) The esoteric dreamscape by Dan Luvisi, trending on Artstation, matte painting vast landscape.
(2) Scattered terraces, winter, snow, by Makoto Shinka, trending on Artstation, 4k wallpaper.
(3) A beautiful cloudpunk painting of Atlantis arising from the abyss heralded by steampunk whales by Pixar rococo style, Artstation, volumetric lighting.??

(4~8) A scenic view of the planets rotating through chantilly cream by Ernst Haeckel and Pixar trending on Artstation, 4k wallpaper.

- ??通過輸入文本描述,生成電腦壁紙:
(1) Fine, beautiful country fields, super wide angle, overlooking, morning by Makoto Shinkai.
(2) A beautiful painting of a starry night, shining its light across a sunflower sea by James Gurney, Trending on artstation.
(3) Fairy tale steam country by greg rutkowski and thomas kinkade Trending on artstation.
(4) A beautiful render of a magical building in a dreamy landscape by daniel merriam, soft lighting, 4k hd wallpaper, Trending on artstation and behance.??

AI 藝術姓
- 通過輸入文本描述與姓氏底圖,生成不同風格的藝術姓:
(1) Large-scale military factories, mech testing machines, Semi-finished mechs, engineering vehicles, automation management, indicators, future, sci-fi, light effect, high-definition picture.
(2) A beautiful painting of mashroom, tree, artstation, Artstation, 4k hd wallpaper.
(3) A beautiful painting of sunflowers, fog, unreal engine, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Artstation, Andreas Rocha, Greg Rutkowski.
(4) A beautiful painting of the pavilion on the water presents a reflection, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.
(5) A beautiful landscape of a lush jungle with exotic plants and trees, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.
(6) Contra Force, Red fortress, spacecraft, by Ernst Haeckel and Pixar, wallpaper hd 4k, trending on artstation.

其他 AI 藝術創作應用
Stable Diffusion [10, 12] 展現了比 Disco Diffusion [11] 更加高效且穩定的創作能力,尤其是在“物”的刻畫上更加突出。下圖是筆者利用 Stable Diffusion,根據文本創作的 AI 繪畫作品:??

?總結展望
本文主要介紹了近兩年來多模態圖像生成技術及相關的進展工作,并嘗試使用多模態圖像生成進行多種 AI 藝術創作。接下來,我們還將探索多模態圖像生成技術在消費級 CPU 上運行的可能性,以及結合業務為 AI 智能創作賦能,并嘗試更多如電影、動漫主題封面,游戲,元宇宙內容創作等更多相關應用。
?使用多模態圖像生成技術進行藝術創作只是 AI 自主生產內容(AIGC,AI generated content)的一種應用方式。得益于當前海量數據與預訓練大模型的發展,AIGC 能夠加速落地,為人類提供更多優質內容。或許,通用人工智能又邁進了一小步??如果你對本文涉及到的技術或者應用感興趣,歡迎共創交流。?
參考文獻
[1] Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[C]//International Conference on Machine Learning. PMLR, 2021: 8821-8831.
[2] Ding M, Yang Z, Hong W, et al. Cogview: Mastering text-to-image generation via transformers[J]. Advances in Neural Information Processing Systems, 2021, 34: 19822-19835.
[3] Ding M, Zheng W, Hong W, et al. CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers[J]. arXiv preprint arXiv:2204.14217, 2022.
[4] Zhang H, Yin W, Fang Y, et al. ERNIE-ViLG: Unified generative pre-training for bidirectional vision-language generation[J]. arXiv preprint arXiv:2112.15283, 2021.
[5] Yu J, Xu Y, Koh J Y, et al. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation[J]. arXiv preprint arXiv:2206.10789, 2022.
[6] Wu C, Liang J, Hu X, et al. NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis[J]. arXiv preprint arXiv:2207.09814, 2022.
[7] Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with clip latents[J]. arXiv preprint arXiv:2204.06125, 2022.
[8] Nichol A, Dhariwal P, Ramesh A, et al. Glide: Towards photorealistic image generation and editing with text-guided diffusion models[J]. arXiv preprint arXiv:2112.10741, 2021.
[9] Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. arXiv preprint arXiv:2205.11487, 2022.
[10] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.
[11] Github: https://github.com/alembics/disco-diffusion?
[12] Github: https://github.com/CompVis/stable-diffusion?





















