国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

當 AI 邂逅繪畫藝術,能迸發出怎樣的火花?

原創 精選
人工智能
?本文從技術興趣出發,對多模態圖像生成技術與經典工作進行介紹,最后探索如何使用多模態圖像生成進行神奇的 AI 繪畫藝術創作。

前言

什么是 AI?在你的腦海中可能浮現由一個個神經元堆疊起來的神經網絡。那什么是繪畫藝術?是達芬奇的《蒙娜麗莎的微笑》,是梵高的《星空夜》、《向日葵》,還是約翰內斯·維米爾的《戴珍珠耳環的少女》?當 AI 遇上繪畫藝術,它們之間能擦出什么樣的火花呢??

2021年初,OpenAI 團隊發布了能夠根據文本描述生成圖像的 DALL-E 模型。由于其強大的跨模態圖像生成能力,引起自然語言和視覺圈技術愛好者的強烈追捧。僅僅一年多的時間,多模態圖像生成技術如雨后春筍般開始涌現,期間也誕生了許多利用這些技術進行 AI 藝術創作的應用,比如最近火得一塌糊涂的 Disco Diffusion。如今,這些應用正逐漸走進藝術創作者和普通大眾的視野,成為了很多人口中的“神筆馬良”。

?本文從技術興趣出發,對多模態圖像生成技術與經典工作進行介紹,最后探索如何使用多模態圖像生成進行神奇的 AI 繪畫藝術創作。圖片????筆者使用 Disco Diffusion 創作的 AI 繪畫藝術作品?

多模態圖像生成概念

多模態圖像生成(Multi-Modal Image Generation)旨在利用文本、音頻等模態信息作為指導條件,生成具有自然紋理的逼真圖像。不像傳統的根據噪聲生成圖像的單模態生成技術,多模態圖像生成一直以來就是一件很有挑戰的任務,要解決的問題主要包括:

(1)如何跨越“語義鴻溝”,打破各模態之間固有的隔閡?

(2)如何生成合乎邏輯的,多樣性的,且高分?辨率的圖像?近兩年,隨著 Transformer 在自然語言處理(如 GPT)、計算機視覺(如 ViT)、多模態預訓練(如 CLIP)等領域的成功應用,以及以 VAE、GAN 為代表的圖像生成技術有逐漸被后起之秀——擴散模型(Diffusion Model)趕超之勢,多模態圖像生成的發展一發不可收拾。?

多模態圖像生成技術與經典工作

分類

按照訓練方式采用的是 Transformer 自回歸還是擴散模型的方式,近兩年多模態圖像生成重點工作分類如下:

圖片

??

?

Transformer 自回歸

采取 Transformer 自回歸方式的做法往往將文本和圖像分別轉化成 tokens 序列,然后利用生成式的 Transformer 架構從文本序列(和可選圖像序列)中預測圖像序列,最后使用圖像生成技術(VAE、GAN等)對圖像序列進行解碼,得到最終生成圖像。以 DALL-E (OpenAI)[1] 為例:

圖片

??圖像和文本通過各自編碼器轉化成序列,拼接到一起送入到 Transformer(這里用的是 GPT3)進行自回歸序列生成。在推理階段,使用預訓練好的 CLIP 計算文本與生成圖像的相似度,進行排序后得到最終生成圖像的輸出。與 DALL-E 類似,清華的 CogView 系列 [2, 3] 與百度的 ERNIE-ViLG [4] 同樣使用 VQ-VAE + Transformer 的架構設計,谷歌的 Parti [5] 則將圖像編解碼器換成了 ViT-VQGAN。而微軟的 NUWA-Infinity [6] 使用自回歸方式可以做到無限視覺生成。

擴散模型

擴散模型(Diffusion Model)是一種圖像生成技術,最近一年發展迅速,被喻為 GAN 的終結者。如圖所示,擴散模型分為兩階段:(1)加噪:沿著擴散的馬爾可夫鏈過程,逐漸向圖像中添加隨機噪聲;(2)去噪:學習逆擴散過程恢復圖像。常見變體有去噪擴散概率模型(DDPM)等。??

圖片

采取擴散模型方式的多模態圖像生成做法,主要是通過帶條件引導的擴散模型學習文本特征到圖像特征的映射,并對圖像特征進行解碼得到最終生成圖像。以 DALL-E-2(OpenAI)[7] 舉例,其雖然是 DALL-E 的續作,但是采取的技術路線與 DALL-E 截然不同,其原理更像是 GLIDE [8](有人稱 GLIDE 為 DALL-E-1.5)。DALL-E-2 的整體架構如圖所示:??

圖片

DALL-E-2 使用 CLIP 對文本進行編碼,并使用擴散模型學習一個先驗(prior)過程,得到文本特征到圖像特征的一個映射;最后學習一個反轉 CLIP 的過程,將圖像特征解碼成最終的圖像。相比于 DALL-E-2,谷歌的 Imagen [9] 則使用預訓練好的 T5-XXL 來取代 CLIP 進行文本編碼,然后使用超分擴散模型(U-Net 架構)增大圖像尺寸,得到 1024??1024 高清的生成圖像。

小結

自回歸 Transformer 的引入與 CLIP 對比學習的方式,建立了文本和圖像之間的橋梁;同時基于帶條件引導的擴散模型,為生成多樣性且高分辨率的圖像奠定了基礎。然而,評估圖像生成質量往往帶有主觀因素,因此在這里比較 Transformer 自回歸還是擴散模型的技術誰更勝一籌是一件困難的事情。并且像 DALL-E 系列、Imagen 以及 Parti 等模型在大規模數據集上訓練,使用會存在倫理問題以及社會偏見,因此這些模型尚未開源。但是還是有很多愛好者在嘗試使用其中的技術,期間也產生了很多可玩的應用。?

AI 藝術創作

多模態圖像生成技術的發展,為 AI 藝術創作提供了更多的可能。目前,被廣泛使用的 AI 創作應用及工具包括 CLIPDraw,VQGAN-CLIP,Disco Diffusion,DALL-E Mini,Midjourney(需被邀請資格),DALL-E-2(需內測資格),Dream By Wombo(App),Meta ”Make-A-Scene”,Tiktok “AI 綠幕” 功能,Stable Diffusion [10],百度“一格”等。本文主要利用在藝術創作圈火爆的 Disco Diffusion 進行 AI 藝術創作。

Disco Diffusion 簡介

Disco Diffusion [11] 是一個在 Github 上由眾多技術愛好者共同維護的 AI 藝術創作應用,目前已經迭代了多個版本。從 Disco Diffusion 的名字不難看出,其采用的技術主要是用 CLIP 引導的擴散模型。Disco Diffusion 可以根據指定的文本描述(和可選底圖)來生成藝術圖像或視頻。比如輸入“花海”,模型就會隨機產生一張噪聲圖像,通過 Diffusion 的去噪擴散過程一步步迭代,達到一定步數后就能渲染出一張美麗的圖像。得益于擴散模型多樣化的生成方式,每次運行程序都會得到不同的圖像,這種“開盲盒”的體驗著實讓人著迷。

Disco Diffsion 存在問題

基于多模態圖像生成模型 Disco Diffusion(DD)進行 AI 創作目前存在以下幾個問題:

(1)生成圖像質量參差不齊:根據生成任務的難易程度,粗略估算描述內容較難的生成任務良品率 20%~30%,描述內容較容易的生成任務良品率 60%~70%,大多數任務良品率在 30~40% 之間。

(2)生成速度較慢+內存消耗較大:以迭代 250 steps 生成一張 1280*768 圖像為例,需要大約花費 6分鐘,以及使用 V100 16G 顯存。

(3)嚴重依賴專家經驗:選取一組合適的描述詞需要經過大量文本內容試錯及權重設置、畫家畫風及藝術社區的了解以及文本修飾詞的選取等;調整參數需要對 DD 包含的 CLIP 引導次數/飽和度/對比度/噪點/切割次數/內外切/梯度大小/對稱/... 等概念深刻了解,同時要有一定的美術功底。眾多的參數也意味著需要較強的專家經驗才能獲得一張還不錯的生成圖像。

技能儲備

針對上述問題,我們做了一些數據與技術儲備,同時 YY 了一些未來可能的應用。如下圖所示:

圖片

??

  • 針對第一個問題,我們從藝術創作社區爬取了近 2w 張 AI 生成的藝術作品,從生成圖像的基礎屬性以及內容合理性進行三分類打標:質量好/質量一般/質量差,訓練一個藝術作品質量評估模型。該模型能自動評估 AI 生成圖像的質量并挑選出良品率高的圖像,解決手動挑選高質量圖像效率低的問題。
  • 針對第二個問題,我們通過減少迭代次數+生成小尺寸圖像,然后利用超分辨率算法 ESRGAN 進行高分辨率圖像重建的方式,來提高 DD 的生成效率。該方法能達到與 DD 正常迭代生成的圖像效果,生成效率與顯存優化至少提升了一倍。
  • 針對第三個問題,我們沉淀了一套底圖預處理邏輯,包括色溫色調調整/前背景調色/添加噪點等,能快速應用不同底圖生成任務;同時,我們也積累了海量的文本提示詞,進行了大量的 DD 調參試錯,依賴專家經驗生成個性化、多樣化的高質量圖像。

?利用這些數據與技術儲備,我們已經積累了手機/電腦壁紙、藝術姓/名、地標城市風格化、數字藏品等多模態圖像生成應用方式。下面我們將展示具體的 AI 生成藝術作品。

AI 藝術作品

城市地標建筑風格化

通過輸入文本描述與地標城市底圖,生成不同風格的畫作(動漫風格 / 賽博朋克風格 / 像素畫風格):

(1) A building with anime style, by makoto shinkai and beeple, Trending on artstation.

(2) A building with cyberpunk style, by Gregory Grewdson, Trending on artstation.

(3) A building with pixel style, by Stefan Bogdanovi, Trending on artstation.

圖片

圖片

????數字藏品

通過輸入文本描述與底圖,在底圖上進行創作。

  • 螞蟻 Logo 系列(螞蟻森林 / 螞蟻小屋 / 螞蟻飛船):

(1) A landscape with vegetation and lake, by RAHDS and beeple, Trending on artstation.(2) Enchanted cottage on the edge of a cliff foreboding ominous fantasy landscape, by RAHDS and beeple, Trending on artstation.

(3) A spacecraft by RAHDS and beeple, Trending on artstation.

圖片

  • 螞蟻小雞系列(小雞之變形金剛 / 小雞之海綿寶寶):

(1) Transformers with machine armor, by Alex Milne, Trending on artstation.

(2) Spongebob by RAHDS and beeple, Trending on artstation.

圖片

手機/電腦壁紙

  • 通過輸入文本描述,生成手機壁紙:

(1) The esoteric dreamscape by Dan Luvisi, trending on Artstation, matte painting vast landscape.

(2) Scattered terraces, winter, snow, by Makoto Shinka, trending on Artstation, 4k wallpaper.

(3) A beautiful cloudpunk painting of Atlantis arising from the abyss heralded by steampunk whales by Pixar rococo style, Artstation, volumetric lighting.??

圖片

(4~8) A scenic view of the planets rotating through chantilly cream by Ernst Haeckel and Pixar trending on Artstation, 4k wallpaper.

圖片

  • ??通過輸入文本描述,生成電腦壁紙:

(1) Fine, beautiful country fields, super wide angle, overlooking, morning by Makoto Shinkai.

(2) A beautiful painting of a starry night, shining its light across a sunflower sea by James Gurney, Trending on artstation.

(3) Fairy tale steam country by greg rutkowski and thomas kinkade Trending on artstation.

(4) A beautiful render of a magical building in a dreamy landscape by daniel merriam, soft lighting, 4k hd wallpaper, Trending on artstation and behance.??

圖片

AI 藝術姓

  • 通過輸入文本描述與姓氏底圖,生成不同風格的藝術姓:

(1) Large-scale military factories, mech testing machines, Semi-finished mechs, engineering vehicles, automation management, indicators, future, sci-fi, light effect, high-definition picture.

(2) A beautiful painting of mashroom, tree, artstation, Artstation, 4k hd wallpaper.

(3) A beautiful painting of sunflowers, fog, unreal engine, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Artstation, Andreas Rocha, Greg Rutkowski.

(4) A beautiful painting of the pavilion on the water presents a reflection, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.

(5) A beautiful landscape of a lush jungle with exotic plants and trees, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.

(6) Contra Force, Red fortress, spacecraft, by Ernst Haeckel and Pixar, wallpaper hd 4k, trending on artstation.

圖片

其他 AI 藝術創作應用

Stable Diffusion [10, 12] 展現了比 Disco Diffusion [11] 更加高效且穩定的創作能力,尤其是在“物”的刻畫上更加突出。下圖是筆者利用 Stable Diffusion,根據文本創作的 AI 繪畫作品:??

圖片

?總結展望

本文主要介紹了近兩年來多模態圖像生成技術及相關的進展工作,并嘗試使用多模態圖像生成進行多種 AI 藝術創作。接下來,我們還將探索多模態圖像生成技術在消費級 CPU 上運行的可能性,以及結合業務為 AI 智能創作賦能,并嘗試更多如電影、動漫主題封面,游戲,元宇宙內容創作等更多相關應用。

?使用多模態圖像生成技術進行藝術創作只是 AI 自主生產內容(AIGC,AI generated content)的一種應用方式。得益于當前海量數據與預訓練大模型的發展,AIGC 能夠加速落地,為人類提供更多優質內容。或許,通用人工智能又邁進了一小步??如果你對本文涉及到的技術或者應用感興趣,歡迎共創交流。?

參考文獻

[1] Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[C]//International Conference on Machine Learning. PMLR, 2021: 8821-8831.

[2] Ding M, Yang Z, Hong W, et al. Cogview: Mastering text-to-image generation via transformers[J]. Advances in Neural Information Processing Systems, 2021, 34: 19822-19835.

[3] Ding M, Zheng W, Hong W, et al. CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers[J]. arXiv preprint arXiv:2204.14217, 2022.

[4] Zhang H, Yin W, Fang Y, et al. ERNIE-ViLG: Unified generative pre-training for bidirectional vision-language generation[J]. arXiv preprint arXiv:2112.15283, 2021.

[5] Yu J, Xu Y, Koh J Y, et al. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation[J]. arXiv preprint arXiv:2206.10789, 2022.

[6] Wu C, Liang J, Hu X, et al. NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis[J]. arXiv preprint arXiv:2207.09814, 2022.

[7] Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with clip latents[J]. arXiv preprint arXiv:2204.06125, 2022.

[8] Nichol A, Dhariwal P, Ramesh A, et al. Glide: Towards photorealistic image generation and editing with text-guided diffusion models[J]. arXiv preprint arXiv:2112.10741, 2021.

[9] Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. arXiv preprint arXiv:2205.11487, 2022.

[10] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.

[11] Github: https://github.com/alembics/disco-diffusion?

[12] Github: https://github.com/CompVis/stable-diffusion?

責任編輯:武曉燕 來源: 阿里開發者
相關推薦

2020-02-11 17:39:16

人工智能香水制造

2025-08-28 09:44:07

2018-11-15 19:30:08

人工智能教育機器智能

2018-04-04 12:34:44

云計算區塊鏈融合

2021-07-08 00:01:45

Vue2CompositionAPI

2018-06-27 18:50:02

區塊鏈數字貨幣比特幣

2020-08-17 17:16:21

5G網絡技術

2019-11-06 15:05:56

智慧城市區塊鏈數據

2011-11-07 09:43:08

郭為云計算C時代

2022-08-29 20:13:28

物聯網IPV6

2018-11-07 09:51:48

2015-06-04 14:48:09

CIO時代網

2010-07-07 11:52:56

云計算

2023-09-27 08:47:19

北明軟件

2019-04-26 14:31:27

物聯網電子商務IOT

2018-02-01 18:25:59

人工智能電子商務無人零售
點贊
收藏

51CTO技術棧公眾號

av在线不卡电影| 亚洲欧美日韩国产中文| 日本老太婆做爰视频| 一区在线视频观看| 国产99久久精品一区二区永久免费 | 丝袜美腿一区| 欧美色图一区二区三区| 黄页免费在线| 亚洲激情图片qvod| 91福利电影| 亚洲午夜久久久| 日日噜噜夜夜狠狠视频| 亚洲人被黑人高潮完整版| 一菊综合网成人综合网| 欧美激情一二三区| 免费女人黄页| 亚洲女与黑人做爰| 神马午夜dy888| 无码av免费一区二区三区试看 | 成人黄色777网| 九一国产精品视频| 99久久国产免费看| 国产l精品国产亚洲区久久| 99国产精品视频免费观看| www.爱色av.com| 久久伊99综合婷婷久久伊| 日韩网址在线观看| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 高清视频一区二区三区| 亚洲午夜极品| 欧美激情www| 久久99久久久欧美国产| 亚洲草草视频| 风流少妇一区二区| 国产99久久九九精品无码| 91亚洲精品久久久蜜桃网站| 日韩免费高清在线| 亚洲精品国产无天堂网2021| 91se在线观看| 欧美精品免费视频| 一区二区精品伦理...| 色多多国产成人永久免费网站| 国产精品欧美一区二区三区不卡 | 一区二区在线观看视频 | 国产福利电影在线播放| 深夜福利一区二区| 麻豆成人入口| 99久久99| 国产寡妇亲子伦一区二区| 99视频在线免费| 天天做天天摸天天爽国产一区| 欧美精品videos另类| 亚洲精品一区中文| 精品伊人久久久| 99久久99久久精品国产片| 久久综合综合久久综合| 91av在线免费播放| 色综合一个色综合| japanese23hdxxxx日韩| 久久久免费在线观看| 99久久综合狠狠综合久久aⅴ| 日本免费高清不卡| 国产日产欧美一区二区三区| 欧洲视频在线免费观看| 亚洲精选一区二区| 国产一区二区区别| 曰韩不卡视频| 亚洲一二三四区| 成人午夜视屏| 国产在线播放91| 国产成人精品免费视频网站| 性视频在线播放| 亚洲精品小视频| 国产精品久久久久无码av| 精品无码av无码免费专区| 亚洲一区中文日韩| 成人免费看黄| 国产美女91呻吟求| 国产jizzjizz一区二区| 免费黄网站在线观看| 在线精品播放av| 国产精品91一区二区三区| 青青视频免费在线| 色综合色综合色综合 | 手机看片福利日韩| 欧美大片顶级少妇| 亚洲a级精品| 91手机视频在线| 欧美性猛交xxxx乱大交| 欧美影院精品| 亚洲一区3d动漫同人无遮挡| 欧美日韩精品二区| 久久伊人精品| 亚洲一二三区在线| 欧美视频专区一二在线观看| 九九九九九九精品任你躁| 欧美欧美一区二区| 亚洲精品国久久99热| av成人在线播放| 亚洲不卡一卡2卡三卡4卡5卡精品| 亚洲高清免费一级二级三级| 九色精品蝌蚪| 午夜啪啪免费视频| 欧美日韩一区高清| 国产伦精品一区二区三区千人斩| 亚洲人成无码网站久久99热国产| 欧美不卡一区二区三区四区| 最新精品国产| 一二三在线视频社区| 午夜欧美不卡精品aaaaa| 国产a视频精品免费观看| 手机在线免费av| 国产综合第一页| 日韩欧美精品网站| 日产精品一区二区| 日韩黄色视屏| 91av在线不卡| 国产精品国产三级国产有无不卡| 91丨精品丨国产| www.av毛片| 亚洲欧美资源在线| 蜜桃一区二区三区在线| 日本在线免费看| 国产欧美一区二区视频| 欧美日韩国产丝袜另类| 第四色成人网| 原千岁中文字幕| 国产精品国产三级国产aⅴ9色| 成人免费小视频| 日韩av三区| 国产字幕中文| 国产精品久久久91| 婷婷丁香久久五月婷婷| 欧美一区影院| 蝌蚪视频在线播放| 国产福利不卡| 欧美日韩亚洲综合一区| 国语精品一区| 黄色一级大片在线免费看产| 日本一区视频在线| 精品一区二区电影| 成人精品免费看| 91嫩草国产线观看亚洲一区二区| 能在线观看的av| 久久免费成人精品视频| 亚洲男人的天堂网| 中文字幕免费一区二区| av软件在线观看| 在线观看18视频网站| 久久亚洲国产精品成人av秋霞| 国产日韩精品一区二区三区在线| 久久99免费视频| 韩国三级av在线免费观看| 欧美精品免费观看二区| 欧美哺乳videos| 成人午夜视频在线| 国产精品色在线网站| 白白色在线发布| 精品一区二区视频| 精品爽片免费看久久| 91在线一区二区| 日韩不卡一区| 黑人极品ⅴideos精品欧美棵| 国产日韩av网站| 日本久久久久久久| 欧美日本乱大交xxxxx| 国产美女娇喘av呻吟久久| 高潮久久久久久久久久久久久久| 狠狠干在线视频| 日韩精品在在线一区二区中文| 亚洲精品美女在线| 国产亚洲一区二区三区四区| 欧美在线电影| 不卡av免费观看| 国产区二区三区| 国产视频不卡| 另类色图亚洲色图| 99久久er| 国产精品视频黄色| 国产在线精品二区| 麻豆成人在线看| 色综合久久久久综合体| 国产精品系列在线播放| 精品欧美激情在线观看| 黄网在线免费看| 人与动性xxxxx免费视频| 亚洲国产一区二区三区在线播 | 天堂久久午夜av| 作爱视频免费观看视频在线播放激情网| 欧洲亚洲一区| 97精品国产97久久久久久免费| 69久久夜色精品国产69蝌蚪网| 91亚洲午夜精品久久久久久| 国产精品vip| 国产精品亚洲欧美日韩一区在线| 黄色片在线免费看| 在线观看高清免费视频| 日韩欧美一区二区三区久久婷婷| 欧美做爰性生交视频| 亚洲人成绝费网站色www|