国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

給 AI 講故事,如何教它腦補畫面?

人工智能
視覺想象力是人與生俱來的, AI 能否擁有類似的能力呢?比如:給出一段故事情節,如何讓機器展開它的想象力,“腦補”出畫面呢?看看阿里AI Labs 感知實驗室的同學們如何解決這個問題。

[[282830]]

視覺想象力是人與生俱來的, AI 能否擁有類似的能力呢?比如:給出一段故事情節,如何讓機器展開它的想象力,“腦補”出畫面呢?看看阿里AI Labs 感知實驗室的同學們如何解決這個問題。

1. 背景 —— 視覺想象力(Visual Imagination)

1.1 什么是視覺想象力?

視覺想象力是人腦擁有的一個重要功能,可以將一些抽象的概念具象化,進而憑借這些視覺想象進行思考。如圖1最左列,當我們想到:A yellow bird with brown and white wings and a pointed bill時,腦海里可能已經想象出了一幅黃色鳥的畫面。這就是視覺想象力。我們的目標就是讓AI逐步具備這種能力。

圖1:由第一行中的文本描述,AI“想象”出的畫面 [1]。

 

1.2 AI擁有視覺想象力后的影響?

AI如果具備視覺想象力后,將會更懂人的需求,并能夠對一些傳統行業產生顛覆性影響。下面舉兩個例子。

圖2為一個在語義圖像搜索領域中的案例。我們在google中搜索man holding fish and wearing hat on white boat,可能返回的結果質量為(a),引擎只是零星理解了我們的搜索意圖。而當機器擁有一定視覺想象力后,它的搜索結果可能是(b),這將極大提升我們的信息檢索效率,而這些信息是承載于圖像中的。

圖2:AI具備視覺想象力后將會對語義圖像搜索產生重要影響 [2]。

 

另一個例子在語義圖像生成領域。試想:當我們用語言描述一個場景時,機器利用其龐大的經驗數據便自動生成了這個場景。如圖3,如果我們描述一個人擁有不同的外貌特征,那機器便自動想象出了這個人的樣貌,這將對諸如刑偵等領域(如受害人描述犯罪分子樣貌)產生怎樣的顛覆。

圖3:AI具備視覺想象力后將會對語義圖像生成產生重要影響 [3]。

 

2. 選題 —— 站在巨人的肩膀上

2.1 領域的痛點在哪?

我們將焦點移至文本生成圖像(text-to-image synthesis)領域。此領域中,針對簡單單一主體的圖像生成,例如:鳥、花、人臉等,利用GAN的思想而來的一系列算法已經取得了一些令人欣喜的結果,如圖1。然而,當文本中含有多個相互關聯的物體時,生成的效果就會大打折扣,如下左圖所示。這主要是由過于靈活、非結構化文本所造成的。

圖4:當前的生成算法很難對包含多個相互作用的物體進行生成,如左邊的StackGan算法 [4]。右邊的sg2im算法則一定程度上擁有潛力解決這個問題 [5]。

 

因此,Stanford大學CV組的Johnson等人在CVPR2018中提出了將文本到圖像的生成拆分為若干個更加可控的子問題的想法 [5]。這用到了他們之前在CVPR2015中提出的一種新的場景表達方式 —— 場景圖(Scene Graph)和語義構圖(Semantic Layout) [2]。

圖5:場景圖和語義構圖示意 [6]。

 

場景圖是一種有向圖,含有實體、屬性、關系三種要素,可以看做是一種語義模態下的結構化表達。

每個場景圖中的實體,在圖像中會有一個與之對應的bbox。如果不看圖像本身,單看圖中所有的bbox,就形成了一幅圖像的語義構圖,因此可以將語義構圖看作是一種具有普遍含義的圖像結構化表達。

表1:結構名稱及所屬模態對照表。

 

2.2 如何解決?—— 我們眼中的大框架

站在大牛們的肩膀上,我們眼中從文本到圖像的生成大致分為下面幾個子任務:

表2:由文本生成圖像任務拆分而來的子任務列表。

 

為了達到可控生成,信息逐步升維的目的,整個過程大致可拆分為上述子任務。每個子任務都有相應的一些工作,在此不一一具體展開。

2.3 論文的關注點

論文專注于解決子任務3:如何由場景圖生成場景構圖?

這個任務之所以重要,是因為由這個任務而始,結構化語義態的信息得以“想象”為圖像的結構化表達,是賦予機器以視覺想象力的關鍵所在。

3. 論文的動機及貢獻

3.1 當前的問題

★ 3.1.1 最接近的工作與組合爆炸問題

圖6:sg2im利用圖卷積網絡,以場景圖整體作為輸入,生成語義構圖整體 [5]。

 

最接近的工作來自Stanford Johnson等人在CVPR2018中發表的sg2im算法 [5](如圖6)。他們首先利用一個圖卷積網絡將每個實體進行特征嵌入,繼而用這些特征通過一個object layout網絡去生成語義構圖。他們采用的生成方式是由場景圖整體到語義構圖整體。場景圖整體中會包含若干個實體和關系,這些實體和關系的組合所形成的場景圖變化極多,使得模型難以有效表達如此多的變化,最終導致了語義構圖學習效果的不理想。我們稱之為組合爆炸問題。

★ 3.1.2 語義構圖評價指標的缺失

另一大挑戰是:如何直接自動化評價語義構圖生成的好壞?

過去絕大部分工作采用間接自動化評價的方式進行,對由語義構圖生成后的圖像給予打分,利用Inception score或Image captioning score。這樣做根本無法評價語義構圖的生成好壞,很大程度上只評估了最終的GAN網絡是否有效。很多工作還加入了人工評分,雖給出了評分結果,但其幾乎不可能被完全復現,這極大地阻礙了本領域的發展。

3.2 Seq-SG2SL的動機

Seq-SG2SL是我們針對組合爆炸問題提出的一個由場景圖生成語義構圖的框架。本節不談框架本身,先講個故事。

故事背景:老師需要教學生學習如何通過看建筑圖紙去建樓。如圖7。

圖7:上圖是建筑圖紙示意,下圖是建成的房間示意(圖片來源于網絡)。

 

A老師教快班。他指著一摞厚厚的圖紙對學生們說:“看,這是之前的圖紙,上面有按圖紙建好的大樓地址,你們拿這些圖紙去看看那些大樓,應該就能悟出來大樓是怎么建的了。以后我給你一張新圖紙,你們就能建出大樓了。”學生們按照A老師的方法,紛紛去學了。當A老師測驗時發現,幾乎沒有學生可以照圖紙蓋出大樓,A老師生氣地說:“還快班呢,這群學生也太沒有悟性了,舉一反三都不會。”

B老師教慢班。他對學生們說:“我給大家一些圖紙,今天我先教大家怎么建客廳,明天教怎么建廚房。我們的目標是先把每個房間的建造套路學到,再教大家怎么串起來建一整間房。最后再教你們怎么建棟樓。看看這些圖紙,不必著急,我會告訴你們每一部分都和實際建筑里的哪一部分相對應,雖然整棟建筑看起來都不一樣,但這些局部是很有套路的,掌握以后保管你們都會蓋大樓。”果然,在B老師的悉心教導下,所有同學都很快通過了測驗,連小笨笨源方都學會了怎么看圖紙建大樓。

故事中,A老師的學生雖然是快班的,都很聰明,但是大樓千變萬化,學生們通過這些圖紙很難學到其中的共性。而B老師的學生,雖然整體學習比較慢,記性也不好,但B老師通過教授建大樓所需要的一些基礎知識,將這些具有共性的要點教給學生,結果笨鳥得以先飛。

場景圖就好比建筑圖紙,語義構圖就好比大樓。A老師的教學方法其實就遇到了組合爆炸的問題,B老師通過教授最基礎的建樓操作避免了組合爆炸的問題。

由此啟發,我們提出了一種全新的視角,去看待由場景圖生成語義構圖的問題。語義構圖是一個結果,我們要學習的不應該是直接這個結果,而是產生這個結果的過程。通過對更基礎單元的學習,解決組合爆炸問題。

3.3 SLEU的動機

為了解決缺乏直接自動化評估指標的問題,我們提出了一個新指標:semantic layout evaluation understudy,簡稱SLEU。這個指標是受到著名的機器翻譯指標BLEU啟發而來。

背后的邏輯是這樣的:

  • 1)要想完成自動化評估,必須需要真值。
  • 2)SLEU的設計目的就是要度量一個生成的語義構圖與真值之間的差異。

因此,遵循上述邏輯,我們類比了機器翻譯指標BLEU的設計,將BLEU的基本概念由1D擴展到2D,提出了SLEU。

3.4 論文的貢獻

1)提出了一個新的框架Seq-SG2SL,將語義構圖看作是一系列過程疊加的結果。和以往方法不同,AI學的是生成過程而不是結果。這種序列到序列的學習方式可以解決組合爆炸問題。

2)提出了一個直接自動化評價語義構圖生成好壞的指標SLEU,將會解決本領域存在的結果復現問題,為不同構圖生成方法的直接比較提供基礎。

4. 方法要點簡述

4.1 Seq-SG2SL框架

 

 


圖8:Seq-SG2SL框架。

 

 

什么決定了一張語義構圖呢?是關系。因此,一個場景圖中的關系三元組(主 - 謂 - 賓),決定了組成一張語義構圖中的主語和賓語所對應的兩個bbox。其中主語和賓語所對應的bbox,分別稱為視覺主語(visual subject)和視覺賓語(visual object)。

由此,產生語義構圖的過程可拆解為一系列基礎動作片段,每一個基礎動作片段稱為一個brick-action code segments (BACS)。每一個BACS執行的操作就是將一個視覺主語和一個視覺賓語擺放到語義構圖中,分別調整他們的類別,位置以及大小。而每一BACS恰恰由其在場景圖中所對應的關系三元組所決定。一個關系三元組主-謂-賓順序相接,三個詞組成了一個基礎語義片段,我們叫做一個semantic fragments(SF)。如圖8,tree by sidewalk就是一個SF,它對應的圖中BACS Sequence所示的那10個code(c0002 … h14)就是一個BACS,而這10個code執行的結果就是最右側layout圖中tree和sidewalk兩個bbox。

將一系列SF進行串聯,形成了SF序列(SF sequence)。這個SF序列所對應的是一個由每一個對應BACS所串聯形成的序列(BACS sequence)。這兩個序列,就像兩種語言,我們需要做的只是讓機器學習從SF語言“翻譯”到BACS語言就好啦。當然,為了保有scene graph中的有向圖信息,我們額外維護了一個節點序列(Node sequence),主要為了確定sequence中的哪些實體屬于同一個實體,并且能夠通過節點序列直接將場景圖中的實體屬性傳遞到語義構圖中的bbox上。這樣,整個Seq-SG2SL框架做到了靈活且通用。

回想一下,這個過程是不是像我們之前講過的那個老師教學生從設計圖紙建樓的故事。我們看到了設計圖紙(scene graph)中的一個局部(一個SF),然后我們去學習大樓(semantic layout)中的這個對應局部是怎么建的(學習一個BACS),最后再綜合,教學生去建整幢建筑。這樣做是不是很直觀,也符合客觀規律,我們不要求我們的學生(模型)都是天才般的存在,但是需要我們這個老師教授方式得法,才能最終達到好的效果。

框架的主要思想就講完了,細節的話感興趣的讀者可以去看論文。

4.2 SLEU指標

在介紹SLEU之前,我們希望讀者已經熟悉什么是機器翻譯中的BLEU指標。

BLEU的基礎是n-gram。n-gram是指文本中連續出現的n個詞語(word),是基于(n-1)階馬爾科夫鏈的一種概率語言模型。簡單地說,其假設當前第n個詞出現的概率,僅取決于其前(n-1)個詞,而跟更前的詞無關。在機器翻譯中,BLEU評估的基本單位是word,一個unigram代表一個word,評估翻譯的充分性,而較長的n-gram代表一個word序列,評估翻譯的流暢性。BLEU的思想是將句子拆分為n-grams,評估局部相似度,進而對整體翻譯效果進行打分。

對于機器翻譯而言,最小可拆分單元是一個word,那對于語義構圖生成問題而言,最小可拆分單元又是什么?是一個關系。因此,對于語義構圖生成來說,我們的unigram變為了一個關系。評估充分性就是評估單個關系是否匹配;評估流暢性就是評估n個關系是否會同時匹配。我們同樣做了n階馬爾科夫鏈的假設,即:一個關系的出現,只取決于不超過(n-1)個其他關系,而和更多的關系無關。由于場景圖和語義構圖中的物體是一一對應的,因此沒有precision和recall的概念,我們稱對單個關系的評估,叫做unigram accuracy,而對多個關系的評估叫做n-gram accuracy。

具體設計我就不在這里細講了,將關系看做unigram是我們的核心思想。我們的工作只是將這個概念設計出來,將BLEU的概念由1D推廣到2D罷了。感興趣的讀者可以參考論文,指標的實現也將會開源。

5. 實驗結果預覽

圖9:由Seq-SG2SL框架在測試集上的一些結果展示。

 

上圖是一些利用Seq-SG2SL在測試集上的生成的結果,其中第一行為輸入,第二行為生成的語義構圖,第三行是一個參考的語義構圖及其對應圖像。可以看出,我們的結果可以對含有多個關系的復雜場景進行構圖生成。

這里只做個引子,更多定量的分析在論文中詳細闡述,主要包括與baseline算法的比較,以及一些關于具體設計的必要性實驗等。由于只是導讀,結論及未來工作等在此也概不贅述啦,感興趣的讀者可以直接看論文。

本文是ICCV 2019錄用論文《Seq-SG2SL:基于序列到序列學習的由場景圖生成語義構圖的算法》的導讀,并不涉及論文中的全部內容,只重點闡述我們對一些問題的思考。雖以論文為背景,但行文上試圖以更科普的形式逐步展示給讀者,期望對后續研究及應用場景有所啟發。

本文由@源方執筆,成果是幾位小伙伴共同的結晶@帆月@坎特@銘楊,我們來自阿里AI Labs感知實驗室。如果您對研究感興趣,或者對業務方向有靈感,歡迎您致信:[boren.lbr@alibaba-inc.com],我們會很高興和您討論。

論文下載鏈接:

https://arxiv.org/abs/1908.06592

參考文獻:

[1] Qiao et al., MirrorGAN: Learning Text-To-Image Generation by Redescription, CVPR 2019.

[2] Johnson et al., Image Retrieval Using Scene Graphs, CVPR 2015.

[3] https://github.com/SummitKwan/transparent_latent_gan

[4] Zhang et al., StackGan: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks, ICCV 2017.

[5] Johnson et al., Image Generation from Scene Graphs, CVPR 2018.

[6] Krishna et al., Visual Genome: Connecting Language and Vision Using

責任編輯:武曉燕 來源: 阿里技術
相關推薦

2021-12-06 08:03:24

AI訓練架構

2013-09-23 17:28:52

創業投資Investor Pi

2013-04-17 10:16:18

產品產品設計

2019-11-18 10:14:19

AI 數據人工智能

2023-11-05 15:15:47

AI技術

2021-06-22 18:50:00

機器翻譯人工智能計算機

2017-07-09 09:17:41

溝通技術項目

2025-05-30 09:10:00

2013-10-29 10:17:39

微軟數據視界大數據

2023-03-06 12:35:45

AI大腦畫面圖像

2019-12-04 15:02:22

數據科學家故事數據分析

2017-03-19 15:47:50

神經網絡

2020-05-26 14:58:56

數據可視化數據數據故事

2025-07-04 03:00:00

數據分析數字化大數據

2010-05-13 14:52:26

思科打假外行人內行人

2025-11-24 08:44:00

AI開源模型

2025-04-15 09:00:00

模型推理AI

2021-09-14 09:33:44

微信設計師故事

2022-12-23 15:46:14

AI開源
點贊
收藏

51CTO技術棧公眾號

成人观看网站a| 91麻豆精品国产91| 性xxxx欧美老肥妇牲乱| 男女视频在线| 四虎精品在永久在线观看 | 成人av电影免费在线播放| 国产韩国精品一区二区三区| 日韩一区二区三区四区五区| 性网站在线看| 日本福利视频| 那种视频在线观看| 国产精品久久久久免费| 国产精品久久久久久亚洲影视 | 一区二区三区不卡在线| 91久久精品国产91久久性色tv| 久久久日本电影| 成年人精品视频| 国产午夜精品视频| 日韩精品视频在线| 日韩精品一区二区在线| 色偷偷88欧美精品久久久| 亚洲视频一区二区在线观看| 国产欧美日韩亚州综合| 久久综合九色综合欧美98| 国产精品69毛片高清亚洲| 蜜臀av性久久久久蜜臀av麻豆| 美国十次了思思久久精品导航| 美女任你摸久久| 国产麻豆成人精品| k8久久久一区二区三区| 五月婷婷色综合| 99re这里只有精品6| 国产精品欧美三级在线观看| 少妇精品久久久一区二区| 黄色免费在线网站| 在线视频一二三区| 操一操视频一区| 亚洲性视频网站| 欧美精品一二三四| 久久精品国产亚洲aⅴ| 欧美成人黑人| 日本久久久精品视频| 欧美精品在线视频观看| 成人av免费观看| 欧美天堂社区| 免费xxxxx网站中文字幕| 日韩精品久久一区| 青春草国产视频| 自拍偷拍第1页| 免费人成在线观看播放视频| 狠狠躁少妇一区二区三区| 日韩欧美另类中文字幕| 四季av在线一区二区三区 | 久久免费福利| 中文字幕日韩欧美精品高清在线| 麻豆中文一区二区| 亚洲精品免费在线播放| 欧美三级视频在线观看| 最近2019中文免费高清视频观看www99| 欧洲亚洲在线视频| 中文字幕乱码免费| 性欧美精品孕妇| 小明成人免费视频一区| 欧美三区美女| 国产精品嫩草影院av蜜臀| 91精品国产色综合久久ai换脸| 北条麻妃99精品青青久久| 国产精品av一区| 黑粗硬长欧美在线视频免费的| 国产福利片在线观看| 99热在线成人| 97久久久精品综合88久久| 欧美一区日韩一区| 日本一欧美一欧美一亚洲视频| 亚洲欧洲日韩综合二区| 中文产幕区在线观看| 日韩高清一区| 蜜桃视频在线观看一区二区| 狠狠久久亚洲欧美专区| 日韩在线资源网| 欧美不卡福利| 色网在线视频| 狼人精品一区二区三区在线| 国内精品免费**视频| 欧美色爱综合网| 91在线观看网站| 日韩在线第一区| 久久久久久久影视| 欧美肉体xxxx裸体137大胆| 91在线国产福利| 精品国产拍在线观看| 国产精品亚洲天堂| 欧美激情网站| 久久精品国产一区二区三区免费看| 色偷偷一区二区三区| 91精品久久久久久久久久久| 免费99热在线观看| 伊人久久综合网另类网站| 国产亚洲网站| 日韩欧美一区二区久久婷婷| 66m—66摸成人免费视频| 亚洲黄色av网址| 99精品国产一区二区三区2021| 久久综合色鬼综合色| 丝袜亚洲另类欧美重口| 怡红院av亚洲一区二区三区h| 日韩三区在线| 久久久久99精品国产片| 欧美成人免费在线视频| 中文字幕一区二区三区四区在线视频| 久久在线观看| 亚洲一二三四在线观看| 成人午夜两性视频| 狠狠色伊人亚洲综合网站l| aa亚洲婷婷| 亚洲日本成人网| 成人黄色片视频| 成人一区不卡| 日韩午夜精品视频| 91九色在线观看视频| 久久97久久97精品免视看秋霞| 一区二区三区国产| 国产自产精品| 全球中文成人在线| 一区二区三区丝袜| 欧美日本亚洲| 99精品中文字幕在线不卡| 欧美丝袜美女中出在线| 一区二区在线观| 红桃成人av在线播放| 日韩精品专区在线影院重磅| 成年人免费在线播放| 成人偷拍自拍| 日韩一区二区三区av| 国产真人无码作爱视频免费| 户外极限露出调教在线视频| 成人福利视频网站| 亚洲aa中文字幕| 97色婷婷成人综合在线观看| 日韩欧美亚洲国产一区| 国自产拍偷拍精品啪啪一区二区| 图片区亚洲欧美小说区| 国产亚洲一区精品| 第一页在线观看| 国产亚洲一二三区| 欧美一区免费视频| 久久精品亚洲人成影院| 欧美激情免费视频| 日韩欧美精品一区二区三区| 一本色道亚洲精品aⅴ| 人妻有码中文字幕| 日韩高清不卡一区| 91在线播放国产| 亚洲福利网站| 操日韩av在线电影| 激情欧美一区二区三区黑长吊| 欧美色中文字幕| 亚洲综合图片| 亚洲人成在线播放网站岛国| 日本免费成人网| 麻豆91在线播放| 日韩欧美激情一区二区| 亚洲第一黄色| 97视频资源在线观看| 国产精品片aa在线观看| 97在线免费观看| 欧美人成在线观看ccc36| 欧美成人激情在线| 57pao国产一区二区| 色哟哟亚洲精品一区二区| av资源在线| 亚洲欧美一区二区三区四区| 三级在线看中文字幕完整版| 亚洲аv电影天堂网| 日本在线人成| 51精品视频一区二区三区| 欧美边添边摸边做边爱免费| 欧美日本在线播放| free性欧美hd另类精品| 欧美大片免费久久精品三p| 亚洲s色大片| 欧美成人艳星乳罩| 欧美日韩色网| 亚洲黄色www网站| 97成人资源| 欧美精品激情在线观看| 国产香蕉精品| 国产精品欧美激情| 91久久在线| 玖玖精品在线视频| 久久亚洲捆绑美女| 午夜国产一区二区三区| 亚洲三级电影网站| 高清欧美精品xxxxx在线看| 一区二区三区四区视频精品免费 | 久久久777| 亚洲熟妇无码一区二区三区导航| 欧美精彩视频一区二区三区| 国产视频三级在线观看播放| 亚洲图片在区色|