国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

谷歌等揭露「AI任務疑難」:存在局限的ImageNet等基準,就像無法代表「整個世界」的博物館

新聞 人工智能
近日,由加州大學伯克利分校、華盛頓大學和谷歌研究院合著的論文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基準定義的模糊任務在促進智能理解上的局限性,就像用有限的博物館來代表整個世界一樣。

 

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

在日常生活中,我們需要一些「標準」來衡量個人的行為。

而在科研工作中,研究人員也需要一些「基準」來評估模型的性能。

因此,不管是普遍的「標準」還是特定的「基準」,它們都有一定的參考意義。

然而,如果有一天我們發現這些「參照物」與實際生活漸行漸遠時,它們該往何處去?

近日,由加州大學伯克利分校、華盛頓大學和谷歌研究院合著的論文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基準定義的模糊任務在促進智能理解上的局限性,就像用有限的博物館來代表整個世界一樣。

論文地址:https://openreview.net/pdf?id=j6NxpQbREA1

在這篇論文中,研究人員闡述了機器學習(ML)對通用任務框架(CTF)的過度依賴,因為這個框架不恰當地演變成我們今天所理解的這些聲稱評估「通用能力」的基準。值得注意的是,研究團隊并不否認這些基準的實用性,而是希望指出將其作為框架存在的固有缺陷。

1. 展示「整個世界」的博物館 VS ImageNet

這篇論文最能引起共鳴的一點就是用故事書作為引子,且將情節貫穿全文,使得論文的研究內容更為直白易懂。

這本書就是1974年出版的《Grover and the Everything In the Whole Wide World Museum》,書中的主人公Grover參觀了一家聲稱展示「整個世界」的博物館。

該博物館的每個展廳都陳列著不同類別的東西,有些類別是隨意和主觀的,比如「你在墻上看到的東西( Things You Find On a Wall )」和「房間里能讓你撓癢癢的東西( The Things that Can Tickle You Room )」;有些類別則非常具體的,例如「胡蘿卜屋( The Carrot Room )」,而另一些則含糊不清,如「高大的廳堂( The Tall Hall )」。

當Grover認為自己已經參觀完博物館的一切時,他來到寫著「其他東西(Everything Else)」的大門前。打開門后,卻發現自己置身于外面的世界。

作為兒童故事,Grover的經歷是荒誕的。然而,在實際的研究中,例如人工智能尤其是ML領域,也存在類似的固有錯誤邏輯,其中許多流行的基準依賴于固有的錯誤假設。

這篇論文的研究人員認為,在諸如「視覺理解」或「語言理解」之類的模糊任務中,作為衡量一般能力進展的基準,與有限的博物館在代表「整個世界的一切」方面一樣無效,且這兩個謬論的原因是相似的,即本質上是基于特定的、有限的且局限于上下文的環境。

GLUE或ImageNet之類的基準測試常常被提議為驗證任何給定模型性能的基本通用任務的定義。其結果是,通過這些基準數據集證明合理的結論往往遠遠超越了它們最初設計的任務,甚至超出了最初的開發目標。

盡管作為邁向「通用目標」的標志,這些基準存在明顯的局限性。事實上,這些基準的開發、使用和采用表明了一個結構有效性的問題,其中涉及的基準——由于它們在特定數據、度量和實踐中的實例化——不可能捕獲任何具有代表性的關于它們的普遍適用性的結論。

論文的作者們認為測量通用能力的目標(即通用對象識別、通用語言理解或領域獨立推理等目標)不能充分體現在數據定義的基準中。研究人員注意到,當前的趨勢不恰當地擴展了CTF范式,以將其應用于與現實世界目標或背景不同的抽象表現任務。

從歷史上看,CTF的開發正是為了引入實用導向和嚴格范圍的人工智能任務,即自動語音識別(ASR)或機器翻譯(MT),其中所需的驗證是基準是否準確地反映了計算機在現實環境中所要求的實際任務。這一波定義不明確的「通用」目標則完全顛覆了其引入的意圖。

與其把Grover的經歷當成兒童故事來看,倒不如說這是一則深刻的寓言故事。當Grover打開「其他東西」的大門時,卻發現自己置身于博物館外的大千世界。故事的結尾或許已經預示了這個研究的結論,ImageNet之類的基準定義必然不能代表適應所有現實世界模糊任務的「通用目標」。

因此,這篇論文確實有許多值得討論和深思的地方。ImageNet存在不足,那其他基準定義就是完美無缺的嗎?除了ImageNet,目前在通用對象識別上還有更好的參照基準嗎?該如何看待以及解決基準定義越來越「不基準」這個問題?

外行看熱鬧,內行看門道,這么頭疼的問題就應該交給專業人士。

 

2. OpenReview官方怎么評

 

迎面向我們走來的是第一位評委,該評委發出了“反對CV和NLP的“通用”基準中令人信服的觀點!(A compelling argument against "general" monolithic benchmarks in vision and NLP)”的贊嘆,因為他覺得這篇論文史料詳實,觀點明確,分析到位,著實令人信服。

論文的研究人員先在文中鋪墊了大量的背景知識,向讀者展現了通用人工智能和基準測試的相關研究,并分析了ML的基準測試何時開始作為評估范圍狹窄的任務性能的標準化方法。最后,結論就水到渠成了:通用語言理解和通用對象識別的基準本質上是有缺陷的,因為它們應用于狹窄的范圍。

最后,這位評委真誠地希望計算機視覺和NLP社區能認真對待這篇論文,因為他認為該論文對在這兩個領域取得更有意義的進展做出了寶貴的貢獻,而不僅僅是追求最先進的技術。

但美中不足的是,既然發現了ImageNet基準存在局限性,那有什么辦法可以減少對這些通用標準的過度依賴?看來論文的研究人員也還沒找到這個問題的答案。

而第二位評委對這篇論文的評價是:通用人工智能基準的謬論(The Fallacy of Benchmarks for General Artificial Intelligence )。因為這篇論文的受眾主要是AI領域的研究人員,所以作者在前文回顧了通用AI的相關基準,一下拉近了與讀者的距離。此外,引用Grover的故事也使得該論文有趣易懂。

即使這篇論文的開頭存在表述問題,未能無縫銜接主題,但瑕不掩瑜,評委二號高度贊揚了這篇論文為ML領域的研究指明了方向。

接著,評委三號也帶著他的觀點款款走來:好論文!但改一下結構就更好了(Well argued paper, with some reorganization suggested)。這位評委指出,這篇論文最大的亮點是觀點獨特且論據充足。但也發出了和第一位評委相同的疑惑:所以,有什么解決方案可以減少對通用標準的過度依賴?

不同于前三位評委的「慷慨」,第四位評委只給出了5分的評價,認為這篇論文只是:當前基準測試的簡史(History of the benchmarks we use today)。從這個評語不難看出,這位評委覺得這篇論文列舉了很多基準測試且強調了它們的局限性,但作者團隊并沒有采取任何立場。

最后,評委五號不見其人,先聞其聲:很棒!但還有上升空間(Great, but improvements needed)。第五位評委認為這篇論文在梳理和總結相關工作的方面做得非常好,同時有大量的研究支撐文中的論點,希望這篇論文能引起相關領域研究人員的重視。

正因為對這篇論文寄予了極高的期望,因此評委只給出了6分的評價,同時羅列了非常詳細的修改建議,希望論文的作者能加以改進。

 

3. Reddit網友怎么說

 

看完五大評審的官方評論,總結起來基本就是:論文不錯,觀點新穎,論據充分,要是能提出解決方案就更好了。此外,有三位評委都不約而同地希望這篇論文能引起相關領域的重視。

Reddit上關于這篇文章的討論熱度也不小,我們來看看神通廣大的網友怎么說。

某位網友一針見血地指出,雖然ImageNet等基準測試像「有限的博物館」一樣存在不足,但卻是目前我們訓練模型最有力的工具。

確實,就像上述評委提到的,ImageNet是有局限性,但是否有更好的解決方案?因此,有熱心網友為論文的作者修改了摘要:沒有任何數據集能夠捕捉所有細節的全部復雜性,就像沒有博物館可以包含整個世界中所有的事物一樣。

一些網友則認為論文不錯,尤其是「芝麻街」故事情節的插入加深了他們對該論文的理解。

這些網友覺得,用「無法展示一切的博物館」類比「ImageNet在一些模糊任務上的局限性」非常恰當。

大概論文的作者們也沒想到,寫個文章還能為一本書代言,有網友調侃:宇宙萬物的答案就隱藏在這本「芝麻街」故事書中。

更多網友表示贊同論文作者的觀點,畢竟相比解決問題,發現問題太容易了。(狗頭)

所以,解決方案究竟在哪?

就算博物館「無法展示一切」,也沒有人能否定其價值。同理,ImageNet這類基準定義的存在意義也不容置喙。不斷發現問題并解決問題,歷史的車輪才會滾滾向前(狗頭)。

 

 

責任編輯:張燕妮 來源: 雷鋒網
相關推薦

2023-04-03 09:41:39

技術數字博物館

2021-08-26 16:34:45

智能博物館物聯網

2011-05-05 17:13:10

Google Art

2013-10-22 09:10:30

微軟WindowsXP

2017-05-19 12:33:23

2019-12-18 14:52:19

.com域名互聯網

2012-08-10 11:06:21

筆記本

2017-11-24 11:14:00

2016-06-17 17:55:27

Google Home惡意軟件勒索軟件

2010-08-13 16:49:20

網絡監控系統博物館D-Link

2012-11-28 10:45:39

投影機NEC

2011-11-10 16:12:31

掃描儀用戶體驗

2024-11-08 10:47:32

2024-01-26 10:19:00

AI模型

2019-12-26 15:43:45

區塊鏈技術智能

2012-07-24 10:02:38

2013-02-18 09:16:33

計算機博物館古董計算機
點贊
收藏

51CTO技術棧公眾號

brazzers在线观看| 美女激情网站| www国产无套内射com| 日韩国产高清一区| 伊人久久大香线蕉午夜av| www.99riav| 亚洲狼人综合干| 久久久久久久久久久久久久久久久久久 | 国产精品久久久久久久| 国产精品99久久| 亚洲尤物影院| 国模大尺度一区二区三区| 91麻豆蜜桃一区二区三区| 亚洲另类在线一区| 欧美性猛交xxxx| 欧美成人一区二区三区在线观看| 亚洲欧洲国产一区| 久久久久久久久久国产精品| 国产精品一久久香蕉国产线看观看| 国产伦精品一区二区三区视频孕妇 | 伊人蜜桃色噜噜激情综合| 国产毛片久久| 成人午夜视频免费看| 亚洲免费观看高清完整版在线观看 | 99亚洲男女激情在线观看| 亚洲精品小区久久久久久| 亚洲国产二区| 成人涩涩视频| 久久精品最新地址| 在线观看免费av网| 久久久影视传媒| 免费看欧美一级片| 激情综合五月天| 久久精品国产精品亚洲精品色 | yourporn在线观看视频| 亚洲电影激情视频网站| 国产二区视频在线| 91视频观看视频| 日韩av三级在线| 欧美激情在线一区二区| www.精品在线| 亚洲男同性视频| 日韩一级片播放| 国产婷婷色一区二区三区四区| 国产69精品久久久久久久| 北条麻妃国产九九精品视频| 茄子视频成人在线观看 | 国产色婷婷亚洲99精品小说| 欧美va天堂va视频va在线| www在线免费观看视频| av在线播放一区二区三区| 日本成人黄色网| 亚洲国产精品影院| 欧美12一14sex性hd| 在线这里只有精品| 第一页在线观看| 日韩久久免费电影| 图片区小说区亚洲| 日韩一区二区免费视频| 国产在线视频网站| 日韩欧美激情四射| 午夜欧美激情| 一区二区三欧美| 91精品福利观看| 欧美人与物videos| 妖精一区二区三区精品视频| 国产精品视频自在线| 日韩精品久久久久久久电影99爱| 97超级碰碰人国产在线观看| 久久精品国内一区二区三区水蜜桃| 久久久综合香蕉尹人综合网| 91亚洲精华国产精华精华液| 一区二区三区视频在线观看免费| 国产亚洲欧洲一区高清在线观看| 免费观看又污又黄在线观看国产| 日韩一区二区三区免费看 | 国产在线欧美日韩| 久久精品二区三区| 日本黄网站免费| 欧美人牲a欧美精品| 午夜影院在线播放| 久久久久久美女| 欧美三级不卡| 在线观看免费黄色片| 亚洲福利一区二区| 成人一区福利| 中文字幕欧美国内| 日本网站在线观看一区二区三区| 亚洲娇小xxxx欧美娇小| 2018av在线| 欧美俄罗斯性视频| 亚洲第一毛片| 国产主播在线看| 91精品国产一区二区| 色狠狠一区二区三区| 国产精品亚洲欧美导航| 岛国一区二区在线观看| 成年网站免费| 亚洲乱码国产乱码精品精| 国语自产精品视频在线看8查询8| 日韩国产高清一区| 性感美女极品91精品| 96sao在线精品免费视频| 亚洲巨乳在线观看| 欧美视频一区二区三区四区| 另类中文字幕国产精品| 久久久久久久久久久一区| 国产老肥熟一区二区三区| 天天插天天操天天射| 欧美综合一区二区三区| 九九久久成人| 无需播放器的av| 日韩精品资源二区在线| 国自产拍偷拍福利精品免费一| wwwcom羞羞网站| 久久好看免费视频| 秋霞成人午夜伦在线观看| 素人av在线| 91精品中文在线| 一区二区三区资源| 加勒比色老久久爱综合网| 国内自拍中文字幕| 亚洲加勒比久久88色综合| 99精品国产99久久久久久福利| 欧美视频免费一区二区三区| 国产精品视频一区国模私拍| 中文文精品字幕一区二区| 国产成人一二片| 美女日批免费视频| 久久久国产精品一区| 不卡av在线免费观看| 麻豆视频网站在线观看| 精品国产一区二区三区久久久久久| 中文字幕免费不卡在线| 成人在线tv视频| avove在线观看| 欧美成人一级视频| 日本 国产 欧美色综合| av免费在线视| 免费cad大片在线观看| 亚洲小视频在线观看| 蜜臀久久99精品久久久久久9| 日本性爱视频在线观看| 国产日韩在线观看av| 亚洲欧美怡红院| 日韩精品首页| 小草av在线播放| 精品久久sese| 欧美日韩亚洲视频| 欧美激情综合色综合啪啪| 色视频在线观看福利| 蜜桃传媒视频麻豆一区 | 91麻豆国产在线观看| 精品按摩偷拍| 免费看成年人视频在线观看| 色综合视频一区中文字幕| 国内精品久久久久影院色| heyzo在线欧美播放| 成人久久久久久久久| 亚洲国产美女| 欧美主播一区二区三区| 黄色一级片视频| 国产成人鲁鲁免费视频a| 91首页免费视频| 不卡视频在线| 国产在线视频你懂得| 日韩在线第一区| 日韩一级裸体免费视频| 久久久久国产精品麻豆ai换脸 | 欧美激情五月| 污视频网站在线| 国产精品一区免费观看| 国产一区二区三区在线观看网站 | 免费观看国产精品视频| 91精品国产91久久久| 国产日产精品1区| 五月精品视频| 日本动漫理论片在线观看网站| 日韩国产小视频| 国产精品旅馆在线| 欧美不卡一区二区| 国产日韩精品一区二区浪潮av | 91福利在线视频| 97av视频在线观看| 99国产视频| 久久精品视频网站| 亚洲精品高清视频在线观看| 综合久久av| 国产精品刘玥久久一区| 午夜免费看视频| 久久伊人资源站| 欧洲美女免费图片一区| 精品国产网站在线观看| 一区二区在线观看免费| 狠狠色狠狠色合久久伊人| 欧美日韩国产一区二区三区不卡| 国产1区在线| 在线黄色国产电影| 日韩精品手机在线观看| 久久国产精彩视频|