国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

強(qiáng)化學(xué)習(xí)的起源:從老鼠走迷宮到AlphaGo戰(zhàn)勝人類

人工智能
?談到強(qiáng)化學(xué)習(xí),很多研究人員的腎上腺素便不受控制地飆升!它在游戲AI系統(tǒng)、現(xiàn)代機(jī)器人、芯片設(shè)計(jì)系統(tǒng)和其他應(yīng)用中發(fā)揮著十分重要的作用。

?談到強(qiáng)化學(xué)習(xí),很多研究人員的腎上腺素便不受控制地飆升!它在游戲AI系統(tǒng)、現(xiàn)代機(jī)器人、芯片設(shè)計(jì)系統(tǒng)和其他應(yīng)用中發(fā)揮著十分重要的作用。 

強(qiáng)化學(xué)習(xí)算法有很多不同的類型,但主要分為兩類:「基于模型的」和「無(wú)模型的」。 

在與TechTalks的對(duì)話中,神經(jīng)科學(xué)家、 「智能的誕生」一書(shū)的作者Daeyeol Lee分別討論了人類和動(dòng)物強(qiáng)化學(xué)習(xí)的不同模式、人工智能和自然智能,以及未來(lái)的研究方向。? 

圖片

無(wú)模型的強(qiáng)化學(xué)習(xí)

19世紀(jì)后期,心理學(xué)家Edward Thorndike提出的「效應(yīng)定律」成為了無(wú)模型強(qiáng)化學(xué)習(xí)的基礎(chǔ)。 Thorndike提出,在特定情境中具有積極影響的行為,在該情境中更有可能再次發(fā)生,而產(chǎn)生負(fù)面影響的行為則不太可能再發(fā)生。

Thorndike在一個(gè)實(shí)驗(yàn)中探索了這一「效應(yīng)定律」。 他把一只貓放在一個(gè)迷宮盒子中,并測(cè)量貓從盒中逃脫所需的時(shí)間。為了逃脫,貓必須操作一系列小工具,如繩子和杠桿。Thorndike觀察到,當(dāng)貓與謎盒互動(dòng)時(shí),它學(xué)會(huì)了有助于逃跑的行為。隨著時(shí)間的推移,貓?zhí)与x盒子的速度越來(lái)越快。 Thorndike的結(jié)論是,貓可以從其行為提供的獎(jiǎng)勵(lì)和懲罰中進(jìn)行學(xué)習(xí)。 「效應(yīng)定律」后來(lái)為行為主義鋪平了道路。行為主義是心理學(xué)的一個(gè)分支,試圖從刺激和反應(yīng)的角度來(lái)解釋人類和動(dòng)物的行為。 「效應(yīng)定律」也是無(wú)模型強(qiáng)化學(xué)習(xí)的基礎(chǔ)。在無(wú)模型強(qiáng)化學(xué)習(xí)中,通過(guò)主體感知世界,然后采取行動(dòng),同時(shí)衡量獎(jiǎng)勵(lì)。 

在無(wú)模型強(qiáng)化學(xué)習(xí)中,并不存在直接的知識(shí)或世界模型。RL代理必須通過(guò)反復(fù)試驗(yàn),直接去體驗(yàn)每個(gè)動(dòng)作的結(jié)果。 

基于模型的強(qiáng)化學(xué)習(xí)

Thorndike的「效應(yīng)定律」一直流行到20世紀(jì)30年代。當(dāng)時(shí)另一位心理學(xué)家Edward Tolman在探索老鼠如何快速學(xué)會(huì)走迷宮時(shí)發(fā)現(xiàn)了一個(gè)重要的見(jiàn)解。在他的實(shí)驗(yàn)中,Tolman意識(shí)到動(dòng)物可以在沒(méi)有強(qiáng)化的情況下了解他們的環(huán)境。 

例如,當(dāng)一只老鼠在迷宮中被放出來(lái)時(shí),它會(huì)自由地探索隧道,并逐漸了解環(huán)境的結(jié)構(gòu)。如果隨后將這只老鼠重新放進(jìn)相同的環(huán)境,并提供強(qiáng)化信號(hào),如尋找食物或?qū)ふ页隹冢敲此梢员葲](méi)有探索過(guò)迷宮的動(dòng)物更快地到達(dá)目標(biāo)。 Tolman稱之為「潛在學(xué)習(xí)」,這成為基于模型的強(qiáng)化學(xué)習(xí)的基礎(chǔ)。 「潛在學(xué)習(xí)」使動(dòng)物和人類對(duì)他們的世界形成一種心理表征,在他們的頭腦中模擬假設(shè)的場(chǎng)景,并預(yù)測(cè)結(jié)果。

圖片

 基于模型的強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn)是它消除了agent在環(huán)境中進(jìn)行試錯(cuò)的需要。 值得強(qiáng)調(diào)的一點(diǎn)是:基于模型的強(qiáng)化學(xué)習(xí)在開(kāi)發(fā)能夠掌握國(guó)際象棋和圍棋等棋盤游戲的人工智能系統(tǒng)方面尤其成功,可能的原因是這些游戲的環(huán)境是確定的。 

圖片

基于模型 VS 無(wú)模型

 通常來(lái)說(shuō),基于模型的強(qiáng)化學(xué)習(xí)會(huì)非常耗時(shí),在對(duì)時(shí)間極度敏感的時(shí)候,可能會(huì)發(fā)生致命的危險(xiǎn)。 Lee說(shuō):「在計(jì)算上,基于模型的強(qiáng)化學(xué)習(xí)要復(fù)雜得多。首先你必須獲得模型,進(jìn)行心理模擬,然后你必須找到神經(jīng)過(guò)程的軌跡,再采取行動(dòng)。不過(guò),基于模型的強(qiáng)化學(xué)習(xí)不一定就比無(wú)模型的RL復(fù)雜。」 當(dāng)環(huán)境十分復(fù)雜時(shí),倘若可以用一個(gè)相對(duì)簡(jiǎn)單的模型(該模型可以快速獲得)進(jìn)行建模,那么模擬就會(huì)簡(jiǎn)單得多,而且具有成本效益。? 

多種學(xué)習(xí)模式

其實(shí),無(wú)論是基于模型的強(qiáng)化學(xué)習(xí)還是無(wú)模型的強(qiáng)化學(xué)習(xí)都不是一個(gè)完美的解決方案。無(wú)論你在哪里看到一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)解決一個(gè)復(fù)雜的問(wèn)題,它都有可能是同時(shí)使用基于模型和無(wú)模型的強(qiáng)化學(xué)習(xí),甚至可能更多形式的學(xué)習(xí)。 神經(jīng)科學(xué)的研究表明,人類和動(dòng)物都有多種學(xué)習(xí)方式,而大腦在任何特定時(shí)刻都在這些模式之間不斷切換。 ?最近幾年,人們對(duì)創(chuàng)造結(jié)合多種強(qiáng)化學(xué)習(xí)模式的人工智能系統(tǒng)越來(lái)越感興趣。 加州大學(xué)圣地亞哥分校的科學(xué)家最近的研究表明,將無(wú)模型強(qiáng)化學(xué)習(xí)和基于模型的強(qiáng)化學(xué)習(xí)結(jié)合起來(lái),可以在控制任務(wù)中取得卓越的表現(xiàn)。 Lee表示:「如果你看看像AlphaGo這樣復(fù)雜的算法,它既有無(wú)模型的RL元素,也有基于模型的RL元素,它根據(jù)棋盤配置學(xué)習(xí)狀態(tài)值,這基本上是無(wú)模型的 RL,但它同時(shí)也進(jìn)行基于模型的前向搜索。」 

盡管取得了顯著的成就,強(qiáng)化學(xué)習(xí)的進(jìn)展仍然緩慢。一旦RL模型面臨復(fù)雜且不可預(yù)測(cè)的環(huán)境,其性能就會(huì)開(kāi)始下降。?

Lee說(shuō):「我認(rèn)為我們的大腦是一個(gè)學(xué)習(xí)算法的復(fù)雜世界,它們已經(jīng)進(jìn)化到可以處理許多不同的情況。」 

除了在這些學(xué)習(xí)模式之間不斷切換之外,大腦還設(shè)法一直保持和更新它們,即使是在它們沒(méi)有積極參與決策的情況下。 

心理學(xué)家Daniel Kahneman表示:「維護(hù)不同的學(xué)習(xí)模塊并同時(shí)更新它們是有助于提高人工智能系統(tǒng)的效率和準(zhǔn)確性。」 

我們還需要清楚另一件事——如何在AI系統(tǒng)中應(yīng)用正確的歸納偏置,以確保它們以具有成本效益的方式學(xué)習(xí)正確的東西。 數(shù)十億年的進(jìn)化為人類和動(dòng)物提供了有效學(xué)習(xí)所需的歸納偏置,同時(shí)使用盡可能少的數(shù)據(jù)。 歸納偏置可以理解為,從現(xiàn)實(shí)生活觀察到的現(xiàn)象中,總結(jié)出規(guī)則,然后對(duì)模型做一定的約束,從而可以起到模型選擇的作用,即從假設(shè)空間中選擇出更符合現(xiàn)實(shí)規(guī)則的模型。 Lee說(shuō):「我們從環(huán)境中獲得的信息非常少。使用這些信息,我們必須進(jìn)行概括。原因是大腦存在歸納偏置,并且存在可以從一小組示例中概括出來(lái)的偏置。這是進(jìn)化的產(chǎn)物,越來(lái)越多的神經(jīng)科學(xué)家對(duì)此感興趣。」 然而,雖然歸納偏置在物體識(shí)別任務(wù)中很容易理解,但在構(gòu)建社會(huì)關(guān)系等抽象問(wèn)題中就變得晦澀難懂。 未來(lái),需要我們了解的還有很多~~~?

參考資料:

https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-based-reinforcement-learning?

責(zé)任編輯:未麗燕 來(lái)源: 新智元
相關(guān)推薦

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2017-03-27 16:35:23

2018-06-05 15:02:32

2025-11-26 01:45:00

智能體圖靈測(cè)試AI

2017-04-04 19:52:24

強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)機(jī)器學(xué)習(xí)

2018-11-14 10:28:38

AI數(shù)據(jù)科技

2024-08-09 12:46:04

2017-07-25 16:04:31

概念應(yīng)用強(qiáng)化學(xué)習(xí)

2025-03-06 10:07:00

AI強(qiáng)化學(xué)習(xí)技術(shù)

2020-11-04 10:28:48

機(jī)器人人工智能系統(tǒng)

2025-10-28 15:42:32

AlphaGo強(qiáng)化學(xué)習(xí)算法

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2025-11-28 10:49:43

2025-12-01 01:23:00

2025-03-03 09:12:00

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2022-08-26 14:44:32

強(qiáng)化學(xué)習(xí)AI

2023-11-13 07:51:58

ChatGPT研究
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产亚洲自拍一区| 国产精品影视网| 老司机在线视频二区| 七七婷婷婷婷精品国产| 97超级碰碰碰久久久| 欧美理论电影| 五月婷婷欧美视频| 国产精品国产三级国产普通话99| 亚洲va国产va天堂va久久| 六月激情综合网| 欧美精品一线| 国产成人精品影院| 色综合久久综合网97色综合 | 在线看日韩精品电影| 国产偷国产偷亚洲高清97cao| 国产精品亚洲四区在线观看 | 亚洲天堂中文字幕在线观看| av成人在线网站| 欧美亚洲大片| 色综合天天综合色综合av| 熟女性饥渴一区二区三区| 老司机免费视频一区二区三区| 91久久一区二区| 天天噜天天色| 亚洲理论电影片| 最近日韩中文字幕中文| 性欧美video高清bbw| 欧美视频在线一区二区三区 | 欧美日韩国产精选| 亚洲网友自拍| 婷婷一区二区三区| 日本欧洲一区| 亚洲人成7777| www成人免费观看网站| 久久亚洲私人国产精品va媚药| 久久综合88中文色鬼| 亚洲私拍视频| 欧美激情中文不卡| 天堂…中文在线最新版在线| 精品在线播放免费| 正在播放一区| 国产999精品在线观看| 亚洲人成网在线播放| 黄色网页网址在线免费| 欧美日韩一区视频| 好吊日视频在线观看| 欧美一二三四在线| 性欧美video高清bbw| 亚洲精品久久7777777| 中文在线а√在线8| 中文字幕欧美亚洲| 日韩精品一区二区三区中文在线| 午夜精品在线视频| 深夜福利视频一区| 久久99国产精品久久99| 在线看成人av电影| 国产成人免费xxxxxxxx| 亚洲美免无码中文字幕在线| 中文字幕高清一区| 国产传媒视频在线观看| 欧美色综合久久| jizzjizz中国精品麻豆| 色悠悠久久久久| 欧美一级二级三级视频| 日韩一区二区三区观看| 国产原厂视频在线观看| 亚洲精品一区二区网址| 国产一区免费在线| 三上悠亚免费在线观看| 小说区图片区色综合区| 日韩欧美一二区| 日韩pacopacomama| 国产欧美日韩三级| 欧美在线性视频| 香蕉成人在线| 国产91热爆ts人妖在线| 亚洲精品电影| 精品日本高清在线播放| 蜜桃网站在线观看| 国产又大又黄又猛| 欧美不卡一区| 久久精品视频亚洲| 极品束缚调教一区二区网站 | 成人在线直播| 亚洲片av在线| 免费观看久久av| 欧美深深色噜噜狠狠yyy| 久久综合久色欧美综合狠狠| 巨骚激情综合| 中文字幕日韩综合av| 国产欧美日韩免费观看| 亚欧洲精品在线视频免费观看| 美女毛片一区二区三区四区最新中文字幕亚洲 | 色吧亚洲日本| 欧美重口另类videos人妖| 国产亚洲精品久久久久婷婷瑜伽| 久久精品国产2020观看福利| 日韩av黄色在线| 欧美日韩精品免费观看视一区二区| 成人美女视频在线看| 久久久久高清精品| 亚欧成人精品| 日韩少妇内射免费播放18禁裸乳| 一区二区三区国产| 麻豆理论在线观看| 成人做爽爽免费视频| 粉嫩aⅴ一区二区三区四区五区| 中文字幕在线视频网| 亚洲无线码在线一区观看| 亚洲欧美国产制服动漫| 亚洲三级网址| 在线视频一区二区三区| 嘿咻视频在线看| 国产一区二区三区18| 欧美日本一区| 99热一区二区| 亚洲香蕉伊综合在人在线视看| 亚洲激情久久| 色偷偷福利视频| 中文字幕一区二区三区电影| 欧美日韩在线播放视频| 亚洲日本理论电影| 国产一区二区三区亚洲| 另类欧美小说| 久久久久中文| 国产亚洲一区二区三区在线播放| 99久久国产综合色|国产精品| 久久久夜夜夜| www.国产区| 精品国产凹凸成av人网站| 精品黄色免费中文电影在线播放 | 欧美亚洲日本一区| 老牛影视av一区二区在线观看| 18视频在线观看娇喘| 麻豆视频在线| 亚洲欧美在线观看| 美女在线视频免费| 亚洲成人av观看| 伊人婷婷欧美激情| 欧美麻豆久久久久久中文| 精品视频久久久久久久| 国产欧美自拍| 色婷婷**av毛片一区| 国产精品天美传媒沈樵| 天海翼亚洲一区二区三区| 天堂а在线中文在线无限看推荐| 欧美成人激情图片网| 人人超碰在线| 国产三区视频在线观看| 欧美国产成人在线| 久久久亚洲人| 91麻豆精品一区二区三区| 亚洲精品影院在线观看| 日本精品免费观看高清观看| 久久色在线视频| 久久蜜桃一区二区| 久久国产精品72免费观看| 99视频+国产日韩欧美| 视频一区二区三区中文字幕| 99精品视频在线观看| sdde在线播放一区二区| 亚洲欧美日韩精品一区二区| 日韩成人午夜影院| 在线观看视频一区二区三区| 最新黄色av网站| av在线看片| 成人18视频| 欧美日韩精品一区二区三区| 欧美精品激情| 精品51国产黑色丝袜高跟鞋| 日韩wuma| 日韩精品不卡一区二区| 成人高清免费| 国产欧美日韩中文字幕在线| 色欧美片视频在线观看在线视频| 久久久五月天| www免费在线观看| 国产日韩一区二区三区在线播放 | 成年人在线视频免费观看| 日本二三区不卡| 欧美精品一卡| 黑人极品ⅴideos精品欧美棵| 日韩不卡一二区| 欧美理论片在线观看| 中文字幕亚洲一区二区va在线| 成人看的视频| 成人区一区二区| 久久资源免费视频| 中文字幕一区三区| 久久久久久影院| 亚洲线精品一区二区三区八戒| 视频一区二区在线| 欧美日韩国产不卡| 国内精品久久久久久中文字幕| 麻豆国产一区| 国产亚洲福利社区| 日韩成人在线电影网| 国产欧美一区二区精品性| 欧美激情四色| 精品国产欧美日韩一区二区三区|