国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

從概念到應用,全面了解強化學習

移動開發 人工智能
強化學習可應用范圍非常廣,值得了解。

雖然是周末,也保持充電,今天來看看強化學習,不過不是要用它來玩游戲,而是覺得它在制造業,庫存,電商,廣告,推薦,金融,醫療等與我們生活息息相關的領域也有很好的應用,當然要了解一下了。

本文結構:

  1. 定義

  2. 和監督式學習, 非監督式學習的區別

  3. 主要算法和類別

  4. 應用舉例

1. 定義

強化學習是機器學習的一個重要分支,是多學科多領域交叉的一個產物,它的本質是解決 decision making 問題,即自動進行決策,并且可以做連續決策。

它主要包含四個元素,agent,環境狀態,行動,獎勵,強化學習的目標就是獲得最多的累計獎勵。

讓我們以小孩學習走路來做個形象的例子:

小孩想要走路,但在這之前,他需要先站起來,站起來之后還要保持平衡,接下來還要先邁出一條腿,是左腿還是右腿,邁出一步后還要邁出下一步。

小孩就是 agent,他試圖通過采取行動(即行走)來操縱環境(行走的表面),并且從一個狀態轉變到另一個狀態(即他走的每一步),當他完成任務的子任務(即走了幾步)時,孩子得到獎勵(給巧克力吃),并且當他不能走路時,就不會給巧克力。

 

agent

2. 和監督式學習, 非監督式學習的區別

在機器學習中,我們比較熟知的是監督式學習,非監督學習,此外還有一個大類就是強化學習:

 

強化學習

強化學習和監督式學習的區別:

監督式學習就好比你在學習的時候,有一個導師在旁邊指點,他知道怎么是對的怎么是錯的,但在很多實際問題中,例如 chess,Go,這種有成千上萬種組合方式的情況,不可能有一個導師知道所有可能的結果。

而這時,強化學習會在沒有任何標簽的情況下,通過先嘗試做出一些行為得到一個結果,通過這個結果是對還是錯的反饋,調整之前的行為,就這樣不斷的調整,算法能夠學習到在什么樣的情況下選擇什么樣的行為可以得到最好的結果。

就好比你有一只還沒有訓練好的小狗,每當它把屋子弄亂后,就減少美味食物的數量(懲罰),每次表現不錯時,就加倍美味食物的數量(獎勵),那么小狗最終會學到一個知識,就是把客廳弄亂是不好的行為。

兩種學習方式都會學習出輸入到輸出的一個映射,監督式學習出的是之間的關系,可以告訴算法什么樣的輸入對應著什么樣的輸出,強化學習出的是給機器的反饋 reward function,即用來判斷這個行為是好是壞。

另外強化學習的結果反饋有延時,有時候可能需要走了很多步以后才知道以前的某一步的選擇是好還是壞,而監督學習做了比較壞的選擇會立刻反饋給算法。

而且強化學習面對的輸入總是在變化,每當算法做出一個行為,它影響下一次決策的輸入,而監督學習的輸入是獨立同分布的。

通過強化學習,一個 agent 可以在探索和開發(exploration and exploitation)之間做權衡,并且選擇一個最大的回報。
exploration 會嘗試很多不同的事情,看它們是否比以前嘗試過的更好。
exploitation 會嘗試過去經驗中最有效的行為。

一般的監督學習算法不考慮這種平衡,就只是是 exploitative。

強化學習和非監督式學習的區別:

非監督式不是學習輸入到輸出的映射,而是模式。例如在向用戶推薦新聞文章的任務中,非監督式會找到用戶先前已經閱讀過類似的文章并向他們推薦其一,而強化學習將通過向用戶先推薦少量的新聞,并不斷獲得來自用戶的反饋,最后構建用戶可能會喜歡的文章的 “知識圖”。

3. 主要算法和分類

從強化學習的幾個元素的角度劃分的話,方法主要有下面幾類:

  • Policy based, 關注點是找到最優策略。

  • Value based, 關注點是找到最優獎勵總和。

  • Action based, 關注點是每一步的最優行動。

我們可以用一個最熟知的旅行商例子來看,

我們要從 A 走到 F,每兩點之間表示這條路的成本,我們要選擇路徑讓成本越低越好:

從概念到應用,全面了解強化學習

那么幾大元素分別是:

  • states ,就是節點 {A, B, C, D, E, F}

  • action ,就是從一點走到下一點 {A -> B, C -> D, etc}

  • reward function ,就是邊上的 cost

  • policy,就是完成任務的整條路徑 {A -> C -> F}

有一種走法是這樣的,在 A 時,可以選的 (B, C, D, E),發現 D 最優,就走到 D,此時,可以選的   (B, C, F),發現 F 最優,就走到 F,此時完成任務。
這個算法就是強化學習的一種,叫做 epsilon greedy,是一種 Policy based 的方法,當然了這個路徑并不是最優的走法。

此外還可以從不同角度使分類更細一些:

如下圖所示的四種分類方式,分別對應著相應的主要算法:

從概念到應用,全面了解強化學習

  • Model-free:不嘗試去理解環境, 環境給什么就是什么,一步一步等待真實世界的反饋, 再根據反饋采取下一步行動。

  • Model-based:先理解真實世界是怎樣的, 并建立一個模型來模擬現實世界的反饋,通過想象來預判斷接下來將要發生的所有情況,然后選擇這些想象情況中最好的那種,并依據這種情況來采取下一步的策略。它比 Model-free 多出了一個虛擬環境,還有想象力。

  • Policy based:通過感官分析所處的環境, 直接輸出下一步要采取的各種動作的概率, 然后根據概率采取行動。

  • Value based:輸出的是所有動作的價值, 根據最高價值來選動作,這類方法不能選取連續的動作。

  • Monte-carlo update:游戲開始后, 要等待游戲結束, 然后再總結這一回合中的所有轉折點, 再更新行為準則。

  • Temporal-difference update:在游戲進行中每一步都在更新, 不用等待游戲的結束, 這樣就能邊玩邊學習了。

  • On-policy:必須本人在場, 并且一定是本人邊玩邊學習。

  • Off-policy:可以選擇自己玩, 也可以選擇看著別人玩, 通過看別人玩來學習別人的行為準則。

主要算法有下面幾種,今天先只是簡述:

1. Sarsa

從概念到應用,全面了解強化學習

Q 為動作效用函數(action-utility function),用于評價在特定狀態下采取某個動作的優劣,可以將之理解為智能體(Agent)的大腦。

SARSA 利用馬爾科夫性質,只利用了下一步信息, 讓系統按照策略指引進行探索,在探索每一步都進行狀態價值的更新,更新公式如下所示:

從概念到應用,全面了解強化學習

s 為當前狀態,a 是當前采取的動作,s’ 為下一步狀態,a’ 是下一個狀態采取的動作,r 是系統獲得的獎勵, α 是學習率, γ 是衰減因子。

2. Q learning

從概念到應用,全面了解強化學習

從概念到應用,全面了解強化學習

Q Learning 的算法框架和 SARSA 類似, 也是讓系統按照策略指引進行探索,在探索每一步都進行狀態價值的更新。關鍵在于 Q Learning 和 SARSA 的更新公式不一樣,Q Learning 的更新公式如下:

從概念到應用,全面了解強化學習

3. Policy Gradients

系統會從一個固定或者隨機起始狀態出發,策略梯度讓系統探索環境,生成一個從起始狀態到終止狀態的狀態 - 動作 - 獎勵序列,s1,a1,r1,.....,sT,aT,rT,在第 t 時刻,我們讓 gt=rt+γrt+1+... 等于 q(st,a) ,從而求解策略梯度優化問題。

4. Actor-Critic

從概念到應用,全面了解強化學習

算法分為兩個部分:Actor 和 Critic。Actor 更新策略, Critic 更新價值。Critic 就可以用之前介紹的 SARSA 或者 Q Learning 算法。

5. Monte-carlo learning

用當前策略探索產生一個完整的狀態 - 動作 - 獎勵序列:
s1,a1,r1,....,sk,ak,rk∼π

在序列第一次碰到或者每次碰到一個狀態 s 時,計算其衰減獎勵:

從概念到應用,全面了解強化學習

最后更新狀態價值:

從概念到應用,全面了解強化學習

6. Deep-Q-Network

DQN 算法的主要做法是 Experience Replay,將系統探索環境得到的數據儲存起來,然后隨機采樣樣本更新深度神經網絡的參數。它也是在每個 action 和 environment state 下達到最大回報,不同的是加了一些改進,加入了經驗回放和決斗網絡架構。

從概念到應用,全面了解強化學習

從概念到應用,全面了解強化學習

4. 應用舉例

強化學習有很多應用,除了無人駕駛,AlphaGo,玩游戲之外,還有下面這些工程中實用的例子:

1. Manufacturing

例如一家日本公司 Fanuc,工廠機器人在拿起一個物體時,會捕捉這個過程的視頻,記住它每次操作的行動,操作成功還是失敗了,積累經驗,下一次可以更快更準地采取行動。

從概念到應用,全面了解強化學習

2. Inventory Management

在庫存管理中,因為庫存量大,庫存需求波動較大,庫存補貨速度緩慢等阻礙使得管理是個比較難的問題,可以通過建立強化學習算法來減少庫存周轉時間,提高空間利用率。

3. Dynamic pricing

強化學習中的 Q-learning  可以用來處理動態定價問題。

4. Customer Delivery

制造商在向各個客戶運輸時,想要在滿足客戶的所有需求的同時降低車隊總成本。通過 multi-agents 系統和 Q-learning,可以降低時間,減少車輛數量。

5. ECommerce Personalization

在電商中,也可以用強化學習算法來學習和分析顧客行為,定制產品和服務以滿足客戶的個性化需求。

6. Ad Serving

例如算法 LinUCB (屬于強化學習算法 bandit 的一種算法),會嘗試投放更廣范圍的廣告,盡管過去還沒有被瀏覽很多,能夠更好地估計真實的點擊率。

再如雙 11 推薦場景中,阿里巴巴使用了深度強化學習與自適應在線學習,通過持續機器學習和模型優化建立決策引擎,對海量用戶行為以及百億級商品特征進行實時分析,幫助每一個用戶迅速發現寶貝,提高人和商品的配對效率。還有,利用強化學習將手機用戶點擊率提升了 10-20%。

7. Financial Investment Decisions

例如這家公司 Pit.ai,應用強化學習來評價交易策略,可以幫助用戶建立交易策略,并幫助他們實現其投資目標。

8. Medical Industry

動態治療方案(DTR)是醫學研究的一個主題,是為了給患者找到有效的治療方法。 例如癌癥這種需要長期施藥的治療,強化學習算法可以將患者的各種臨床指標作為輸入 來制定治療策略。

上面簡單地介紹了強化學習的概念,區別,主要算法,下面是一些學習資源,供參考:

  1. Udacity 課程 1:Machine Learning: Reinforcement Learning,
    課程 2:Reinforcement Learning*

  2. 經典教科書:Sutton & Barto Textbook: Reinforcement Learning: An Introduction 被引用 2 萬多次 http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf

  3. UC Berkeley 開發的經典的入門課程作業-編程玩 “吃豆人” 游戲:Berkeley Pac-Man Project (CS188 Intro to AI)

  4. Stanford 開發的入門課程作業-簡化版無人車駕駛:Car Tracking (CS221 AI: Principles and Techniques)
    5.CS 294: Deep Reinforcement Learning, Fall 2015 CS 294 Deep Reinforcement Learning, Fall 2015。

  5. David Silver 強化學習:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

參考文章:

TensorFlow-11 - 策略網絡:用 Tensorflow 創建一個基于策略網絡的 Agent 來解決 CartPole 問題。
http://www.jianshu.com/p/14625de78455

強化學習是什么:簡單圖解了 DQN
http://www.jianshu.com/p/2100cc577a46

https://www.marutitech.com/businesses-reinforcement-learning/
https://www.analyticsvidhya.com/blog/2017/01/introduction-to-reinforcement-learning-implementation/
https://morvanzhou.github.io/tutorials/machine-learning/ML-intro/4-02-RL-methods/
https://www.zhihu.com/question/41775291
http://www.algorithmdog.com/reinforcement-learning-model-free-learning

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

責任編輯:張子龍 來源: 雷鋒網
相關推薦

2017-03-27 16:35:23

2024-05-29 12:50:49

2017-04-04 19:52:24

強化學習深度學習機器學習

2017-03-27 20:42:17

遷移學習人工智能機器學習

2019-04-17 09:53:11

物聯網網關物聯網IOT

2009-07-09 18:20:53

云存儲云計算云服務

2010-08-25 17:05:41

DHCP服務器

2020-11-12 19:31:41

強化學習人工智能機器學習

2016-01-14 09:30:46

Hive概念安裝使用

2018-05-30 08:15:08

人工智能神經網絡

2015-09-16 10:58:53

物聯網

2022-05-25 16:32:36

云原生Cloud

2010-01-15 14:02:48

軟交換技術應用

2023-10-17 09:36:32

Spark大數據

2024-05-28 08:46:50

遞歸算法題函數

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2025-05-12 01:00:00

2012-04-25 10:02:39

H3CNGIP

2020-12-02 13:24:07

強化學習算法

2021-04-13 16:18:30

人工智能強化學習人臉識別
點贊
收藏

51CTO技術棧公眾號

精品一区二区久久久久久久网站| 国产一二三四五| 日本在线视频www鲁啊鲁| 国产精品白丝av| 欧美激情奇米色| sm在线播放| 午夜影院在线观看欧美| 欧美 日韩 国产一区| 久久精品主播| 国产日韩欧美电影在线观看| 色婷婷成人网| 日韩一二三区不卡| 国产精品㊣新片速递bt| 久久亚洲一区二区三区四区| 日韩av在线电影观看| 欧美日韩在线播放视频| 久久艳片www.17c.com| 人交獸av完整版在线观看| 日日鲁鲁鲁夜夜爽爽狠狠视频97 | 最新中文字幕在线| 风流少妇一区二区| 日韩精品第一页| 狠狠综合久久| 亚洲一区二区三区sesese| 亚洲品质自拍| 色综合久综合久久综合久鬼88| 日本在线影院| 精品国产凹凸成av人网站| porn亚洲| 日韩欧美在线字幕| 中文有码在线观看| 亚洲一区视频在线观看视频| a优女a优女片| √…a在线天堂一区| 无码精品国产一区二区三区免费| 国产麻豆精品theporn| 亚洲最新在线| 久久久成人网| 亚洲人久久久| 国产在线精品一区在线观看麻豆| 婷婷五月色综合| 免费精品视频在线| 一区二区三区四区五区精品| 久久精品国产网站| 裸体裸乳免费看| 成人黄色大片在线观看| 欧美视频在线观看网站| 久久久噜噜噜久久人人看| 18禁免费观看网站| 久久综合久久综合亚洲| 熟妇人妻无乱码中文字幕真矢织江 | 阿v免费在线观看| 91久久久免费一区二区| 黄色软件在线| 日韩欧美一区二区久久婷婷| 黄色漫画在线免费看| 在线播放亚洲激情| 一区二区网站| 国产精品久久久久久久久免费| 欧美激情成人| 欧美一区二区三区四区在线观看地址| 日韩av网站免费在线| 人妻av无码专区| 久久精品亚洲精品国产欧美| 又黄又爽无遮挡| 色婷婷久久久久swag精品| 亚洲丝袜精品| 久久亚洲国产成人| 一个色免费成人影院| 亚洲tv在线观看| 日本不良网站在线观看| 欧美激情伊人电影| 午夜成人免费电影| 成人av第一页| 六月丁香婷婷色狠狠久久| 久久99精品国产一区二区三区| 亚洲国产精品免费| 色呦呦在线播放| 日韩欧美国产精品| 另类尿喷潮videofree| 中文国产亚洲喷潮| 国产精品久久久久一区二区| 日本伊人色综合网| 国产剧情av在线| 国产在线视频不卡| 欧美日韩视频在线第一区| 午夜精品999| 丁香婷婷久久| 91精品国产黑色瑜伽裤| 国产视频精品网| 欧美日韩的一区二区| 国产精品资源| 高清精品久久| 国产黄色高清在线| 久久久久久久成人| 91麻豆免费看片| 精品中文视频| 触手亚洲一区二区三区| 日韩欧美视频网站| 久久综合88中文色鬼| 久久精品视频在线免费观看| 国产精品综合av一区二区国产馆| 欧美深夜视频| 成人在线视频区| 在线视频中文字幕久| 日本国产精品视频| 一区二区在线影院| a日韩av网址| 成人在线观看一区| 亚洲一区二区三区精品视频| 亚洲国产精品成人精品| 国产亚洲欧美在线| 国产精品1区2区| 国产精品久久久一区二区| 日韩在线网址| 尤物视频在线看| 99re6在线视频| www.av91| 91精品久久久久久久久青青| 伊人伊人伊人久久| 在线不卡的av| 欧美精品色一区二区三区| 日韩一区二区三区视频在线观看| 久久国产精品久久w女人spa| 精品国产一区二区三区久久久樱花 | 欧美亚洲国产一区| 免费观看中文字幕| 色噜噜夜夜夜综合网| 国产精品久久久久久久久久白浆| 日韩性感在线| 欧美性猛交xxxxx水多| 黄色欧美在线| 少妇人妻大乳在线视频| 日韩一区二区高清| 欧美日韩国内| 在线播放91| 国产精品电影网| 国产欧美日韩在线视频| 精品日本视频| 欧洲美女和动交zoz0z| 91麻豆精品国产91久久久更新时间 | 欧美日韩免费做爰大片| 91精品国产亚洲| 99精品国产视频| 日本免费久久| 中文字幕制服丝袜在线| 日韩视频在线你懂得| 激情综合中文娱乐网| 免费在线视频一级不卡| 国产成人亚洲综合91| 国产精品理论在线观看| 久久久久久久久久久久电影| 国产综合中文字幕| 一本一本久久a久久精品牛牛影视| 日韩精彩视频在线观看| 精品176二区| 欧美xxxx黑人又粗又长密月| 欧美三级在线视频| 99视频在线精品国自产拍免费观看| 免费在线观看污视频| 91久久精品国产91久久性色tv| 精品久久久久久久久国产字幕| 99久久激情| 国产高清视频免费最新在线| 国产精品视频免费一区二区三区| 欧美视频国产精品| 欧美体内she精视频在线观看| 国产在线高清| 久久99精品久久久久久青青日本 | 久久综合色视频| 久久精品视频在线观看| av中文字幕不卡| 免费一区二区三区在线视频| 爱情岛论坛vip永久入口| 久久999免费视频| 亚洲四区在线观看| 精品国产乱码久久久| 天天在线女人的天堂视频| 波多野结衣成人在线| 日韩一区二区三区在线观看| 精品在线播放免费| 深夜福利亚洲| 男生操女生视频网站| 国产欧美日韩高清| 欧美日韩一区二区三区不卡| 日本亚洲最大的色成网站www| av高清不卡| 亚洲国产精品三区| 成人国产精品久久久| 欧美喷潮久久久xxxxx| 精品一区二区影视| 成人免费一区| 丁香资源影视免费观看| 高清不卡一区二区三区| 亚洲国产日韩欧美在线图片 | 精品久久av| av动漫免费观看| 欧美国产高跟鞋裸体秀xxxhd| 亚洲黄色录像片| 久久国产99|