国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

深入淺出樸素貝葉斯理論

企業動態
概率論是機器學習中的重要角色,那么何謂概率?我們在小學里就聽老師講過拋硬幣時正面朝上的概率為0.5,這句話又代表著何含義呢?

概率論是機器學習中的重要角色,那么何謂概率?我們在小學里就聽老師講過拋硬幣時正面朝上的概率為0.5,這句話又代表著何含義呢?對于概率的理解往往有兩種不同的方式,其一是所謂的頻率論解釋(Frequentist Interpretation)。這種觀點中,概率代表著某個事件在較長范圍內的出現頻次。譬如這里的拋硬幣問題可以闡述為,如果我們拋足夠的次數,我們會觀測到正面朝上的次數與反面朝上的次數基本相同。另一種即時所謂的貝葉斯解釋(Bayesian Interpretation),我們認為概率是用來衡量某件事的不確定性(uncertainty),其更多地與信息相關而不再是重復嘗試的次數。用貝葉斯理論闡述拋硬幣問題則為下一次拋硬幣時正面朝上的可能性與反面朝上的可能性相差無幾。貝葉斯解釋的***優勢在于我們可以去為事件的不確定性建立具體的模型而不再依賴于多次試驗得出的頻次結果。譬如我們要去預測2020年世界杯的冠軍,我們肯定不能讓球隊比賽很多次來觀測頻次計算概率,這件事只會發生零或一次,反正是無法重復發生的?;谪惾~斯理論我們便可以利用可觀測到的數據推測該事件的結果概率,典型的應用是垃圾郵件過濾系統中,我們可以根據帶標簽的訓練數據來對新的郵件進行判斷。

樸素貝葉斯

貝葉斯定理緣起于托馬斯.貝葉斯(1702-1761),一位英國長老會牧師和業余數學家。在他去世后發表的論文“論有關機遇問題的求解”中, 貝葉斯定理的現代形式實際上歸因于拉普拉斯(1812)。拉普拉斯重新發現了貝葉斯定理,并把它用來解決天體力學、醫學甚至法學的問題。但自19世紀中葉起,隨著頻率學派(在下文有時也稱作經典統計)的興起,概率的貝葉斯解釋逐漸被統計學主流所拒絕?,F代貝葉斯統計學的復興肇始于Jeffreys(1939),在1950年代,經過Wald(1950), Savage(1954), Raiffic&Schlaifer(1961), Lindley(1972), De Finetti(1974)等人的努力,貝葉斯統計學逐漸發展壯大,并發展出了貝葉斯統計決策理論這個新分支。特別是到1990年代以后,隨著計算方法MCMC在貝葉斯統計領域的廣泛應用,解決了貝葉斯統計學長期存在的計算困難的問題,從而推動了貝葉斯統計在理論和應用領域的長足發展。貝葉斯統計學廣泛應用于各個學科。就本書的主題而言,從認知學科、政治學到從自然語言處理和社會網絡分析,貝葉斯方法都起到了舉足輕重的作用。

概述

貝葉斯定理,也稱為貝葉斯法則現在是概率論教科書的重要內容。一般我們習慣于它的離散(事件)形式:

P(Ai|B)=fracP(B|Ai)P(Ai)sumP(B|Aj)P(Aj) A的后驗概率=frac(A的似然度∗A的先驗概率)標準化常量

其中

  • B稱為觀測變量
  • Ai稱為參數/隱變量
  • P(Ai)稱為先驗概率,表示在對樣本觀測前我們關于這個問題已經具有的知識
  • P(Ai|B)稱為后驗概率,是在進行了新觀測之后對原有知識的更新
  • P(B|Ai)稱為似然。
  • P(B)=sumP(B|Aj)P(Aj) 稱為Evidence,即數據是由該模型得出的證據

貝葉斯定理作為一種概率計算可用于多個領域內進行概率推理。今天,我們用貝葉斯法則過濾垃圾郵件,為網站用戶推薦唱片、電影和書籍。它滲透到了互聯網、語言和語言處理、人工智能、機器學習、金融、天文學和物理學乃至國家安全等各個領域。這里我們選用一個簡單的案例進行分析,假設有方形和圓形的兩種盒子,盒子內有紅、黃、白三種顏色的球。方盒有3個,每個里邊有紅球70只、黃球10只、白球20只;圓盒有5個,每個里邊有紅球20只、黃球75只、白球5只?,F在先任取一個盒子,再從盒中任取一球,能不能通過求得顏色推斷它最有可能取自哪個盒子?為表示方便,記方盒=A,圓盒=B,紅球=R,黃球=Y,白球=W 使用貝葉斯定理進行計算:

  1. P(A|R)=fracP(R|A)P(A)P(R)=0.118125 

貝葉斯理論最基礎的使用就是在分類問題中,也就是所謂的生成式分類器(Generative Classifier),其基本形式如下所示:

  1. p(y=c|vecx,vectheta)proptop(vecx|y=c,vectheta)p(y=c|vectheta) 

在訓練階段,我們基于帶有標簽的訓練集的輔助來尋找合適的類條件概率/似然概率p(vecx|y=c,vectheta),并且推導出模型參數vectheta,其定義了我們期望在某類中出現某類型數據的概率。***在預測階段,我們基于類條件概率/似然概率來計算數據vecx從屬于各個類的后驗概率,并且選擇概率***的為其預測值。

貝葉斯理論思維模式

在我們孩提時代,爸媽希望教會我們某個詞匯的含義時,他們首先會給我們展示很多的正例。譬如對于狗這個單詞,爸媽可能會說:看那條狗狗好可愛,或者,小心狗狗。不過爸媽不會像機器一樣給我們展示所謂的負例,他們不會指著一只貓說:這貨不是狗,最多就是當孩子們認錯的時候,父母會予以糾正。心理學家研究表明,人們可以單純地從正例中學習概念,而不一定需要負例的介入。而這種認知單詞的學習過程可以抽象概括為所謂的概念學習(Concept Learning),在某些意義上很類似于二元分類。譬如我們可以定義當x為某個概念C的實例時f(x)=1,否則f(x)=0。而學習的過程即是構建這個指示函數f,該函數定義了哪些元素屬于概念C。當我們允許這個函數具有一定的不確定性時,我們就可以通過概率計算得出所謂的模糊集(Fuzzy Set)。還需要提到的是,標準的二維分類是同時需要正負例存在的,不過我們也可以單純地從正例中學習。

闡述完了基本的概念,接下來我們會以一個簡單的數字游戲來進行形象化的說明,這里我們隨便選定幾個數學上的概念作為學習目標。譬如我們可以將概念C定義為所有的素數,或者介于1~10之間的數字。然后給你多組隨機從C中抽樣出的正數序列:D=x1,...,xN,然后給你一個新的測試序列widetildex讓你判斷其應該歸屬于哪個概念。

上圖四組對比數據分別顯示了給不同的組選定不同的觀測集合時他們推導出的概念C的數字分布。前兩行是分別展示了D=16與D=60,會發現得出的結果非常分散(這里選定的數字范圍為1~100)。而第三行中觀測數據為D=16,8,2,64,人們得出了一定的規律,即選定了2的方冪值。而***一行中給出的觀測數據是D=16,23,19,20,人們得出的規律是選定靠近20的數字。我們來復盤每個組的思考過程,譬如當首先給出16作為觀測數據時,人們可能會選擇17?因為17離16最近,也有可能會選擇6,因為它們的個位數都是6.當然也有可能是32,因為它們都是2的方冪值,不過估計是沒啥人會選擇99的。從這樣簡單地思考過程我們可以得出一個結論,顯而易見的部分數字被選中的概率是大于其他數字的,這種概率就可以表示為某個概率分布:p(widetildex|D)。這個概率就是所謂的后驗概率,表示了在給定觀測值D的情況下每個數字屬于D的概念集widetildex C的概率。接下來如果繼續給出8,2,64作為正例,那么我們會猜測隱藏的概念為2的方冪值,這種思考過程就是典型的歸納(Induction)。而如果繼續給出23,19,20作為正例,那么我們會得出另一個完全不同的泛化梯度(Generalization Gradient)的結果。

機器學習的任務就是將上述思考的過程轉化為機器計算,經典的在讓機器進行數學歸納的方法就是我們先預置很多概念的假設空間H(Hypothesis Space),譬如:奇數、偶數、1~100之間的數字、2的方冪、所有以6結尾的數字等等。而與觀測值D相符的H的子集稱為樣本空間(Version Space)。譬如在上面的思考過程中,隨著樣本空間的增長我們越發堅定了對于某個概念的信心。不過樣本空間往往會很多且重復,譬如上文中如果D=16,其與很多假設空間都存在一致的樣本空間,又該如何抉擇呢?

Likelihood:似然

我們首先來討論下為什么當我們觀測到D=16,8,2,64時更傾向于認為假設空間是所有2的方冪值的集合,而不是篤定假設空間是所有偶數的集合。雖然兩個假設空間都符合我們的觀測結果,但是歸納的過程中我們會盡量避免可疑的巧合(Suspicious Coincidences)。如果我們認為假設空間是所有偶數的集合,那么又該如何說服自己這些數字都是2的方冪值呢?為了更方便的形式化討論這個現象,我們假設從某個假設空間中隨機取值的概率分布為均勻分布,可以推導出從假設空間中進行N次取值得到觀測集合的概率為:

  1. p(D|h)=[frac1size(h)]N=[frac1|h|]N 

對于這個等式最形象化的解釋就是奧卡姆剃刀原則(Occam’s razor),我們傾向于選擇符合觀測值的最小/最簡的假設空間。在D=16的情況下,如果假設空間為2的方冪值,則僅有6個符合條件的數字,推導出p(D|htwo)=1/6。而如果是所有的偶數集合,p(D|heven)=1/50。顯而易見htwo>heven,如果觀測序列中有4個數值,則$h_{two} = (1/6)^4 = 7.7 10^{-4},然而h_{even} = (1/50)^4 = 1.610^{-7},不同的假設空間的概率值差異越發的大了。因此我們會認為D = {16,8,2,64}$這個觀測序列是來自于2的方冪值這個假設空間而不是所有的偶數集合這個假設空間。

Prior:先驗

前一節我們討論了所謂似然的概念,當觀測到D=16,8,2,64時我們會傾向于認為其采樣于2的方冪值這個集合,不過為啥不是 h′=除了32之外的2的方冪值 這個似然概率更大的集合呢?直觀來看就是h′=除了32之外的2的方冪值這個假設與常規思維不符,而對于這樣奇特的思維我們可以賦予其較低的先驗概率值來降低其最終得到的后驗概率。

總計而言,貝葉斯理論中概率并不需要頻率解釋,先驗分布也可以稱為主觀概率,是根據經驗對隨機現象的發生可能性的一種看法或者信念。統計學家薩維奇曾給出過一個著名的女士品茶的例子:一位常喝牛奶加茶的女士說她可以分辨在杯中先加入的是茶還是奶。連續做了十次實驗,她都說對了。顯然這來自于她的經驗而非猜測。我們在日常生活中也經常使用基于經驗或者信念的主觀的概率陳述。比如說,天氣預報里說明天(8月3日)降水概率30%,就是關于“明日降水”這個事件的一種信念,因為作為8月3日的明天是不可重復的,自然也就沒有頻率意義。再比如說,醫生認為對某位病人進行手術的成功可能性為80%,也是根據自己的經驗而具有的的信念,而非在這位病人身上反復進行試驗的頻率結果。 把θ看做隨機變量,進而提出先驗分布,在許多情況下是合理的。比如工廠產品的合格率每一天都有波動,可以看做隨機變量;明天的降水概率雖然是幾乎不動的,但這是基于經驗和規律提出來的概率陳述,也可以看做隨機變量。盡管我們使用后驗分布來進行推理,但先驗分布的選取也是很重要的。常見的先驗分布類型包括:

  • 無信息先驗(Noninformative Priors) 無信息先驗只包含了參數的模糊的或者一般的信息,是對后驗分布影響最小的先驗分布。很多人愿意選取無信息先驗,因為這種先驗與其它“主觀”的先驗相比更接近“客觀”。通常,我們把均勻分布作為無信息先驗來使用,這相當于在參數所有的可能值上邊指派了相同的似然。但是無先驗信息的使用也要慎重,比如有些情況下會導致不恰當的后驗分布(如不可積分的后驗概率密度)。
  • Jeffreys先驗(Jeffreys’ Prior) Jeffreys提出的選取先驗分布的原則是一種不變原理,采用Fisher信息陣的平方根作為θ的無信息先驗分布。較好地解決了無信息先驗中的一個矛盾,即若對參數θ選用均勻分布,則其函數g(θ)往往不是均勻分布。
  • 信息先驗(Informative Priors) 根據以前的經驗、研究或專家經驗得到的先驗分布。
  • 共軛先驗(Conjugate Priors) 共軛先驗是指先驗分布和后驗分布來自同一個分布族的情況,就是說先驗和后驗有相同的分布形式(當然,參數是不同的)。這些共軛先驗是結合似然的形式推導出來的。共軛先驗是經常被使用的一種先驗分布形式,原因在于數學處理和計算上的方便性,同時后驗分布的一些參數也可以有很好的解釋。

Posterior:后驗

后驗值即為似然乘以先驗再進行歸一化,對于這里的數字游戲:

  1. p(h|D)=fracp(D|h)p(h)sumh′inHp(D,h′)=fracp(h)amalg(Dinh)/|h|Nsumh′inHp(h′)amalg(Dinh′)/|h′|N 

其中amalg(Dinh)當且僅當D中所有數據都屬于假設空間h時取1,其他情況下取0。

上圖展示了觀測值為16情況下對應的先驗、似然與后驗值,其中后驗值是先驗乘以似然的結果。對于大部分概念而言,先驗都是一致的,此時后驗值取決于似然。不過對于上文中提及的 h′=除了32之外的2的方冪值,其先驗概率取值極地,因此雖然其有著不錯的似然,其最終得出的后驗概率值還是很小的。而觀測值D=16,8,2,64時,其先驗、似然與后驗如下圖所示:

總體而言,當我們具有足夠數目的數據時,后驗概率p(h|D)會在某個概念上達到峰值,求取目標假設空間的過程(預測階段)就可以引入MAP(Maximum a Posterior)估計:

  1. hathMAP=argmaxhp(D|h)p(h)=argmaxh[logp(D|h)+logp(h)] 

而當觀測數據足夠多時,似然值的影響會遠大于先驗,此時MAP就近似于***似然估計MLE(Maximum Likelihood Estimate)。

【本文是51CTO專欄作者“張梓雄 ”的原創文章,如需轉載請通過51CTO與作者聯系】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2021-03-16 08:54:35

AQSAbstractQueJava

2011-07-04 10:39:57

Web

2012-09-24 10:13:35

貝葉斯

2017-07-02 18:04:53

塊加密算法AES算法

2021-07-20 15:20:02

FlatBuffers阿里云Java

2019-01-07 15:29:07

HadoopYarn架構調度器

2012-05-21 10:06:26

FrameworkCocoa

2022-09-26 09:01:15

語言數據JavaScript

2024-03-25 14:31:45

2023-09-21 10:47:29

分布式CAPBASE

2019-11-11 14:51:19

Java數據結構Properties

2022-11-09 08:06:15

GreatSQLMGR模式

2012-02-21 13:55:45

JavaScript

2018-11-09 16:24:25

物聯網云計算云系統

2021-04-27 08:54:43

ConcurrentH數據結構JDK8

2019-12-04 10:13:58

Kubernetes存儲Docker

2009-11-18 13:30:37

Oracle Sequ

2022-12-02 09:13:28

SeataAT模式

2022-10-31 09:00:24

Promise數組參數

2009-11-30 16:46:29

學習Linux
點贊
收藏

51CTO技術棧公眾號

先锋资源久久| 制服丝袜影音| 亚洲黄色免费av| 亚洲风情在线资源站| 国产福利片一区二区| 精品视频在线观看网站| 欧美一卡2卡3卡4卡| 狠狠操在线视频| 91欧美一区二区| 欧美大香线蕉线伊人久久| 国产精品片aa在线观看| 精品国产拍在线观看| 日韩成人伦理| 91黄视频在线观看| 99热com| 91在线云播放| aaa免费在线观看| 午夜亚洲精品| 97神马电影| 欧美日韩伦理在线免费| 永久免费看mv网站入口亚洲| 国产黄色小视频在线| 在线亚洲一区观看| 亚洲伦理电影| 17c精品麻豆一区二区免费| 大j8黑人w巨大888a片| 日本aⅴ免费视频一区二区三区| 99在线视频播放| 国产精品毛片久久| 国产精品午夜一区二区欲梦| 久9久9色综合| 国产ts人妖一区二区三区 | 国产成人一二片| 在线视频精品一| 国产精品蜜芽在线观看| 欧美一级日韩不卡播放免费| 在线观看的av| 91精品国产91久久久久久最新毛片| 国产在线观看免费| 欧美午夜美女看片| 男人日女人bb视频| 久久久久国产精品一区二区| 9.1国产丝袜在线观看| 日韩护士脚交太爽了| 日韩精品视频在线免费观看| 超碰在线网站| 国产在线精品一区二区三区| 激情综合网激情| 国产aⅴ精品一区二区三区黄| 久久成人高清| 国产日韩欧美黄色| 99热在线成人| 国产精品有限公司| 亚洲在线免费| 亚洲一区bb| 懂色av一区二区三区蜜臀| 9色视频在线观看| 成人黄色一级视频| 日本成人黄色网| 亚洲视频资源在线| 成年人在线播放| 日韩欧美一区视频| 色综合久久影院| 亚洲成人动漫在线播放| 欧美片第1页| 久久99国产综合精品女同| 成人午夜三级| 91综合免费在线| 青草国产精品久久久久久| 国产二区视频在线| 亚洲免费色视频| 超碰国产在线观看| 亚洲男人天堂2023| 欧美色图婷婷| 国产日韩二区| 99精品欧美一区二区三区小说| 成人精品3d动漫| 欧美日韩精品电影| 国产乱子精品一区二区在线观看| 91国内产香蕉| 久久一区二区三区超碰国产精品| 色欲色香天天天综合网www| 亚洲综合一二三区| 最新av在线播放| 欧美精品福利在线| 久久精品国产色蜜蜜麻豆| 激情五月五月婷婷| 国产亚洲欧美日韩俺去了| h视频网站在线观看| 欧美丰满片xxx777| 亚洲国产欧美一区二区三区不卡| 国产在线精品一区免费香蕉 | 欧美另类在线播放| 日韩成人精品| 东北一级毛片| 丁香桃色午夜亚洲一区二区三区| 91插插插插插插插插| 精品久久久久久久久久久久久| 日韩欧美一起| 国产98色在线| 久久99久久精品| 97香蕉久久| 伊人青青综合网站| 午夜性色一区二区三区免费视频| 91国在线高清视频| 欧美性猛交丰臀xxxxx网站| 精品肉辣文txt下载| 99热最新在线| 久久免费的精品国产v∧| eeuss影院www在线播放| 欧美黑人一区二区三区| 久久久精品五月天| 欧美日夜夜逼| 蜜臀久久99精品久久久无需会员 | 欧美激情视频网| 亚洲中字在线| 国产成人午夜电影| 亚洲欧美日本另类| 午夜久久影院| 97影院理论| 日韩中文在线视频| 日韩综合小视频| 欧美性猛交p30| 久久久久久久久久久亚洲| 精品一区二区三区在线观看国产| 性网站在线看| 久久久久成人精品| 国产成人8x视频一区二区| 天天综合视频在线观看| 国产成人精品优优av| 久久久久久毛片| 亚洲成人激情社区| 欧洲高清一区二区| 色94色欧美sute亚洲13| av资源久久| 日韩日韩日韩日韩| 97视频在线观看成人| 久久久久久电影| 亚洲一区二区免费| 欧美性xxxxx极品| 亚洲国产一二三| 鲁大师成人一区二区三区| 爱看av在线| 国模无码视频一区二区三区| 国产日本欧美在线观看| 欧美刺激午夜性久久久久久久| 91亚洲永久精品| 成人黄色av| 久久久久久美女| www.亚洲在线| 8av国产精品爽爽ⅴa在线观看| 日韩高清在线播放| 欧美日韩日本视频| 在线精品亚洲| 日本电影全部在线观看网站视频| 91日韩久久| 国产成人精品999| 狠狠久久亚洲欧美| 91最新在线视频| 欧美亚洲另类在线一区二区三区| 欧美网站一区二区| 亚洲精品麻豆| 羞羞网站在线免费观看| 亚洲国产激情一区二区三区| 日韩av影视在线| 成人福利视频在线看| 国产精品精品久久久久久| 成人污污视频在线观看| 欧美最新精品| 欧美精品自拍视频| 久久99久久99精品中文字幕| 国产亚洲va综合人人澡精品| 国产精品美女在线观看直播| 黄色免费看网站| 成人黄色免费看| 欧美日韩高清一区二区| 天堂精品中文字幕在线| 一级毛片久久久| 久久精品网站视频| 国产精品狼人色视频一区| 欧美性开放视频| 日韩福利电影在线| 成人一区视频| 在线成人中文字幕| 中文字幕免费高清电视剧网站在线观看 | 欧美一级免费在线观看| 国产精品一区久久| 国产狼人综合免费视频| 亚洲尤物视频在线| freexxx性亚洲精品| 中日韩在线视频| 色噜噜狠狠色综合网图区| 国产农村妇女精品| 日本电影一区二区| 337p日本欧洲亚洲大胆鲁鲁| 在线视频欧美一区| 欧美黄色免费网站| 一本一道综合狠狠老| 国产精品66部| 国产在线观看91一区二区三区|