国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

深度學(xué)習(xí)下一個(gè)大的突破會(huì)是機(jī)器閱讀嗎?

人工智能 深度學(xué)習(xí)
本文作者鄧侃認(rèn)為,機(jī)器閱讀其實(shí)就是自然文本的結(jié)構(gòu)化,而文本摘要和機(jī)器翻譯在2016年的進(jìn)展,昭示了機(jī)器閱讀即將取得的突破。

機(jī)器閱讀將是深度學(xué)習(xí)的下一個(gè)重大進(jìn)展

 

[[184205]]

回顧2016年,深度學(xué)習(xí)在應(yīng)用領(lǐng)域取得了三個(gè)重大進(jìn)展。

1. Google DeepMind 的 AlphaGo,戰(zhàn)勝了人類頂級(jí)圍棋高手。

2. Google Translate 上線,達(dá)到了與人類媲美的精度。

3. Tesla 的 AutoPilot 投入使用,讓自動(dòng)導(dǎo)航成為大眾使用的日常工具。

展望2017年,深度學(xué)習(xí)在應(yīng)用領(lǐng)域?qū)?huì)有新的突破,其中一大看點(diǎn),就是機(jī)器閱讀。

書籍是人類文明的主要傳承工具。讓機(jī)器掌握自動(dòng)閱讀的能力,將會(huì)顛覆性地降低知識(shí)傳承和使用的難度。

機(jī)器閱讀之所以可能在2017年取得突破性進(jìn)展,原因是機(jī)器翻譯的工作原理,可以拓展到機(jī)器閱讀領(lǐng)域。

文本摘要的研究,在2016年取得的進(jìn)展,已經(jīng)昭示了機(jī)器閱讀的前進(jìn)方向。

所謂文本摘要,就是把整篇文章,輸入給電腦,電腦自動(dòng)輸出文章的中心思想。

文本摘要的工作原理,與機(jī)器翻譯的工作原理,一脈相承。

機(jī)器翻譯的原理,編碼及解碼

機(jī)器翻譯的工作原理,說來簡單,先編碼,后解碼 [1]。

編碼的任務(wù),是把輸入的文章,轉(zhuǎn)換成一連串?dāng)?shù)字向量,數(shù)字向量包含文章每一詞的語義和語法信息,如同基因DNA。

解碼的任務(wù),是把數(shù)字向量,逐個(gè)轉(zhuǎn)換成其它語言的詞語,完成翻譯。

任務(wù)明確后,接下去談如何實(shí)現(xiàn)。

如何提煉文章中每一個(gè)詞的語義信息?機(jī)器翻譯用了兩個(gè)辦法,

1. 詞向量,詞向量包含這一個(gè)詞的語義信息。詞向量的實(shí)現(xiàn)方式,用的是神經(jīng)網(wǎng)絡(luò)與語言模型的組合,稍后介紹。

2. 語義向量,語義向量包含了從文章開頭到當(dāng)前詞的主要語義,也包含了從當(dāng)前詞到文章末尾的主要語義,所以語義向量又稱為前后文向量。語義向量的實(shí)現(xiàn)方式,用的是 LSTM 的隱狀態(tài),稍后介紹。

除了語義信息,編碼是否需要容納語法和統(tǒng)計(jì)信息?

文本摘要的研究者們,提議在編碼中也容納語法詞性標(biāo)注(POS tagging)、實(shí)體標(biāo)注(NER)、信息挖掘統(tǒng)計(jì)值(TF-IDF)等等信息 [2]。

懸念是,還有哪些其它有用的信息,也應(yīng)該被容納進(jìn)編碼中?

更大的懸念是,如何提高編碼的正確性,精準(zhǔn)地全面地表達(dá)原文的語義和語法信息?

編碼的實(shí)現(xiàn)原理

編碼的實(shí)現(xiàn),依賴于詞向量和語義向量。

詞向量的實(shí)現(xiàn)方式,用的是神經(jīng)網(wǎng)絡(luò)與語言模型的組合 [3]。

先說語言模型(Language Model),語言模型的任務(wù),是根據(jù)前文,預(yù)測下一個(gè)詞,最可能是什么?

有時(shí)候聽眾會(huì)打斷對(duì)方的發(fā)言,說,“你不用再說了,你下面想說什么,我已經(jīng)猜到了”。這樣的聽眾,腦子里擁有出色的語言模型。

人類語言有缺陷,“版圖” 與 “疆界”,無一字相同,但是語義相同。

語言模型把每一個(gè)人類詞匯,對(duì)應(yīng)到一個(gè)詞向量。詞向量是數(shù)字向量,數(shù)字向量的好處在于,容易計(jì)算數(shù)字向量之間的距離。同義詞的詞向量之間的距離為零,近義詞的詞向量之間的距離較短。

人類詞匯,有一詞多義的情況。詞向量的技術(shù)難題,在于如何給多義詞配置多個(gè)詞向量。

[3] 用神經(jīng)網(wǎng)絡(luò),來根據(jù)前文,預(yù)測下一個(gè)出現(xiàn)的詞。

所謂預(yù)測,其實(shí)是估算詞庫中所有詞匯,哪一個(gè)詞匯在下一個(gè)出現(xiàn)的概率最大。神經(jīng)網(wǎng)絡(luò)發(fā)揮的作用,是概率模擬器。

預(yù)測很準(zhǔn)的時(shí)候,神經(jīng)網(wǎng)絡(luò)中的諸多參數(shù)就不需要調(diào)整。預(yù)測不準(zhǔn)的時(shí)候,就調(diào)整這些參數(shù),提高后續(xù)預(yù)測的精準(zhǔn)度。這就是語言模型訓(xùn)練的過程。

因?yàn)橐浪阍~庫中所有詞出現(xiàn)的概率,所以訓(xùn)練語言模型的計(jì)算量,往往大得驚人。

解決的辦法,是盡可能縮小候選詞匯的數(shù)量。辦法很多,譬如 beam search。

語義向量的實(shí)現(xiàn),依賴 LSTM(Long Short Term Memory)。LSTM 也是一種神經(jīng)網(wǎng)絡(luò),特色有二 [4]。

1. 循環(huán):神經(jīng)網(wǎng)絡(luò)前一次的輸出,將作為同一個(gè)神經(jīng)網(wǎng)絡(luò)下一次的輸入。所以,LSTM 是處理序列的利器,語句就是序列的一種,序列的例子還包括,股票價(jià)格波動(dòng),心電圖腦電圖,音頻視頻等等。

2. 遺忘:語句中每個(gè)詞匯的重要性不同,記住重要的詞匯,忘記冗詞。人類記憶有限,聽演講往往要做筆記,記住要點(diǎn)。電腦的記憶無限,但是也要取舍,避免噪音淹沒了要點(diǎn)。

人類聽演講時(shí),把要點(diǎn)寫在筆記本里。LSTM 處理序列時(shí),把要點(diǎn)存儲(chǔ)在隱狀態(tài)里。

隱狀態(tài)(Hidden State)也是數(shù)字向量,隱狀態(tài)數(shù)字向量的維度,往往比詞向量的維度高。就像筆記本里能夠?qū)懴潞芏嘣~匯。

但是隱狀態(tài)向量并非詞向量的簡單積累。隱狀態(tài)向量是前后文詞向量的剪接,如同基因剪接一樣。

LSTM 的隱狀態(tài)向量,勝任前后文語義向量的職能。但是隱狀態(tài)向量的軟肋,在于含義晦澀,如同基因不易讀解。

好的隱狀態(tài)向量,容易識(shí)別。如果用 Autoencoder [5] 把隱狀態(tài)向量復(fù)原成原文,復(fù)原后的原文,與真正的原文越相近,說明隱狀態(tài)向量的質(zhì)量越好。

但是壞的隱狀態(tài)向量,壞在哪里,很難甄別。因?yàn)椋[狀態(tài)向量的含義晦澀難懂。這是需要研究解決的難題。

除了提煉前后文語義,LSTM 還可以做很多事情,譬如給文章中每個(gè)詞匯標(biāo)注詞性,識(shí)別文章中地址名稱等等詞組。

作為神經(jīng)網(wǎng)絡(luò)的一種,LSTM 也需要訓(xùn)練,訓(xùn)練就需要語料。不同的任務(wù),譬如詞性標(biāo)注,詞組識(shí)別,需要不同的訓(xùn)練語料。

獲得大量語料,也是難題。譬如有人提議,收集文章及其標(biāo)題,作為文本摘要的訓(xùn)練語料。但是遇到標(biāo)題黨,這個(gè)辦法就失效。

解碼的實(shí)現(xiàn)原理

解碼的理想境界,與翻譯的理想境界相似,

1. “信”:語義要正確,不要曲解。

2. “達(dá)”:措辭要恰當(dāng),即便語義相同,如果措辭不同,那么語氣迥異。

3. “雅”:行文要流暢。

解碼器的實(shí)現(xiàn)原理,與詞向量的實(shí)現(xiàn)原理相似,依賴語言模型,根據(jù)前文,預(yù)測下一個(gè)詞,最可能是詞庫中的哪一個(gè)詞匯?

不要忘記,估算詞庫中所有詞出現(xiàn)的概率,計(jì)算量往往大得驚人。

要達(dá)到“信”的境界,對(duì)于機(jī)器翻譯而言,難度較低,因?yàn)榉g基本上是逐個(gè)詞匯一對(duì)一翻譯。

對(duì)于文本摘要而言,“信”的難度較高。如何摘錄重點(diǎn)?人類做摘要,往往摘錄論點(diǎn),不摘錄論據(jù),往往摘錄故事結(jié)局,不摘錄故事過程。

如何讓電腦辨別論點(diǎn)與論據(jù),結(jié)局與過程?這是需要研究的難題。

所以,對(duì)于機(jī)器翻譯而言,解碼器的輸入,只需要原文中的詞向量和語義向量,就可以翻譯得相當(dāng)精準(zhǔn)。

但是,對(duì)于文本摘要而已,除了詞向量和語義向量,還需要詞性標(biāo)注、詞組識(shí)別、TF-IDF,信息越豐富,摘要越簡潔。

簡單暴力的辦法,是摘錄原文中每個(gè)段落的起首一兩句,遇到兩個(gè)段落的起首句的語義相同,就忽略其中一個(gè)。

要達(dá)到“達(dá)”的境界,對(duì)于機(jī)器翻譯而言,難度較高,每種語言都有同義詞,但是同義詞之間的語氣差別,往往難以界定。

對(duì)于文本摘要而言,“達(dá)”的難度較低,簡單粗暴但是行之有效的辦法,是直接引用原文中的詞匯。

引用原文詞匯,還有一個(gè)好處,是大大降低了計(jì)算量。說得學(xué)術(shù)點(diǎn),這叫 LVT,Large Vocabulary Tricks [6]。

麻煩在于,原文中出現(xiàn)的詞匯很多,下一個(gè)詞應(yīng)該引用原文中的哪一個(gè)詞匯?

解決辦法是先用語言模型,根據(jù)當(dāng)前的詞向量、語義向量,預(yù)測下一個(gè)詞的詞向量。然后再去原文中,尋找最貼切的詞匯。

尋找的辦法,說得學(xué)術(shù)點(diǎn),叫 Attention [1]。

大意是根據(jù)原文中每一個(gè)詞匯本身的語義、語法詞性、詞組標(biāo)注、TF-IDF 統(tǒng)計(jì)信息,以及前后文的語義等等盡可能多的信息,評(píng)估原文中的每一個(gè)詞匯,與下一個(gè)詞的詞向量的相關(guān)性。

但是 Attention 的辦法,也會(huì)導(dǎo)致巨大的計(jì)算量。[2] 提議了一個(gè)減少計(jì)算量的辦法,先評(píng)估每個(gè)語句的相關(guān)性,找到相關(guān)語句后,再評(píng)估這個(gè)語句中每個(gè)詞匯的相關(guān)性。

要達(dá)到“雅”的境界,無論機(jī)器翻譯還是文本摘要,都必須做到下一個(gè)詞的選擇,必須與前文詞匯保持流暢。

對(duì)于文本摘要而言,下一個(gè)詞的選擇,不能全部選用原文中詞匯。實(shí)現(xiàn)方式有兩個(gè)要素。

1. 預(yù)先從訓(xùn)練語料中,構(gòu)建摘要的詞庫。

2. 實(shí)現(xiàn)一個(gè)開關(guān)函數(shù),決定從詞庫中選詞,還是從原文詞匯中摘錄。

開關(guān)函數(shù)可以用 sigmoid 函數(shù),輸入有三項(xiàng),前文的詞匯、預(yù)測出的下一個(gè)詞的詞向量、Attention 找到的原文中最貼切的詞匯。

未來有待解決的問題

除了進(jìn)一步降低語言模型的計(jì)算量,除了識(shí)別原文中各個(gè)語句及詞匯的重要性,未來最大的挑戰(zhàn),可能是如何引用外援知識(shí)。

人類閱讀的時(shí)候,經(jīng)常需要查字典,查參考文獻(xiàn)。

引用外援知識(shí)的目的,是擴(kuò)大讀者現(xiàn)有的知識(shí)結(jié)構(gòu),消除現(xiàn)有知識(shí)結(jié)構(gòu)與文章內(nèi)容之間的落差。

閱讀結(jié)束后,進(jìn)一步擴(kuò)大現(xiàn)有知識(shí)結(jié)構(gòu)。這就是人類通過閱讀,不斷學(xué)習(xí)知識(shí)的過程。

知識(shí)結(jié)構(gòu)的表達(dá)方式有多種,“一圖勝千言”,自然語言似乎不是最高效的表達(dá)方式。

知識(shí)圖譜由點(diǎn)和邊組成,點(diǎn)表達(dá)概念,邊表達(dá)一個(gè)概念與另一個(gè)概念之間的關(guān)系。

譬如 “發(fā)燒” 和 “炎癥” 是兩個(gè)概念,在知識(shí)圖譜中用兩個(gè)點(diǎn)來表達(dá)。“炎癥”導(dǎo)致“發(fā)燒”,在知識(shí)圖譜中用有向邊來表達(dá)。

當(dāng)閱讀一篇文章時(shí),如果文章中出現(xiàn)的概念,沒有出現(xiàn)在現(xiàn)有知識(shí)圖譜中,那么閱讀就會(huì)出現(xiàn)困難,這就是知識(shí)的落差。

消除知識(shí)落差的辦法,是查字典,查參考文獻(xiàn),擴(kuò)大閱讀,直到文章中出現(xiàn)的新概念,與現(xiàn)有知識(shí)圖譜相連接。

如何把文章轉(zhuǎn)換為知識(shí)圖譜?不妨沿用機(jī)器翻譯和文本摘要的工作原理,把文章從自然語言,轉(zhuǎn)換成知識(shí)圖譜。

換而言之,機(jī)器閱讀其實(shí)就是自然文本的結(jié)構(gòu)化。

參考文獻(xiàn)

[1] Neural Machine Translation by Jointly Learning to Align and Translate

https://arxiv.org/abs/1409.0473

[2] Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond

https://arxiv.org/abs/1602.06023

[3] Distributed Representations of Words and Phrases and their Compositionality

https://arxiv.org/abs/1310.4546

[4] Understanding LSTM Networks

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

[5] Autoencoders tutorial

http://ufldl.stanford.edu/tutorial/unsupervised/Autoencoders/

[6] On using very large target vocabulary for neural machine translation

https://arxiv.org/abs/1412.2007

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-09-16 10:25:30

僵尸網(wǎng)絡(luò)物聯(lián)網(wǎng)安全網(wǎng)絡(luò)安全

2022-02-13 15:49:15

WebAssemblKubernetes容器

2009-03-28 09:22:12

MID移動(dòng)OS

2022-02-28 00:14:30

人工智能數(shù)據(jù)機(jī)器學(xué)習(xí)

2024-12-31 15:49:54

2016-10-24 11:35:12

2016-10-24 18:49:01

2018-12-05 15:35:04

深度學(xué)習(xí)自我監(jiān)督學(xué)習(xí)人工智能

2022-02-24 11:46:38

區(qū)塊鏈技術(shù)NFT

2025-01-21 08:11:24

2015-11-02 16:56:12

SDN華為

2017-01-15 17:47:09

5G互聯(lián)網(wǎng)4G

2016-12-01 14:09:59

2017-03-19 10:03:10

機(jī)器視覺人工智能

2025-11-17 00:00:45

2017-07-25 09:19:02

2014-03-31 13:47:35

IT技術(shù)周刊

2009-05-12 10:51:22

職場經(jīng)濟(jì)危機(jī)裁員

2015-11-02 10:32:43

bat騰訊百度

2024-02-27 10:14:56

服務(wù)機(jī)器人人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

鲁大师精品99久久久| 午夜久久久久久久久久久| 99亚偷拍自图区亚洲| 成人激情电影在线看| 国产精品免费福利| 国产精品国产三级国产aⅴ原创 | 亚洲第一会所| 亚洲永久激情精品| 亚洲第一网站免费视频| 奇米亚洲午夜久久精品| 亚洲91av| 亚洲免费视频一区| 精品国产一区二区三区四区四| 免费一区视频| 亚洲精品天堂| 亚洲精品中字| 亚洲欧美制服第一页| 国产成人精品影视| 成人精品国产亚洲| 激情综合网婷婷| 欧美激情国产日韩精品一区18| 2017欧美狠狠色| silk一区二区三区精品视频 | 国产一区二区看久久| 亚洲人成在线网站| 草草视频在线免费观看| 久久精品视频在线观看| 国产精品视频九色porn| 久久最新网址| 男女网站在线观看| 欧美福利精品| 一区二区三区精品99久久| 久久久一区二区三区| 西瓜成人精品人成网站| 最近最新中文字幕在线| 国产成人女人毛片视频在线| 日韩午夜av电影| 成人永久免费视频| 国产丝袜一区| 男人的天堂在线| 亚洲aⅴ天堂av在线电影软件| 国产亚洲视频在线观看| 国产精品美女久久久久久久久 | 精品视频一二三| 欧美激情第六页| 亚洲欧美日韩国产中文| 久久久www免费人成精品| 精品久久久中文字幕| 色欧美激情视频在线| 99热都是精品| 国模叶桐国产精品一区| 一本色道久久综合狠狠躁的推荐| 日韩有码一区二区三区| 成人在线视频免费| 免费网站www在线观看| 国产在线一区二区三区四区| 亚洲欧美国产一本综合首页| 国产精品成人在线观看| 韩日欧美一区| 久久xxx视频| 成人在线观看视频app| 国产亚洲自拍偷拍| 亚洲欧美日韩精品久久亚洲区 | 欧美精品羞羞答答| 超碰人人在线| 99精品免费在线观看| 91精品视频大全| 亚洲男人第一网站| 一区二区三区精品在线观看| 男女性色大片免费观看一区二区| 久久亚洲国产精品尤物| 在线免费91| 日本免费成人网| 91精品久久久久久综合乱菊 | 孩娇小videos精品| 国产精品免费一区二区三区在线观看| 亚洲美女动态图120秒| 亚洲精选在线视频| 日韩成人伦理电影在线观看| 精品视频在线观看免费观看| 久香视频在线观看| 欧美 日本 亚洲| 国产精品久久久久久久久久久久冷| 深夜福利91大全| 在线视频综合导航| 久久一区二区三区四区| 99精品热6080yy久久| y111111国产精品久久久| 米奇777四色精品人人爽| 中文字幕天天干| 涩涩涩999| 国产va免费精品高清在线观看| 亚洲成人av在线| 一二三区精品福利视频| 国模无码大尺度一区二区三区| 欧美丝袜激情| 午夜不卡一区| av资源在线观看免费高清| av在线无限看| 一区二区三区欧美成人| 91在线免费视频| 欧美激情视频在线免费观看 欧美视频免费一 | 日韩国产在线一区| 欧美一级高清免费播放| 日韩电影网在线| 色呦呦日韩精品| 国产亚洲欧美日韩日本| 亚洲主播在线| 欧洲乱码伦视频免费| 久久av影院| 2024最新电影免费在线观看| 狠狠色一日本高清视频| 国产一二三区在线播放| 久久久久久a亚洲欧洲aⅴ| 国产福利视频一区| 久久久精品视频在线观看| 精品少妇一区二区三区在线播放| 亚洲成av人在线观看| 国产性做久久久久久| 国产一区二区三区不卡在线观看 | 波多野结衣久草一区| 97国产精品久久| xxxx欧美18另类的高清| 亚洲成人免费网站| 欧美中文字幕一二三区视频| 又紧又大又爽精品一区二区| 久久综合久久综合久久| 国产精品一区二区91| 久久国产福利| 国产精品地址| 99久久久久国产精品| 亚洲免费观看高清完整版在线观| 国产91精品在线| 国产亚洲成av人片在线观看| 麻豆网站在线观看| 国产无套粉嫩白浆在线2022年| 日本调教视频在线观看| 成人性生生活性生交12| 男女超爽视频免费播放| 肉大捧一出免费观看网站在线播放| 欧美日韩国产综合视频在线| 国产欧美日韩一区| 97国产超碰| 91亚洲国产成人精品性色| 国产精品日韩欧美大师| 国产精品精品视频| 国产精品高潮呻吟久久av黑人| 91精品国产网站| 97精品视频在线播放| 欧美成人三级视频网站| 深夜福利国产精品| 在线视频一区二区| 亚洲无av在线中文字幕| 国产一区二区三区久久精品| 亚洲欧美一区二区三区久久| 亚洲精品xxxx| 日韩精品免费在线视频观看| 国产午夜精品久久久| 亚洲欧美精品一区| 中国china体内裑精亚洲片| 中文字幕亚洲一区在线观看| www国产精品com| 欧美成人黑人xx视频免费观看| 久久av在线看| 韩国三级日本三级少妇99| 国产91精品久久久久久久| 清纯唯美亚洲激情| 国产精品永久免费| 91精品入口蜜桃| 麻豆91av| 中文字幕精品—区二区日日骚| 99精品一区二区三区的区别| 僵尸世界大战2 在线播放| 欧美日韩在线成人| 美女免费免费看网站| 亚洲做受高潮| 97电影在线观看| 日本大胆在线观看| 亚洲天堂一区二区| 国产一区二区三区黄网站| 美女主播精品视频一二三四| 久久视频在线| 免费视频一区| 成人激情免费网站| 欧美国产综合一区二区| 亚洲国产精品一区二区久久| 欧美亚洲综合另类| 日韩av网站电影| 久久精品国产欧美激情| 91黑丝在线观看| 91亚洲精品一区二区| 色姑娘综合av| 能在线观看的av| 偷偷要色偷偷| 精品美女在线观看视频在线观看| xxx欧美xxx| 校园春色另类视频| 国产精品永久| 99国内精品久久| 亚洲国产精品久久久久婷婷884 |