国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

田淵棟新作:打開1層Transformer黑盒,注意力機(jī)制沒那么神秘

人工智能 新聞
最近田淵棟博士公布了團(tuán)隊(duì)的最新研究成果,以數(shù)學(xué)嚴(yán)格方式,分析了1層Transformer(一個(gè)自注意力層加一個(gè)解碼器層)在下一個(gè)token預(yù)測(cè)任務(wù)上的SGD訓(xùn)練動(dòng)態(tài)。

Transformer架構(gòu)已經(jīng)橫掃了包括自然語言處理、計(jì)算機(jī)視覺、語音、多模態(tài)等多個(gè)領(lǐng)域,不過目前只是實(shí)驗(yàn)效果非常驚艷,對(duì)Transformer工作原理的相關(guān)研究仍然十分有限。

其中最大謎團(tuán)在于,Transformer為什么僅依靠一個(gè)「簡(jiǎn)單的預(yù)測(cè)損失」就能從梯度訓(xùn)練動(dòng)態(tài)(gradient training dynamics)中涌現(xiàn)出高效的表征?

最近田淵棟博士公布了團(tuán)隊(duì)的最新研究成果,以數(shù)學(xué)嚴(yán)格方式,分析了1層Transformer(一個(gè)自注意力層加一個(gè)解碼器層)在下一個(gè)token預(yù)測(cè)任務(wù)上的SGD訓(xùn)練動(dòng)態(tài)。

圖片

論文鏈接:https://arxiv.org/abs/2305.16380

這篇論文打開了自注意力層如何組合輸入token動(dòng)態(tài)過程的黑盒子,并揭示了潛在的歸納偏見的性質(zhì)。

具體來說,在沒有位置編碼、長(zhǎng)輸入序列、以及解碼器層比自注意力層學(xué)習(xí)更快的假設(shè)下,研究人員證明了自注意力就是一個(gè)判別式掃描算法(discriminative scanning algorithm)

從均勻分布的注意力(uniform attention)開始,對(duì)于要預(yù)測(cè)的特定下一個(gè)token,模型逐漸關(guān)注不同的key token,而較少關(guān)注那些出現(xiàn)在多個(gè)next token窗口中的常見token

對(duì)于不同的token,模型會(huì)逐漸降低注意力權(quán)重,遵循訓(xùn)練集中的key token和query token之間從低到高共現(xiàn)的順序。

有趣的是,這個(gè)過程不會(huì)導(dǎo)致贏家通吃,而是由兩層學(xué)習(xí)率控制的相變而減速,最后變成(幾乎)固定的token組合,在合成和真實(shí)世界的數(shù)據(jù)上也驗(yàn)證了這種動(dòng)態(tài)。

田淵棟博士是Meta人工智能研究院研究員、研究經(jīng)理,圍棋AI項(xiàng)目負(fù)責(zé)人,其研究方向?yàn)樯疃仍鰪?qiáng)學(xué)習(xí)及其在游戲中的應(yīng)用,以及深度學(xué)習(xí)模型的理論分析。先后于2005年及2008年獲得上海交通大學(xué)本碩學(xué)位,2013年獲得美國卡耐基梅隆大學(xué)機(jī)器人研究所博士學(xué)位。

曾獲得2013年國際計(jì)算機(jī)視覺大會(huì)(ICCV)馬爾獎(jiǎng)提名(Marr Prize Honorable Mentions),ICML2021杰出論文榮譽(yù)提名獎(jiǎng)。

曾在博士畢業(yè)后發(fā)布《博士五年總結(jié)》系列,從研究方向選擇、閱讀積累、時(shí)間管理、工作態(tài)度、收入和可持續(xù)的職業(yè)發(fā)展等方面對(duì)博士生涯總結(jié)心得和體會(huì)。

揭秘1層Transformer

基于Transformer架構(gòu)的預(yù)訓(xùn)練模型通常只包括非常簡(jiǎn)單的監(jiān)督任務(wù),比如預(yù)測(cè)下一個(gè)單詞、填空等,但卻可以為下游任務(wù)提供非常豐富的表征,實(shí)在是令人費(fèi)解。

之前的工作雖然已經(jīng)證明了Transformer本質(zhì)上就是一個(gè)通用近似器(universal approximator),但之前常用的機(jī)器學(xué)習(xí)模型,比如kNN、核SVM、多層感知機(jī)等其實(shí)也是通用近似器,這種理論無法解釋這兩類模型在性能上的巨大差距。

圖片

研究人員認(rèn)為,了解Transformer的訓(xùn)練動(dòng)態(tài)(training dynamics)是很重要的,也就是說,在訓(xùn)練過程中,可學(xué)習(xí)參數(shù)是如何隨時(shí)間變化的。

文章首先以嚴(yán)謹(jǐn)數(shù)學(xué)定義的方式,形式化描述了1層無位置編碼Transformer的SGD在下一個(gè)token預(yù)測(cè)(GPT系列模型常用的訓(xùn)練范式)上的訓(xùn)練動(dòng)態(tài)。

1層的Transformer包含一個(gè)softmax自注意力層和預(yù)測(cè)下一個(gè)token的解碼器層。

圖片

在假設(shè)序列很長(zhǎng),而且解碼器的學(xué)習(xí)速度比自注意力層快的情況下,證明了訓(xùn)練期間自注意力的動(dòng)態(tài)行為:

1. 頻率偏差Frequency Bias

模型會(huì)逐漸關(guān)注那些與query token大量共現(xiàn)的key token,而對(duì)那些共現(xiàn)較少的token降低注意力。

2. 判別偏差Discrimitive Bias

模型更關(guān)注那些在下一個(gè)要預(yù)測(cè)的token中唯一出現(xiàn)的獨(dú)特token,而對(duì)那些在多個(gè)下一個(gè)token中出現(xiàn)的通用token失去興趣。

這兩個(gè)特性表明,自注意力隱式地運(yùn)行著一種判別式掃描(discriminative scanning)的算法,并存在歸納偏差(inductive bias),即偏向于經(jīng)常與query token共同出現(xiàn)的獨(dú)特的key token

此外,雖然自注意力層在訓(xùn)練過程中趨向于變得更加稀疏,但正如頻率偏差所暗示的,模型因?yàn)橛?xùn)練動(dòng)態(tài)中的相變(phase transition),所以不會(huì)崩潰為獨(dú)熱(one hot)。

圖片

學(xué)習(xí)的最后階段并沒有收斂到任何梯度為零的鞍點(diǎn),而是進(jìn)入了一個(gè)注意力變化緩慢的區(qū)域(即隨時(shí)間變化的對(duì)數(shù)),并出現(xiàn)參數(shù)凍結(jié)和學(xué)會(huì)(learned)。

研究結(jié)果進(jìn)一步表明,相變的開始是由學(xué)習(xí)率控制的:大的學(xué)習(xí)率會(huì)產(chǎn)生稀疏的注意力模式,而在固定的自注意力學(xué)習(xí)率下,大的解碼器學(xué)習(xí)率會(huì)導(dǎo)致更快的相變和密集的注意力模式。

研究人員將工作中發(fā)現(xiàn)的SGD動(dòng)態(tài)命名為掃描(scan)和snap:

掃描階段:自注意力集中在key tokens上,即不同的、經(jīng)常與下一個(gè)預(yù)測(cè)token同時(shí)出現(xiàn)的token;其他所有token的注意力都下降。

snap階段:注意力全中幾乎凍結(jié),token組合固定。

圖片

這一現(xiàn)象在簡(jiǎn)單的真實(shí)世界數(shù)據(jù)實(shí)驗(yàn)中也得到驗(yàn)證,使用SGD在WikiText上訓(xùn)練的1層和3層Transformer的最低自注意力層進(jìn)行觀察,可以發(fā)現(xiàn)即使在整個(gè)訓(xùn)練過程中學(xué)習(xí)率保持不變,注意力也會(huì)在訓(xùn)練過程中的某一時(shí)刻凍結(jié),并變得稀疏。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-02-26 00:20:00

AI模型

2024-12-19 09:48:07

2024-10-31 10:00:39

注意力機(jī)制核心組件

2024-10-28 08:50:00

2025-10-08 10:19:29

2024-12-04 09:25:00

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2025-02-17 09:30:00

AI訓(xùn)練模型

2025-06-03 08:43:00

2023-03-17 08:28:17

GPT-4AI

2024-12-17 14:39:16

2023-11-24 12:36:00

模型訓(xùn)練

2022-07-03 14:06:27

元宇宙交互技術(shù)AR

2024-09-19 10:07:41

2024-03-08 12:35:41

模型數(shù)據(jù)

2024-12-12 09:00:00

2024-10-16 13:50:00

模型AI

2025-10-23 08:25:08

2012-08-16 12:50:29

2023-07-25 13:57:28

模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日韩一本精品| 亚洲精品成人一区| japanese23hdxxxx日韩| 日本一区二区三级电影在线观看| 欧美另类高清zo欧美| 国产曰肥老太婆无遮挡| 午夜精品免费| 美女精品久久久| av文字幕在线观看| 亚洲综合视频网| 韩国精品久久久999| 成人免费网址| 五月天亚洲精品| 成人国产在线视频| 欧美aaa一级片| 亚洲欧美成人vr| 亚洲精品99久久久久| 久久精品国产亚洲高清剧情介绍 | 四虎成人精品一区二区免费网站| 色悠悠亚洲一区二区| aa在线免费观看| 久久精品999| 久久综合一区| 99久久综合| 一区二区高清免费观看影视大全| 亚洲欧美日韩精品在线| 欧美日韩免费| 91精品国产黑色紧身裤美女| 国产三级视频| 国产三级精品三级| 久在线观看视频| 白白在线精品| 一区二区三区无码高清视频| 国产丝袜在线| 国产aⅴ综合色| 日韩欧美精品一区二区| 黑丝一区二区三区| 成人激情视频在线播放| 国产精品一国产精品| 91成人国产在线观看| 久久99偷拍| 久久欧美中文字幕| 伊人再见免费在线观看高清版 | 天天操天天综合网| 黄色片视频在线播放| 丰满少妇久久久久久久| 一级黄色片播放| 日本在线观看高清完整版| 亚洲成人精品一区二区| 激情综合网av| 亚洲免费小视频| 韩国视频一区二区三区| 免费视频一区三区| 欧美性xxxx在线播放| 色视频www在线播放| 玖玖玖国产精品| 欧美刺激性大交免费视频| 国产一区二区三区免费在线 | 国产欧美一区二区三区久久| 女人丝袜激情亚洲| 国产日韩av在线播放| 国产大片一区| 欧美极品少妇xxxxⅹ喷水| 九色视频在线观看免费播放 | 福利在线午夜| 午夜精品久久久久久久| 国产精品丝袜一区二区三区| 国产99久久精品一区二区300| 国产欧美精品一区二区| 一区视频在线看| 欧美日韩成人在线视频| 男人的天堂在线| 欧美日韩久久久一区| 欧美理论电影| 久久婷婷国产麻豆91天堂| 人操人视频在线观看| 欧美性猛交xxxxxxxx| 菠萝蜜视频国产在线播放| 日韩激情av在线免费观看| а√天堂资源国产精品| 91精品国产91久久久久福利| 国产精品久久久久蜜臀| 欧美一二三区| 久久久国产一区二区三区四区小说 | 成人精品视频一区二区三区尤物| 欧在线一二三四区| 亚洲一区成人在线| 免费看欧美一级片| 国产精品国产精品国产专区不蜜| 先锋影音欧美性受| 亚洲视频欧美视频| 国产秀色在线www免费观看| 亚洲欧美日韩网| 欧美一区二区麻豆红桃视频| 爱福利视频一区| 亚洲婷婷影院| 欧美日韩大片一区二区三区| 91污在线观看| 成人精品一区二区| 久久国产精品电影| 日韩视频一区| 久在线观看视频| 欧美三级日韩三级国产三级| av日韩一区| 欧美精品一区二区三区在线看午夜| 26uuu久久综合| 天堂中文а√在线| 97国产真实伦对白精彩视频8| 久久久999| 97视频在线| 日韩国产一区三区| 亚洲国产一成人久久精品| 黄色成人在线看| 99精品国产福利在线观看免费| 强开小嫩苞一区二区三区网站| 亚洲高清视频在线| 久久一级大片| 亚洲网站在线看| 中文字幕午夜精品一区二区三区| 国产精品av在线| 国产99一区视频免费| h视频网站在线观看| 午夜精品久久久久久久99黑人 | 欧美日韩日本国产| 蜜臀久久精品| 51成人做爰www免费看网站| 久久不见久久见免费视频7| 亚洲日本无吗高清不卡| 亚洲mv大片欧洲mv大片精品| 在线日韩三级| 亚洲欧美国产精品桃花| 欧美日韩黄色大片| 成人综合日日夜夜| 亚洲高清视频在线观看| 欧美在线视频全部完| 免费欧美一区| 先锋成人影院| 亚洲在线免费播放| 国产不卡精品在线| 黄色录像特级片| 日韩国产中文字幕| 久久99国产精品尤物| 成人综合视频在线| 亚洲精品福利在线| 色呦呦在线观看视频| 亚洲成人天堂网| 98精品国产高清在线xxxx天堂| 这里只有精品免费| 国产一区二区三区黄视频 | 电影91久久久| 亚洲精品一区二区三区四区五区| 精品美女一区二区| 国产成人小视频| 成人性教育av免费网址| 456国产精品| 国产一区二区三区影视| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 色88888久久久久久影院野外| 69国产精品| 欧美综合亚洲图片综合区| 外国电影一区二区| 综合一区中文字幕| 亚洲精品国产精品自产a区红杏吧| 米奇777在线欧美播放| a天堂中文在线官网在线| 鲁鲁狠狠狠7777一区二区| 91精品国产黑色紧身裤美女| 国产欧美日本| aaa大片在线观看| 亚洲成人精品电影在线观看| 日韩精品一区二区三区四区视频| 99riav视频一区二区| 在线观看欧美亚洲| 亚洲欧美在线播放| 成人av网址在线观看| 嫩草伊人久久精品少妇av杨幂| www.av毛片| 欧美激情第三页| 一本色道久久精品| 欧美性videos| 欧美成年人视频网站欧美| 99r国产精品| 日本午夜在线视频| 国产经典一区二区三区 | 亚洲欧美日本日韩| 成人免费网站观看| 国产成人免费av| 欧美午夜精品在线| 香蕉成人久久| 日本综合久久| 视频在线观看一区二区三区| 国产色a在线观看| 欧美精品一区二区三区很污很色的| 噜噜噜躁狠狠躁狠狠精品视频| 超清av在线| 国产资源在线视频| 国产精品视频免费在线| 717成人午夜免费福利电影| 国产精品资源在线| 日本精品影院|