国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

有了“大數據”,還需“多任務”,谷歌AI大牛Quoc V. Le發現大模型零樣本學習能力的關鍵

新聞
谷歌研究科學家Quoc V. Le近期提出了一個1370億參數語言模型FLAN,探討了一種提高語言模型zero-shot學習能力的新方法。

[[423619]]

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

谷歌研究科學家Quoc V. Le近期提出了一個1370億參數語言模型FLAN,探討了一種提高語言模型zero-shot學習能力的新方法。

研究表明,指令微調(instruction tuning)——在通過指令描述的任務集合上對語言模型進行微調,可以極大地提高未見過的任務的零樣本場景下的性能

論文鏈接:https://arxiv.org/pdf/2109.01652v1.pdf

我們采用一個1370億參數量的預訓練語言模型,通過自然語言指令模板對60多個NLP任務進行指令微調。我們把這個模型稱為Finetuned LAnguage Net(FLAN),研究人員在未見過的任務類型上對這個指令微調過的模型進行了評估。

結果表明,FLAN極大地提高了其未調整的對應模型的性能,并且在我們評估的25個任務中,有19個任務超過了零樣本設定下參數為1750億的GPT-3。

在ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze上,FLAN甚至以很大的優勢超過了小樣本GPT-3。消融研究顯示,任務數量和模型規模是指令微調成功的關鍵因素。

有了“大數據”,還需“多任務”,谷歌AI大牛Quoc V. Le發現大模型零樣本學習能力的關鍵

圖1:上面:指令微調和FLAN概述。指令微調是在以指令描述的任務集合上對預訓練的語言模型進行微調。在推理中,我們對一個未見過的任務類型進行評估;例如,如果在指令微調期間沒有學習過自然語言推理(NLI)任務,我們可以用NLI任務對模型進行評估。下面:與零樣本 GPT-3 和小樣本GPT-3相比,零樣本FLAN在未見過的任務類型上的表現。

1

引言

規模化的語言模型(LM),如GPT-3,已經被證明可以很好地進行few-shot學習。然而,它們在zero-shot學習方面卻不是很成功。例如,在閱讀理解、回答問題和自然語言推理等任務上,GPT-3在零樣本場景下的學習性能比小樣本差很多。其中一個潛在原因是:如果沒有小樣本的示范,那么在與預訓練數據的格式不同的指示上,模型就很難取得良好的表現。

本文中,我們探索了一種簡單的方法來提高大型語言模型的零樣本性能。我們利用了NLP任務可以通過自然語言指令來描述的直覺,比如 "這個電影評論是正面情緒的還是負面的?"或者 "把'你好嗎'翻譯成中文"。

我們采用了一個參數為1370億的預訓練語言模型,并對該模型進行指令微調——對60多個通過自然語言指令表達的NLP任務的集合進行微調。我們把這個模型稱為Finetuned LAnguage Net(FLAN)。

為了評估FLAN在未見過的任務上的零樣本性能,我們將NLP任務根據其任務類型分為幾個群組,并對某個群組進行評估之前,在所有其他群組上對FLAN進行指令微調。

例如,如圖1所示,為了評估FLAN執行自然語言推理的能力,我們先在一系列其他NLP任務上對模型進行指令微調,如常識推理、翻譯和情感分析。由于這種設置確保了FLAN在指令微調中沒有學習過任何自然語言推理任務,因此我們可以再評估其進行零樣本自然語言推理的能力。

評估表明,FLAN極大地提高了基礎1370億參數模型在零樣本場景下的性能。在我們評估的25個任務中的19個任務里,零樣本場景下的FLAN也優于參數為1750億參數的GPT-3,甚至在一些任務上,如ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze,也明顯優于小樣本GPT-3。在消融實驗中,我們發現在指令微調中增加任務群的數量可以提高未學習任務的性能,而且只有在有足夠的模型規模時,指令微調的優點才會顯現。 

我們的實證結果強調了語言模型執行用自然語言指令描述的任務的能力。更為廣泛的結論是,如圖2所示,通過微調的方式進行監督,來提高語言模型對推理-時間文本交互的反應能力,指令微調結合了預訓練調整和prompting范式中吸引人的特點。

用于加載FLAN的指令微調數據集的源代碼:https://github.com/google-research/flan 

 

有了“大數據”,還需“多任務”,谷歌AI大牛Quoc V. Le發現大模型零樣本學習能力的關鍵

 

圖2:比較指令微調與預訓練-調整和prompting的關系。

 

2

指令微調提高了零樣本學習的效果

進行指令微調是為了提高語言模型對NLP指令的反應能力。我們想通過監督來指引語言模型執行指令描述的任務,使其學會遵循指令,對與未見過的任務也是如此。為了評估模型在未見過的任務上的表現,我們按任務類型將任務進行分組,并將每個任務組單獨進行評估,同時對其余所有分組進行指令微調。

2.1 任務&模板 

從零創建一個具有大量任務的可行的指令調整數據集需要集中大量資源。因此,我們選擇將現有研究創建的數據集轉化為指令格式。我們將Tensorflow數據集上公開的62個文本數據集,包括語言理解和語言生成任務,匯總成一個集合。圖3展示了我們使用的所有數據集;每個數據集都被歸入十二個任務群組中的一個,每個群組中的數據集都屬于同一任務類型。

 

有了“大數據”,還需“多任務”,谷歌AI大牛Quoc V. Le發現大模型零樣本學習能力的關鍵

 

圖3:本文中使用的任務集群(藍色為NLU任務;茶色為NLG任務)。

我們將任務設定為由基于數據集轉換的一組特定的輸入-輸出對(例如,我們認為RTE和ANLI是獨立的任務,盡管它們的涵義有交叉)。

對于每一項任務,我們都會把它們組成十個不同的用自然語言指令來描述任務的模板。這十個模板中的大部分都描述了原始任務,但為了增加多樣性,每個任務中最多包含三個 "反轉任務 "的模板(例如,對于情感分類,我們包括要求生成負面電影評論的模板)。

然后,我們在所有任務的集合上對預訓練的語言模型進行指令微調,每個任務中的例子都通過隨機選擇的指令模板進行格式化。圖4展示了一個自然語言推理任務的多個指令模板。

 

 

有了“大數據”,還需“多任務”,谷歌AI大牛Quoc V. Le發現大模型零樣本學習能力的關鍵

 

 

圖4:描述一個自然語言推理任務的多個指令模板。

2.2 評估分割法

我們對FLAN在指令微調中沒有訓練過的任務上的表現很感興趣,因此,對未見過的任務的定義至關重要。 

之前的一些工作通過不允許同一數據集出現在訓練中來對未見過的任務進行分類,而我們利用圖3中的任務集群,使用一個更為保守的定義。

在這項工作中,如果在指令微調期間沒有訓練過T所屬的任何集群的任務,我們才認為任務T在評估時是合適的。例如,如果任務T是一個文本蘊涵任務,那么在指令微調數據集中不會出現文本蘊涵任務,我們只對所有其他集群的任務進行指令調整。 

使用這個定義,為了評估FLAN在跨越c個集群的任務上的性能,我們執行了c個集群間分割的指令微調,在指令微調過程中,每種分割都會有不同的集群。

2.3 有選擇的分類

一個給定任務所期望的輸出空間是幾個給定類別中的一個(如分類)或自由文本(如生成)。由于FLAN是純解碼器語言模型的指令微調版本,它自然可以生成自由文本,因此對于期望輸出為自由文本的任務不需要再做進一步修改。 

對于分類任務,先前Brown等人的工作使用了等級分類方法,例如,只考慮兩個輸出("是 "和 "不是"),將概率較高的一個作為模型的預測。

雖然這個程序在邏輯上是合理的,但它并不完美,因為答案的概率質量可能有一個不理想的分布(例如,大量替代性的 "是 "的表達方式,比如“對”、“正確”,可能降低分配給 "是 "的概率質量)。

因此,我們加入了一個選項后綴,即在分類任務的末尾加上OPTIONS標記,以及該任務的輸出類別列表。這使得模型知道在響應分類任務時需要哪些選擇。圖1中的NLI和常識性的例子顯示了選項的使用。 

2.4 訓練細節

模型架構和預訓練。在我們的實驗中,我們使用了一個密集的從左到右的、只有解碼器的1370億參數的Transformer語言模型。這個模型在網絡文檔(包括那些帶有計算機代碼的文檔)、對話數據和維基百科上進行了預訓練,使用SentencePiece庫(Kudo & Richardson, 2018)將其標記為2.81T BPE tokens,詞匯量為32K tokens。大約10%的預訓練數據是非英語的。這個數據集不像GPT-3的訓練集那樣單一,也有對話和代碼的混合物,因此我們預計一開始這個預訓練的語言模型在NLP任務上的零樣本和小樣本性能會略低。因此,我們把這個預訓練的模型稱為基礎語言模型(Base LM)。這個模型以前也曾被用于程序合成。

指令微調程序。FLAN是Base LM的指令微調版本。我們的指令微調管道混合了所有的數據集,并從每個數據集中隨機抽取例子。一些數據集有超過1000萬個訓練實例(例如翻譯),因此我們將每個數據集的訓練實例數量限制在3萬個。其他數據集的訓練例子很少,為了防止這些數據集被邊緣化,我們遵循實例-比例混合方案(examples-proportional mixing scheme),混合率最大為3000。我們的微調程序中使用的輸入和目標序列長度分別為1024和256。我們使用打包的方法將多個訓練實例合并成一個序列,并用一個特殊的序列末端標記將輸入和目標分開。

 

 

有了“大數據”,還需“多任務”,谷歌AI大牛Quoc V. Le發現大模型零樣本學習能力的關鍵

 

 

 

 

表1: 自然語言推理的結果。對于FLAN,我們既報告了最多10個模板的平均值(代理沒有prompt工程的預期性能),也報告了在驗證集上性能最高模板的測試集性能。三角形表示比小樣本GPT-3有改進。上箭頭↑表示只比零樣本GPT-3有改進。

 

 

表2: 閱讀理解和開放領域問題回答的結果。

 

 

有了“大數據”,還需“多任務”,谷歌AI大牛Quoc V. Le發現大模型零樣本學習能力的關鍵

 

 

表3: 常識推理和核心推理的結果(準確率單位為%)。

 

 

有了“大數據”,還需“多任務”,谷歌AI大牛Quoc V. Le發現大模型零樣本學習能力的關鍵

 

 

表4:WMT'14 En/Fr、WMT'16 En/De和En/Ro的翻譯結果(BLEU)。

有了“大數據”,還需“多任務”,谷歌AI大牛Quoc V. Le發現大模型零樣本學習能力的關鍵

 

 

圖5:在指令微調中增加額外的任務群,可以提高在留出任務群上的零樣本性能。

 

 

有了“大數據”,還需“多任務”,谷歌AI大牛Quoc V. Le發現大模型零樣本學習能力的關鍵

 

圖6:(A)在不同的模型規模下,指令微調時訓練過任務的性能都得到了改善。(B)指令微調對未見任務性能的影響取決于模型規模。雖然指令調整有助于大型模型對新任務的歸納,但對于小型模型來說,它實際上損害了對未見任務的泛化能力,可能是因為所有的模型能力都被用來學習指令微調任務的集合了。

 

表5:FLAN對通過指令微調獲得的連續輸入的反應比Base LM更好。

 

3

討論

本文探討了零樣本場景下一個簡單的問題:指令微調語言模型是否能提高其執行未見任務的能力?我們在FLAN上的實驗表明,指令微調提高了對未微調模型的性能,并在我們評估的大多數任務上超過了零樣本場景下的GPT-3。通過消融研究,我們了解到,未見任務的性能隨著指令調諧中使用的任務集群的數量的增加而提高,而且有趣的是,指令微調的優點只有在模型規模足夠大時才會出現。此外,FLAN似乎比未修改的基礎模型對指令微調的反應更好,顯示了指令微調的另一優點。

我們研究中的一個局限是:對任務分組時存在一定程度的主觀性(例如,情感分析可以被看作是閱讀理解的一個小子集),因為沒有公認的方法來處理兩個任務之間的相似性。因此,我們根據文獻中公認的分類方法將任務分配到群組中,當任務可能屬于多個群組時,我們采取了保守的方法(例如,在評估閱讀理解和常識推理時,將閱讀理解與常識推理排除在指令微調之外)。作為另一個限制,我們使用簡短的指令(通常是一句話)來描述熟知的NLP任務。其他任務可能需要更長或更具體的指令來充分描述,同時還要有涉及實例的解釋;我們把這些情況留給未來的研究工作。

本文顯示的結果為未來的研究提出了幾個方向。盡管FLAN在60多個數據集上進行了指令微調,但這些數據集只覆蓋了10個任務群(加上一些雜項任務),考慮到這樣一個模型可以用于所有潛在的任務,因此這個數字相對較小。有可能通過更多的指令微調任務來進一步提高性能,例如,這些任務可以以自監督的方式生成。除了收集更多的任務,探索多語言環境也很有價值,例如,我們可以提出這樣的疑問:在高資源語言的監督數據上的指令調整是否會提高低資源語言的新任務的性能?最后,有監督數據的指令微調模型也有可能被用來改善模型在偏見和公平方面的行為。

責任編輯:張燕妮 來源: 雷鋒網
相關推薦

2025-02-06 11:25:50

2021-10-25 09:06:29

模型人工智能計算

2025-02-07 10:10:05

MusicMagus擴散模型音樂編輯

2024-03-15 08:00:00

模型數據

2024-06-25 09:35:04

模型訓練

2024-11-04 15:54:16

2022-09-28 15:34:06

機器學習語音識別Pytorch

2024-09-12 08:00:00

2024-03-15 12:49:40

AI訓練

2025-09-16 12:49:11

2023-05-22 09:19:19

2024-11-06 16:00:00

AI訓練

2022-06-13 11:57:04

谷歌模型計算

2025-02-08 11:12:34

ZAPS影像模型

2023-07-12 09:00:00

自動語音識別機器學習

2025-09-29 14:02:02

DeepMind模型AI

2024-11-20 16:51:00

目標檢測模型

2024-08-28 14:20:00

數據模型

2023-02-24 10:22:15

點贊
收藏

51CTO技術棧公眾號

av在线播放网| 久久se这里有精品| 日本成人在线网站| 视频91a欧美| 色婷婷亚洲mv天堂mv在影片| 一区三区自拍| 日韩成人午夜| 五月天亚洲一区| 国产成人一区二区三区影院| 国产日韩在线观看视频| 免费看成人人体视频| 久久激情电影| 99热在线精品观看| 亚洲日韩欧美一区二区在线| 精品奇米国产一区二区三区| 伊人再见免费在线观看高清版| 欧美成人黄色网址| 精品久久久久久久免费人妻| 超碰影院在线观看| 99热这里只有精品在线播放| 韩国黄色一级大片| 国产免费av高清在线| 中文字幕日韩有码| 亚洲综合欧美在线| 成人一区二区三区视频| 国产精品一区二区av| 羞羞色国产精品网站| xx视频.9999.com| 中文在线免费二区三区| 一级片免费在线观看| 校花撩起jk露出白色内裤国产精品| 日韩av在线影院| 麻豆视频在线播放| 在线免费不卡电影| 在线碰免费视频在线观看| 中文字幕国产一区| 欧美日韩性生活片| 国产精品1024| 亚洲一区精彩视频| 日韩精品每日更新| 日韩电影免费观看在| 中文高清一区| 精品国产免费人成电影在线观...| 精品中文一区| 水蜜桃精品av一区二区| 国产精品免费av| 男人插女人下面免费视频| av中文字幕不卡| 日本在线观看a| 91免费视频网| 久久久久久久久久久久久国产精品| 国产乱对白刺激视频不卡| 老汉色影院首页| 国产成人av电影在线| 草草视频在线免费观看| 99re6这里只有精品视频在线观看| 日本a在线免费观看| 99精品久久99久久久久| 欧美黑人又粗又大又爽免费| 一色屋精品亚洲香蕉网站| 嫩模私拍啪啪| 精品久久久久久久久久久久久久 | 国产精品久久久久久亚洲影视| 一本色道久久综合亚洲精品酒店| 国产不卡在线观看| 亚洲国产一成人久久精品| 国产亚洲情侣一区二区无| 日本不卡视频一二三区| 天堂av免费看| 成人av电影在线网| 98精品视频| 国产黄视频在线| 久久噜噜噜精品国产亚洲综合| 欧美国产大片| 精品国产一区二区三区久久久| 福利在线观看| 亚洲欧美国产精品桃花| 亚洲少妇30p| 国产欧美韩日| 狠狠久久亚洲欧美| 日本美女高潮视频| 欧美三级电影在线| www.亚洲高清| 色综合伊人色综合网| 中文在线不卡| 米奇精品一区二区三区在线观看| 国产精品15p| 91久久久一线二线三线品牌| 日本aⅴ免费视频一区二区三区| 噜噜噜久久亚洲精品国产品麻豆| 亚洲综合网站在线观看| av软件在线观看| 久久久久中文字幕| 久久午夜精品| 亚洲综合婷婷久久| 欧美v日韩v国产v| 欧亚精品一区| 亚洲欧美日韩精品久久久| 亚洲欧美在线视频| eeuss鲁一区二区三区| 日韩免费观看av| 另类专区欧美蜜桃臀第一页| 国产精品影视| 亚洲人成在线观看| 亚洲女同一区| 免费 成 人 黄 色| 欧美群妇大交群的观看方式| 亚洲一二av| 亚洲成人蜜桃| 欧美日韩国产丝袜美女| 国产成人免费| 欧美动漫一区二区| 亚洲宅男天堂在线观看无病毒| 欧美xxxxxx| 久久久99国产精品免费| 日韩码欧中文字| 最新日韩精品| 久久精品99| 懂色av中文一区二区三区天美| 欧美亚洲综合视频| 欧美资源一区| 精品久久久久久亚洲国产300| av在线国产精品| 亚洲国产精品123| 色94色欧美sute亚洲线路一ni| 成人香蕉社区| www.黄色网址.com| 91精品国产综合久久福利| 欧洲激情综合| 男人艹女人在线观看| 中文字幕亚洲一区| 麻豆一区二区三| 免费av在线网站| 国产98在线|日韩| 午夜精品久久久久久久99水蜜桃| av动漫精品一区二区| 六月丁香婷婷激情| 一区二区三区亚洲| 韩国av一区二区三区四区| 国产精品久久久久久福利| 国产福利久久| 在线观看区一区二| 图片区亚洲欧美小说区| jk破处视频在线| 国产精品第七十二页| 亚洲视频香蕉人妖| 窝窝社区一区二区| 成人亚洲成人影院| 91av视频在线观看| 欧美大黑帍在线播放| 欧美在线色视频| 欧美肥老太太性生活| 99爱视频在线观看| 韩国视频理论视频久久| 国产午夜亚洲精品午夜鲁丝片 | 国模无码大尺度一区二区三区| 高h视频在线观看| 欧美精品人人做人人爱视频| 欧美妇女性影城| 国产一区二区三区久久久久久久久| av在线二区| 久久久福利视频| 欧美不卡一区二区三区| 秋霞成人午夜伦在线观看| 2001个疯子在线观看| 丰满人妻一区二区三区53号 | 在线观看的av网站| 亚洲xxxx视频| 欧美午夜电影网| 久久电影院7| 美女做暖暖视频免费在线观看全部网址91| 国产精品美女主播在线观看纯欲| 亚洲综合久久av| 女同性一区二区三区人了人一| 蜜芽在线免费观看| 9999在线观看| 最近2019中文字幕大全第二页| 久久综合久久综合久久综合| 亚洲va欧美va人人爽成人影院| 777视频在线观看| 91精品视频大全| 欧美一区三区四区| 成人午夜视频免费看| 牛牛影视一区二区三区免费看| 最新中文字幕在线观看| 国产精品视频第一区| 欧美日韩一本到| 国产一区二区三区蝌蚪| 橘梨纱av一区二区三区在线观看| 国产成人精品电影久久久| 欧美日韩一二三四五区| 欧美一站二站| 香蕉久久一区二区不卡无毒影院| 亚洲三级久久久| 欧美专区在线观看| 亚洲成a天堂v人片| 国产精品久久久久久模特| 亚洲www免费| 国产一区999| 中文字幕日韩av资源站|