国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Transformer的上下文學習能力是哪來的?

人工智能 新聞
最近,來自 Google AI、蘇黎世聯邦理工學院、Google DeepMind 研究人員的新研究嘗試為我們揭開謎底。

為什么 transformer 性能這么好?它給眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來?在人工智能領域里,transformer 已成為深度學習中的主導模型,但人們對于它卓越性能的理論基礎卻一直研究不足。

最近,來自 Google AI、蘇黎世聯邦理工學院、Google DeepMind 研究人員的新研究嘗試為我們揭開謎底。在新研究中,他們對 transformer 進行了逆向工程,尋找到了一些優化方法。論文《Uncovering mesa-optimization algorithms in Transformers》:

論文鏈接:https://arxiv.org/abs/2309.05858

作者證明,最小化通用自回歸損失會產生在 Transformer 的前向傳遞中運行的基于輔助梯度的優化算法。這種現象最近被稱為「mesa 優化(mesa-optimization)」。此外,研究人員發現所得的 mesa 優化算法表現出上下文中的小樣本學習能力,與模型規模無關。因此,新的結果對此前大語言模型中出現的小樣本學習的原理進行了補充。

研究人員認為:Transformers 的成功基于其在前向傳遞中實現 mesa 優化算法的架構偏差:(i) 定義內部學習目標,以及 (ii) 對其進行優化。

圖 1:新假設的說明:優化自回歸 Transformer fθ 的權重 θ 會產生在模型前向傳播中實現的 mesa 優化算法。作為輸入序列 s_1, . 。。, s_t 被處理到時間步 t,Transformer (i) 創建一個由輸入 - 目標關聯對組成的內部訓練集,(ii) 通過結果數據集定義內部目標函數,用于衡量內部模型的性能 使用權重 W,(iii) 優化該目標并使用學習的模型生成未來的預測圖片

該研究的貢獻包括:

  • 概括了 von Oswald 等人的理論,并展示了從理論上,Transformers 是如何通過使用基于梯度的方法優化內部構建的目標來自回歸預測序列下一個元素的。
  • 通過實驗對在簡單序列建模任務上訓練的 Transformer 進行了逆向工程,并發現強有力的證據表明它們的前向傳遞實現了兩步算法:(i) 早期自注意力層通過分組和復制標記構建內部訓練數據集,因此隱式地構建內部訓練數據集。定義內部目標函數,(ii) 更深層次優化這些目標以生成預測。
  • 與 LLM 類似,實驗表明簡單的自回歸訓練模型也可以成為上下文學習者,而即時調整對于改善 LLM 的上下文學習至關重要,也可以提高特定環境中的表現。
  • 受發現注意力層試圖隱式優化內部目標函數的啟發,作者引入了 mesa 層,這是一種新型注意力層,可以有效地解決最小二乘優化問題,而不是僅采取單個梯度步驟來實現最優。實驗證明單個 mesa 層在簡單的順序任務上優于深度線性和 softmax 自注意力 Transformer,同時提供更多的可解釋性。


  • 在初步的語言建模實驗后發現,用 mesa 層替換標準的自注意力層獲得了有希望的結果,證明了該層具有強大的上下文學習能力。

基于最近人們的工作表明,經過明確訓練來解決上下文中的小樣本任務的 transformer 可以實現梯度下降(GD)算法。在這里,作者展示了這些結果可以推廣到自回歸序列建模 —— 這是訓練 LLM 的典型方法。

首先分析在簡單線性動力學上訓練的 transformer,其中每個序列由不同的 W* 生成 - 以防止跨序列記憶。在這個簡單的設置中,作者展示了 transformer 創建 mesa 數據集,然后使用預處理的 GD 優化 mesa 目標。

圖片

該研究在聚合相鄰序列元素的 token 結構上訓練深度 transformer。有趣的是,這種簡單的預處理會產生極其稀疏的權重矩陣(只有不到 1% 的權重非零),從而產生逆向工程算法。

圖片

對于單層線性自注意力,權重對應一個 GD 步驟。對于深度 transformer,可解釋性就變得困難。該研究依靠線性探測并檢查隱藏激活是否可以預測自回歸目標或預處理輸入。

有趣的是,兩種探測方法的可預測性都會隨著網絡深度的增加而逐漸提高。這一發現表明模型中隱藏著預處理的 GD。

圖 2:對經過訓練的線性自注意力層進行逆向工程。

該研究發現,在構建中使用所有自由度時,可以完美地擬合訓練層,不僅包括學習的學習率 η,還包括一組學習的初始權重 W_0。重要的是,如圖 2 所示,學得的 one-step 算法的性能仍然遠遠優于單個 mesa 層。

我們可以注意到,在簡單的權重設置下,很容易通過基礎優化發現,該層可以最優地解決此處研究的任務。該結果證明了硬編碼歸納偏差有利于 mesa 優化的優勢。

憑借對多層案例的理論見解,先分析深度線性和 softmax 僅注意 Transformer。作者根據 4 通道結構設置輸入格式,圖片,這對應于選擇 W_0 = 0。

與單層模型一樣,作者在訓練模型的權重中看到了清晰的結構。作為第一個逆向工程分析,該研究利用這個結構并構建一個算法(RevAlg-d,其中 d 表示層數),每個層頭包含 16 個參數(而不是 3200 個)。作者發現這種壓縮但復雜的表達式可以描述經過訓練的模型。特別是,它允許以幾乎無損的方式在實際 Transformer 和 RevAlg-d 權重之間進行插值。

雖然 RevAlg-d 表達式解釋了具有少量自由參數的經過訓練的多層 Transformer,但很難將其解釋為 mesa 優化算法。因此,作者采用線性回歸探測分析(Alain & Bengio,2017;Akyürek et al.,2023)來尋找假設的 mesa 優化算法的特征。

在圖 3 所示的深度線性自注意力 Transformer 上,我們可以看到兩個探針都可以線性解碼,解碼性能隨著序列長度和網絡深度的增加而增加。因此,基礎優化發現了一種混合算法,該算法在原始 mesa-objective Lt (W) 的基礎上逐層下降,同時改進 mesa 優化問題的條件數。這導致  mesa-objective Lt (W) 快速下降。此外可以看到性能隨著深度的增加而顯著提高。

因此可以認為自回歸 mesa-objective Lt (W) 的快速下降是通過對更好的預處理數據進行逐步(跨層)mesa 優化來實現的。

圖 3:對構建的 token 輸入進行逆向工程的多層 Transformer 訓練。

這表明,如果 transformer 在構建的 token 上進行訓練,它就會通過 mesa 優化進行預測。有趣的是,當直接給出序列元素時,transformer 會自行通過對元素進行分組來構造 token,研究團隊將其稱為「創建 mesa 數據集」。

結論

該研究表明,當在標準自回歸目標下針對序列預測任務進行訓練時,Transformer 模型能夠開發基于梯度的推理算法。因此,在多任務、元學習設置下獲得的最新結果也可以轉化到傳統的自監督 LLM 訓練設置中。

此外,該研究還發現學得的自回歸推理算法可以在無需重新訓練的情況下重新調整用途,以解決有監督的上下文學習任務,從而在單個統一框架內解釋結果。

那么,這些與上下文學習(in-context learning)有什么關系呢?該研究認為:在自回歸序列任務上訓練 transformer 后,它實現了適當的 mesa 優化,因此可以進行少樣本(few-shot)上下文學習,而無需任何微調。

該研究假設 LLM 也存在 mesa 優化,從而提高了其上下文學習能力。有趣的是,該研究還觀察到,為 LLM 有效調整 prompt 也可以帶來上下文學習能力的實質性改進。


圖片

感興趣的讀者可以閱讀論文原文,了解更多研究內容。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-15 15:45:42

自然語言語言模型

2017-05-11 14:00:02

Flask請求上下文應用上下文

2024-11-04 08:45:00

2025-03-18 08:14:05

2023-03-31 13:37:34

研究

2023-07-09 15:09:18

機器學習能力

2025-12-08 02:35:00

上下文工程系統AI

2012-12-31 10:01:34

SELinuxSELinux安全

2022-09-14 13:13:51

JavaScript上下文

2023-07-11 10:02:23

2022-04-24 15:37:26

LinuxCPU

2025-10-31 01:00:00

2025-04-07 01:02:00

GoAPI語言

2024-03-14 08:11:45

模型RoPELlama

2025-05-29 02:11:00

2023-11-03 12:55:00

數據文本

2025-10-13 08:00:00

2022-09-15 08:01:14

繼承基礎設施基礎服務

2025-12-09 09:28:54

2025-05-14 15:03:45

模型訓練AI
點贊
收藏

51CTO技術棧公眾號

欧美精品久久久久| 日韩激情电影| 97秋霞电影网| 成人在线观看a| 久草成色在线| 美女网站久久| 97在线视频免费看| 成人国产精品一级毛片视频| 久久精品色欧美aⅴ一区二区| 亚洲成av人影片在线观看| 五月婷婷激情综合网| 久久久伊人欧美| 99久久婷婷国产综合精品青牛牛| 欧美精品一二三四| 欧美大片免费观看| 中文字幕黄色大片| 国产亚洲人成a在线v网站 | 91精品欧美久久久久久动漫 | 99久久亚洲一区二区三区青草| 在线观看亚洲a| 精品久久精品久久| 亚洲妇熟xxxx妇色黄| 另类天堂av| 亚洲乱码一区av黑人高潮| www.-级毛片线天内射视视| 岛国精品一区| 亚洲成人7777| 欧美精品一区二区三区在线看午夜| 裤袜国产欧美精品一区| 偷拍一区二区三区| 亚洲午夜成aⅴ人片| 91九色丨porny丨国产jk| 亚洲一区二区三区在线看| 99亚洲乱人伦aⅴ精品| zzjj国产精品一区二区| 在线一区亚洲| 久久国产三级| 五月天亚洲精品| 亚洲色图都市激情| 91蜜桃臀久久一区二区| 2019中文在线观看| 亚洲欧美激情一区| 欧美成人在线免费| 午夜在线小视频| 亚洲第一天堂av| 亚洲精品a区| 亚洲人吸女人奶水| 91在线精品视频| 一个人免费视频www在线观看| 久久精品一区二区三区不卡牛牛| 精品国产乱码久久| 亚洲摸摸操操av| 日韩少妇中文字幕| 激情久久五月| 亚州国产精品久久久| 欧美激情午夜| 精品久久久久久久久中文字幕 | 成人激情开心网| 99re热精品| 黑人一区二区| 麻豆传传媒久久久爱| 久久最新资源网| 欧美黄色www| 成人精品在线视频| 欧美在线电影| 极品尤物一区二区三区| 免费电影网站在线视频观看福利| 欧美日韩一二三区| 亚洲一区二区在线看| 九七午夜视频| 成人免费高清视频在线观看| 日韩中文字幕二区| 亚洲精品中文字幕乱码三区| 欧美在线一卡| 国产成人免费视频| 免费成人看片网址| 蜜臀av一级做a爰片久久| 艳母动漫在线观看| 亚洲一区在线观看免费 | 国产精品久久..4399| 中文字幕av网| 欧美日韩一区二区免费在线观看| 生活片a∨在线观看| 激情综合网天天干| 免费一级特黄特色毛片久久看| 韩国福利视频一区| 久久这里只有精品首页| 欧美日韩一区二区三区视频播放| 99视频在线观看一区三区| www.男人的天堂| 成人xxxxx| 欧美精品一区二区三区很污很色的 | 国产美女精品人人做人人爽| 555www成人网| 久久毛片高清国产| 最好看的2019的中文字幕视频| 国产专区精品| 亚洲欧美日韩国产综合| 日本在线一区二区| 91亚洲精品在线| 26uuu国产电影一区二区| 日本在线视频1区| 日韩美女主播在线视频一区二区三区 | 国产在线视频不卡| 成人永久免费视频| 成人在线免费电影| 国产精品一区二区欧美黑人喷潮水| 国产不卡在线一区| 色网站免费在线观看| 日韩一卡二卡三卡四卡| 丁香花高清在线观看完整版| 久久偷看各类女兵18女厕嘘嘘| 国产精品久久免费看| 久久亚洲欧美日韩精品专区 | 亚洲第一在线综合网站| 国产资源在线观看入口av| 欧美性猛交xxxx免费看久久久| 一区二区激情| 久久五月情影视| 国产精品二区一区二区aⅴ污介绍| 悠悠资源网亚洲青| 99re99热| 69堂成人精品视频免费| 国产亚洲精品美女| 亚洲欧美日韩中文播放| 精品制服美女久久| 欧美1区免费| 伊人春色精品| 欧美片第一页| 99在线播放| av网站在线观看不卡| 91久久精品国产91性色| 日韩中文字幕视频在线| 精品污污网站免费看| 日韩制服丝袜先锋影音| 91精品福利| 91tv官网精品成人亚洲| jvid一区二区三区| 北岛玲一区二区三区| 午夜视频在线观看韩国| 大香一本蕉伊线亚洲网| 国产欧美日韩伦理| 国产精品影片在线观看| 欧美一二三视频| 日韩欧美资源站| 日韩小视频在线观看专区| 亚洲一级二级在线| 欧美日韩国产精品一区二区三区四区 | 亚洲欧美制服中文字幕| 精品三级在线看| 日韩欧美大尺度| 精品久久人人做人人爱| 日韩免费高清av| 色偷偷久久人人79超碰人人澡| 亚洲一区在线看| 色婷婷国产精品| 日韩欧美一区二区三区在线| 欧美精品色综合| 欧美色倩网站大全免费| 精品国产一区二区精华| 亚洲精品一区二区在线观看| 欧美日本免费一区二区三区| 亚洲黄色在线看| 中文字幕欧美日韩| 韩剧1988在线观看免费完整版| 91精品国产91久久久| 久久青青草原| 少妇人妻互换不带套| 伊人网在线观看| 麻豆理论在线观看| 国语自产精品视频在线看抢先版结局| 欧美男女交配| 国产一区二区三区四区五区传媒| 日本精品视频| 国产一区二区三区的电影| 国产偷国产偷亚洲高清人白洁 | 蜜臀a∨国产成人精品| 国产欧美综合色| 日韩一区二区免费在线观看| 久久综合伊人77777蜜臀| 亚洲一区二区在线| 特级西西人体www高清大胆| 在线观看成人影院| yellow在线观看网址| 羞羞色国产精品网站| 日韩av在线发布| 亚洲精品国产a| 亚洲欧美在线看| 精品国产免费久久久久久尖叫 | 成本人h片动漫网站在线观看| 日本激情在线观看| 蜜臀av免费一区二区三区| 夜夜夜久久久| av中文资源在线| 香蕉久久网站| 精品久久久久久无| 精品国一区二区三区| 欧美国产日本韩| 噜噜噜久久亚洲精品国产品小说| 亚洲影视资源网|