国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

清華微軟最新力作:用物理學革新Transformer注意力,「大海撈針」精度暴漲30%!

人工智能 新聞
隨著諾貝爾物理學獎頒給了「機器學習之父」Geoffrey Hinton,另一個借鑒物理學概念的模型架構也橫空出世——微軟清華團隊的最新架構Differential Transformer,從注意力模塊入手,實現了Transformer的核心能力提升。

隨著近些年來NLP領域研究的不斷深入,我們逐漸發現,Transformer架構中出現的幻覺問題,以及各種下游任務中的性能不足,都或多或少與注意力缺陷有關。

雖然上下文窗口可以擴展,但是Transformer還是無法真正關注到有價值的信息。

最近,微軟研究院和清華大學的研究人員共同提出了一種新的模型架構——Differential Transformer,不僅保留了原始Transformer中的可擴展性,也能讓模型更加關注上下文中與任務相關的關鍵信息。

實驗表明,注意力機制的改進,不僅顯著提升了檢索精度,還能緩解LLM的幻覺。

圖片

論文地址:https://arxiv.org/abs/2410.05258

Transformer的困境

眾所周知,Transformer的核心是注意力機制,采用softmax函數來衡量序列中各種標記的重要性。然而,最近的研究表明,LLM難以從上下文中準確到檢索關鍵信息。

比如去年斯坦福Percy Liang團隊的一篇論文就指出,雖然語言模型能夠接受較長的上下文作為輸入,但并不能穩健地利用長輸入上下文中的信息。

圖片

論文地址:https://arxiv.org/abs/2307.03172

比如,實驗中發現,僅僅改變關鍵信息在文檔中的出現位置,就可以造成GPT-3.5 Turbo檢索性能的大范圍波動。

圖片

此外,本篇論文的實驗結果證明,Transformer經常過度關注不相關的上下文,本文將其稱之為「注意力噪聲」。

如圖1(左)所示,模型分配給正確答案的注意力分數很低,同時不成比例地關注不相關的上下文,這意味著信噪比很低,最終淹沒了正確答案。

圖片

由此看來,我們對于LLM檢索、利用長上下文的過程,知之甚少,其注意力過程也需要更多的改進。

本文所提出的Differential Transformer(DIFF Transformer)正是希望用「差分注意力」(differential attention)機制消除注意力噪聲,促使模型關注上下文中的關鍵信息。

圖1的對比結果可以看出,DIFF Transformer給出的注意力分數的分布明顯不同于傳統Transformer架構,給予關鍵信息更高的注意力分數,進而顯著提升了檢索能力。

這種能力的提升,對于有效利用LLM的長上下文窗口、緩解幻覺、關鍵信息檢索等方面都有重要的意義。

模型架構

DIFF Transformer也可以用于純Encoder或Encoder-Decoder模型,但本篇論文以純Decoder模型為例進行描述。

整個模型由L個DIFF Transformer層堆疊而成,每層由一個差分注意力模塊和前饋網絡模塊連接形成。

宏觀布局類似于傳統Transformer架構,但主要區別在于修改了注意力的softmax過程,并且采用了pre-RMSNorm、SwiGLU等改進。

圖片

差分注意力

該模塊的結構示意圖和偽代碼如圖2所示,具體的代碼實現可參考項目GitHub。

圖片

代碼地址:https://github.com/microsoft/unilm/tree/master/Diff-Transformer

除了傳統注意力中的權重矩陣W^Q、W^K、W^V ∈ ?^{d_model×2?d},模塊中還加入了可學習標量λ。

具體來說,給定輸入序列X ∈ ?^{N×d_model},首先將其投影為Q、K、V矩陣Q_1,Q_2,K_1,K_2 ∈ ?^{N×d} , V ∈ ?^{N×2?d},然后是差分注意力算子DiffAttn(·)通過公式(1)計算輸出:

λ被初始化為常量λ_{init} ∈ (0,1),并依照公式(2)與其他權重參數同步更新:

圖片

其中,λ_???? , λ_???? , λ_???? , λ_???? ∈ ?^d也都是是可學習向量。

之所以命名為「差分注意力」,是指兩個softmax函數間的差異可以消除注意力噪音。

這個想法類似于電氣工程中提出的差分放大器(differential amplifiler),將兩個信號之間的差異作為輸出,從而消除輸入中的共模噪聲;降噪耳機的設計也是基于類似的思路。

DIFF Transformer中也可以使用多頭注意力機制,在同一層的多個head間共享參數λ,將每個head的輸出進行歸一化處理后再拼接、投影,就得到了最終輸出,如公式(3)所示。

圖片

公式(3)中的LN(·)是指對每個頭使用RMSNorm,但如圖2(左)所示,也可以使用GroupNorm。

加上前饋網絡模塊,每個DIFF Transformer層就可以描述為:

圖片

實驗

下游任務

首先,研究人員在1T token上訓練3B大小的DIFF Transformer模型,并在各種下游任務上與之前有競爭力的Transformer架構模型進行比較,結果如表1所示。

基線模型大小都為3B,其中,StableLM-3B-4E1T的1T結果取自技術報告,而OpenLLaMA-v2-3B和StableLM-base-alpha-3B-v2同樣使用1T數據訓練,表中分數為Eval Harness基準測試上的零樣本準確率。

結果顯示,,與之前經過精心調優的Transformer語言模型相比,DIFF Transformer取得了良好的性能。

圖片

尤其是對于長上下文任務,如圖4所示,隨著上下文長度不斷增加,累計平均的負對數似然值(NLL)持續降低,說明Diff Transformer可以更有效地利用不斷增加的上下文。

圖片

關鍵信息檢索

「大海撈針」(Needle-In-A-Haystack)測試被廣泛用于評估LLM提取長上下文中的關鍵信息的能力。

本文的實驗遵循LWM和Gemini 1.5的「多針」評估方案,在不同長度的上下文中,N根針被插入不同的深度。每根「針」都由一個簡潔的句子組成,為特定城市分配一個獨特的魔法數字。

答案針被放置在上下文中的5個不同深度:0%、25%、50%、75%和100%,同時隨機放置其他分散注意力的針。待測LLM的目標,就是是檢索與查詢城市相對應的數字。

4k上下文檢索的可結果如表2所示。雖然兩種模型在N=1或N=2時都取得了良好的準確率,但隨著N的增加,DIFF Transformer的性能保持相對一致,Transformer則顯著下降。

圖片

4K長度的平均檢索精度,N代表針數,R表示查詢城市的數量

將上下文長度擴展至64k時,差距就更加明顯,尤其是關鍵信息位于前半部分時(即0%、25% 和 50%深度)。

特別是,將針放置在25%深度時,DIFF Transformer相對于傳統Transformer實現了76%的精度提升。

圖片

除了檢索精度,表3進一步分析了兩種模型為上下文分配的注意力分數。可以看出, DIFF Transformer的確將更多的注意力分配給了有用的信息,并有效地消除注意力噪聲。

圖片

值得注意的是,DIFF Transformer在提升檢索精度的同時也緩解了幻覺現象。

實驗包含模型在總結(圖4a)和問答(圖4b)兩種任務上的幻覺評估。可以發現,與Transformer相比,DIFF Transformer的上下文幻覺明顯減輕。

這種性能的提高可能源于,改進后的注意力模塊能更好第關注任務所需信息,而非不相關的上下文。

這與之前研究中的觀察結果一致,即Transformer出現上下文幻覺的一個主要原因是注意力分數的錯誤分配。

圖片

對文本摘要和問題回答的幻覺評估。準確度越高表示幻覺越少;評估時采用GPT-4o進行自動化的二元判斷

縮放特性

除了下游任務性能,論文還進行了縮放特性的對比。

擴展模型規模

如圖3a所示,分別使用830M、1.4B、2.8B、6.8B和13.1B參數訓練語言模型,發現DIFF Transformer依舊遵循Scaling Law。

根據擬合曲線,68億參數規模的DIFF Transformer達到了與110億參數規模Transformer相當的驗證損失,但僅需62.2%的參數。

同樣,78億參數的DIFF Transformer匹配了131億參數的Transformer的性能,參數量是后者的59.5%。

擴展訓練Token

如圖3b所示,訓練數據的縮放也遵循類似規律,且擬合曲線表明,使用160B token訓練的DIFF Transformer達到了與使用251B token訓練的Transformer相當的性能,但僅消耗了63.7%的訓練數據。

圖片

此外,在HellaSwag上的測試結果還可以發現,Diff Transformer對量化和位寬的穩健性顯著高于Transformer。

圖片

作者介紹

本文的4位共同一作都來自微軟研究院,其中兩位是清華大學學生。

Tianzhu Ye

Tianzhu Ye本科畢業于清華大學自動化系,今年剛剛進入本系就讀博士一年級,目前是微軟自然語言計算部門實習生。

Li Dong(董力)

圖片

Li Dong從2018年起擔任MSRA自然語言計算組的首席研究員。

他2012年畢業于北京航空航天大學,獲得了計算機科學與工程方向的學士和碩士學位,之后前往愛丁堡大學攻讀信息學博士,曾在微軟Redmond研究院自然語言處理組實習。

Yuqing Xia(夏雨晴)

圖片

Yuqing Xia是微軟亞洲研究院(MSRA)系統與網絡研究組的研究員,此前于2019年在北京大學獲得了生物學博士學位

她的研究方向是利用現代硬件技術為計算密集型任務(如機器學習和深度學習)構建大規模計算系統。

此外,她還對如何運用人工智能來推動自然科學(尤其是生物學)的研究進展抱有濃厚興趣。

Yutao Sun(孫宇濤)

圖片

Yutao Sun是清華大學的一年級博士生,導師是王建勇。同時,他也在微軟亞洲研究院實習,由董力指導。

他的研究興趣是大語言模型的骨干網絡、長序列的建模和推理,以及大語言模型在其他領域的應用。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-01-11 09:37:37

搜索引擎排序

2024-11-04 08:45:00

2024-04-22 12:57:47

2009-04-29 11:45:31

Java面試主考官

2023-08-21 10:47:06

人工智能物理學領域

2016-07-18 10:48:16

華為

2024-04-02 09:23:04

測試開源

2022-11-10 16:08:13

程序員代碼

2021-07-12 14:20:09

SQL數據庫異常檢測

2024-05-11 13:41:39

AI數據

2024-11-11 08:00:00

2024-11-19 09:30:00

2023-08-22 09:55:34

人工智能物理學

2025-07-17 10:47:33

2025-10-22 08:52:23

2023-07-29 13:26:51

模型AI

2024-10-28 16:05:12

點贊
收藏

51CTO技術棧公眾號

中文视频在线| 视频在线99re| 日韩精品黄色网| 色婷婷综合久久久久中文一区二区 | 亚洲iv一区二区三区| 色婷婷综合久久久中字幕精品久久| 1区2区3区在线| 亚洲国产精彩中文乱码av在线播放| 色偷偷av亚洲男人的天堂| av午夜在线| 风间由美性色一区二区三区| 日韩欧美a级成人黄色| 蜜桃专区在线| 亚洲成人午夜电影| 国产欧美婷婷中文| 亚洲澳门在线| av有声小说一区二区三区| a视频免费看| 久久国内精品自在自线400部| 久久人妻精品白浆国产| 91社在线播放| 欧美激情一二三区| 黄色av电影在线观看| 日本乱码一区二区三区不卡| 一区二区三区在线观看国产| 在线视频日本亚洲性| 久草.com| 国产亚洲欧洲997久久综合| 国产日韩中文字幕| 另类中文字幕国产精品| 337p亚洲精品色噜噜狠狠| 成人黄色免费电影| 亚洲高清自拍| 久久精品国产一区二区电影| 小明成人免费视频一区| 在线观看www91| 中文字幕高清在线观看| 在线亚洲一区二区| 水莓100在线视频| 欧美mv日韩mv亚洲| 国产精品99精品一区二区三区∴| 亚洲欧美日本精品| 亚洲精品一区在线| 欧美精品情趣视频| 亚洲欧洲av| 亚洲综合中文字幕在线| a91a精品视频在线观看| 日本黄xxxxxxxxx100| 中文字幕精品三区| 免费av在线电影| 欧美日韩日日骚| gay欧美网站| 国产精品1区2区在线观看| 不卡一区综合视频| 91黄色精品| 99国内精品久久| 99热在线网站| 亚洲欧美国产日韩中文字幕 | 日韩dvd碟片| av一区观看| 韩国成人精品a∨在线观看| 奇米777四色影视在线看| 激情综合网天天干| 欧美二区乱c黑人| 午夜免费高清视频| 91精品国产高清一区二区三区 | 九九国产精品视频| 国产深夜男女无套内射| 亚洲一线二线三线视频| 日本电影在线观看| 色综合男人天堂| 国产欧美综合一区二区三区| 国产裸体舞一区二区三区| 91成人在线免费观看| 日韩三区在线| 国产精品一区而去| 99re这里都是精品| 国产一线二线在线观看| 国产精品精品视频一区二区三区| 日韩国产欧美视频| 日韩福利一区二区| 国内自拍欧美激情| 久久午夜精品| 26uuu亚洲电影在线观看| 51精品在线观看| 亚洲黄色成人| 国产天堂av| 在线播放日韩欧美| 国产精品1区2区3区在线观看| 在线观看av的网站| 精品视频一区在线| 欧美群妇大交群中文字幕| 精品久久91| 韩国中文字幕2020精品| 国产欧美亚洲精品| 91麻豆精品| 天天干天天干天天干天天干天天干| 久久国产精品电影| 中文字幕一区二区不卡| 老牛影视av一区二区在线观看| 成人免费视频91| 亚洲天堂av网| 成人aaaa免费全部观看| 国产日韩欧美中文在线| ·天天天天操| 国产欧美日韩综合一区在线观看 | 无码免费一区二区三区免费播放| 91精品婷婷国产综合久久竹菊| 91超碰成人| videoxxxx另类日本极品| 国产麻豆精品久久| 日韩精品一区二区三区色偷偷| 日本不卡视频一二三区| 欧美美女在线| 日色在线视频| 欧美色图麻豆| 国产91精品最新在线播放| 成人在线免费| siro系绝美精品系列| 品久久久久久久久久96高清| 欧美在线观看视频在线| 麻豆视频一区二区| 亚洲综合色婷婷在线观看| 精品亚洲一区二区三区四区| 99久久一区三区四区免费| 亚洲国产精品一区二区久久恐怖片| 青青草伊人久久| 国产精成人品2018| 国产精品㊣新片速递bt| 午夜精品视频在线观看一区二区| 久久国产精品免费视频| 欧美精品一区二区三区四区| 激情五月婷婷综合网| 99国产精品| 天天av综合| 国产一区三区在线播放| 国产精品99久久免费观看| 国产区精品在线观看| 99麻豆久久久国产精品免费| 在线看片你懂得| 欧美日韩大片一区二区三区| 精品99999| 亚洲高清视频的网址| 久久欧美肥婆一二区| 欧洲激情综合| 欧美猛男男男激情videos| 亚洲福利影视| 国产精品麻豆成人av电影艾秋| 成年男女免费视频网站不卡| 午夜不卡视频| 在线免费观看高清视频色| 国产亚洲天堂网| 水蜜桃一区二区| 欧美一区二区在线视频观看| 九九九热999| 91入口在线观看| 精品视频在线观看| 麻豆精品视频| 日韩中文字幕亚洲精品欧美| 日韩精品一区二区三区外面| 黄网站色欧美视频| 欧美性大战xxxxx久久久| 亚洲一级片在线观看| 91性感美女视频| 国产盗摄一区二区三区| 国产乱子轮精品视频| 韩国精品一区二区| 国产亚洲1区2区3区| 亚洲男人天堂av网| 日韩久久一区二区| 午夜激情一区二区| 日韩午夜激情电影| 欧美国产精品日韩| 99热这里只有精品免费| av中文字幕av| 国产成人一区二区在线| 亚洲视频精选在线| 精品国产一区二区三区av片| 国产精品久久久久久久久免费高清 | 亚洲精品国产美女| 天天射综合网站| 亚洲成人黄色在线观看| 中文字幕一区二区日韩精品绯色| 欧美日韩福利| 黑丝一区二区| 99热99re6国产在线播放| 中文官网资源新版中文第二页在线观看| 色佬视频在线观看| 一级片免费视频| 韩国中文免费在线视频| 在线观看麻豆蜜桃| 中文在线最新版地址| 亚洲草久电影| 久久精品国产亚洲一区二区三区| 一区在线播放视频| 国产精品欧美久久久久无广告| 欧美成人a视频| 在线观看久久av| 欧美激情亚洲一区| av一区二区三区免费|