国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

這篇論文非?;穑〔罘諸ransformer竟能消除注意力噪聲,猶如降噪耳機

人工智能 新聞
今天我們又將介紹另一種新型 Transformer 架構:Differential Transformer(差分 Transformer,簡稱 Diff Transformer)。該架構來自微軟研究院和清華大學,有四位共一作者:Tianzhu Ye、Li Dong、Yuqing Xia、Yutao Sun。

Transformer 的強大實力已經在諸多大型語言模型(LLM)上得到了證明,但該架構遠非完美,也有很多研究者致力于改進這一架構,比如機器之心曾報道過的 Reformer 和 Infini-Transformer。

今天我們又將介紹另一種新型 Transformer 架構:Differential Transformer(差分 Transformer,簡稱 Diff Transformer)。該架構來自微軟研究院和清華大學,有四位共一作者:Tianzhu Ye、Li Dong、Yuqing Xia、Yutao Sun。

圖片

  • 論文標題:Differential Transformer
  • 論文地址:https://arxiv.org/pdf/2410.05258

在 Hacker News 及 Twitter 等社交網絡上,該論文都反響熱烈,有網友表示差分 Transformer 提出的改進簡單又美麗,而帶來的提升又非常顯著。

圖片

甚至已有開發者做出了差分 Transformer 的輕量實現!

圖片

差分 Transformer 的輕量實現,https://github.com/Jaykef/ai-algorithms/blob/main/DIFF_Transformer.ipynb

那么差分 Transformer 彌補了原生 Transformer 的哪些問題呢?如下圖所示,Transformer 往往會過度關注不相關的上下文,該團隊將此稱為注意力噪聲(attention noise)。而差分 Transformer 則能放大對答案范圍的注意力并消除噪音,從而增強上下文建模的能力。這就要用到該團隊新提出的差分注意力機制(differential attention mechanism)了。

圖片

差分注意力機制可以消除注意力噪聲,鼓勵模型重點關注關鍵信息。該方法有些類似于電氣工程中的降噪耳機和差分放大器。

下面我們就來詳細了解一下差分 Transformer 的設計思路。

差分 Transformer

差分 Transformer 是一種用于序列建模的基礎模型架構。為了方便說明,他們使用了僅解碼器(decoder-only)模型作為示例來描述該架構。

該模型堆疊了 L 個 Diff Transformer 層。給定一個輸入序列 x,將輸入嵌入打包成 X^0。輸入會被進一步上下文化來獲得輸出 X^L。每一層都由兩個模塊組成:一個差分注意力模塊和之后的前向網絡模塊。

相比于 Transformer,差分 Transformer 的主要差別在于使用差分注意力替換了傳統的 softmax 注意力,同時保持整體宏觀布局不變。此外,他們也參考 LLaMA 采用了 pre-RMSNorm 和 SwiGLU 這兩項改進措施。

差分注意力

差分注意力機制的作用是將查詢、鍵和值向量映射成輸出。這里使用查詢和鍵向量來計算注意力分數,然后計算值向量的加權和。

此處的關鍵設計是使用一對 softmax 函數來消除注意力分數的噪聲。具體來說,給定輸入 X,首先將它們投射成查詢、鍵和值 Q_1、Q_2、K_1、K_2、V。然后差分注意力算子 DiffAttn (?) 通過以下方式計算輸出:

圖片

其中 W^Q、W^K 、W^V 是參數,λ 是可學習的標量。為了同步學習動態,將標量 λ 重新參數化為:

圖片

其中 λ_q1、λ_k1、λ_q2、λ_k2 是可學習的向量,λ_init ∈ (0, 1) 是用于初始化 λ 的常數。該團隊通過經驗發現,設置 λ_init = 0.8 ? 0.6 × exp (?0.3?(l ? 1)) 在實踐中效果很好,其中 l ∈ [1, L] 表示層索引。它在實驗中被用作默認策略。

他們也探索了另一種初始化策略:對所有層使用相同的 λ_init(例如 0.8)。如后面消融研究所示,使用不同的初始化策略時,性能相對穩健。

差分注意力利用兩個 softmax 注意力函數之間的差來消除注意力噪聲。這個想法類似于電氣工程中提出的差分放大器,其中兩個信號之間的差用作輸出,這樣就可以消除輸入的共模噪聲。此外,降噪耳機的設計也基于類似的想法。

  • 多頭差分注意力機制

該團隊也為差分注意力使用了多頭機制。令 h 表示注意力頭的數量。他們對各個頭使用不同的投影矩陣 W^Q_i 、W^K_i 、W^V_i ,i ∈ [1, h]。標量 λ 在同一層內的頭之間共享。然后對頭輸出執行歸一化,并投射成最終結果,如下所示:

圖片

其中 λ_init 是 (2) 式中的常數標量,W^O 是可學習的投影矩陣,LN (?) 是對每個頭使用 RMSNorm,Concat (?) 的作用是沿通道維度將頭連接在一起。這里使用一個固定乘數(1 ? λ_init)作為 LN (?) 的縮放尺度,以使梯度與 Transformer 對齊。

  • 逐頭歸一化

圖 2 使用了 GroupNorm (?) 來強調 LN (?) 獨立應用于每個 head。由于差分注意力往往具有更稀疏的模式,因此頭之間的統計信息更加多樣化。為了改進梯度的統計情況,LN (?) 算子會在連接操作之前對每個頭進行歸一化。

圖片

整體架構

其整體架構會堆疊 L 層,其中每層包含一個多頭差分注意力模塊和一個前向網絡模塊。如此,便可將差分 Transformer 層描述為:

圖片

其中 LN (?) 是 RMSNorm,SwiGLU (X) = (swish (XW^G) ⊙ XW_1) W_2,且 W^G、W_1、W_2 是可學習的矩陣。

實驗

該團隊從以下角度評估了差分 Transformer 在 LLM 中的應用,包括對比評估、應用評估和消融研究。這里我們僅關注實驗結果,更多實驗過程請訪問原論文。

語言建模評估

該團隊評估了差分 Transformer 的語言建模能力。為此,他們使用 1T token 訓練了一個 3B 大小的差分 Transformer 語言模型,并與之前的 Transformer 語言模型做了比較。

結果見表 1,其中報告的是在 LM Eval Harness 基準上的零樣本結果。

圖片

可以看到,3B 規模下,差分 Transformer 語言模型的表現優于之前的 Transformer 語言模型。此外,實驗也表明差分 Transformer 在多種任務上都勝過 Transformer,詳見原論文附錄。

與 Transformer 的可擴展性比較

該團隊也比較了新舊 Transformer 的可擴展性。結果見圖 3,其中 a 比較了模型規模方面的可擴展性,而 b 則是訓練 token 數量方面的可擴展性。

圖片

可以看到,在這兩個方面,差分 Transformer 的可擴展性均優于常規 Transformer:僅需后者 65% 左右的模型大小或訓練 token 數量就能達到相媲美的性能。

長上下文評估

當 3B 模型上下文長度增長至 64K,模型的表現又如何呢?又使用另外 1.5B token 訓練了 3B 版本的檢查點模型之后,該團隊發現隨著上下文長度的增加,累積平均負對數似然(NLL)持續下降。差分 Transformer 得到的 NLL 值低于常規 Transformer。見圖 4,這樣的結果表明,差分 Transformer 可以有效地利用不斷增加的上下文。

圖片

關鍵信息檢索

為了檢驗差分 Transformer 檢索關鍵信息的能力,該團隊執行了 Needle-In-A-Haystack(草堆找針)測試。

表 2 給出了 4K 上下文長度的情況,其中 N 是針的數量,R 是查詢引用的數量。可以看到,差分 Transformer 的多針檢索準確度高于常規 Transformer,尤其是當針數量較多時,差分 Transformer 的優勢會更加明顯。

圖片

那么當上下文長度提升至 64K 時,又會如何呢?結果見圖 5,這里使用的上下文長度在 8K 到 64K 之間,使用了 N = 8 和 R = 1 的設置。

圖片

可以看到,在不同的上下文長度下,差分 Transformer 能夠保持相對穩定的性能。而當上下文長度越來越大時,常規 Transformer 的性能會逐漸下降。

另外,表 3 展示了分配給關鍵信息檢索任務的答案范圍和噪聲上下文的注意力分數。該分數可代表模型保留有用信息、抵抗注意力噪聲的能力。

圖片

可以看到,相比于常規 Transformer,差分 Transformer 能為答案范圍分配更高的注意力分數,同時為注意力噪聲分配更低的注意力分數。

上下文學習能力評估

該團隊從兩個角度評估模型的上下文學習能力,包括多樣本分類和上下文學習的穩健性。

圖 6 展示了新舊 Transformer 模型的多樣本分類結果。結果表明,在不同的數據集和不同的演示樣本數量上,差分 Transformer 均穩定地優于 Transformer。此外,差分 Transformer 的平均準確度優勢也很明顯,從 5.2% 到 21.6% 不等。

圖片

圖 7 則展示了兩種模型的上下文學習穩健性結果。該分析基于 TREC 數據集,并且采用了兩種提示詞格式:示例隨機排列(圖 7a)和按類別交替排列(圖 7b)。

圖片

在這兩種設置下,差分 Transformer 的性能方差要小得多。結果表明,新方法在上下文學習任務中更為穩健。相比之下,Transformer 容易受到順序排列的影響,導致最佳結果與最差結果之間差距巨大。

上下文幻覺評估

該團隊基于文本摘要和問答任務評估了模型的上下文幻覺現象。結果見表 4。

圖片

可以看到,相比于常規 Transformer,差分 Transformer 在摘要和問答任務上的上下文幻覺更低。該團隊表示,原因可能是差分 Transformer 能更好地關注任務所需的基本信息,而不是無關上下文。

激活異常值分析

在 LLM 中,一部分激活值明顯大于大多數激活值的現象被稱為激活異常值(activation outliers)。異常值導致訓練和推理過程中模型量化困難。實驗表明差分 Transformer 可以降低激活異常值的幅度,從而可能實現更低的量化位寬。

表 5 展示了兩個訓練得到 Transformer 和差分 Transformer 模型的激活值統計情況。這里分析了兩種類型的激活,包括注意力 logit(即 pre-softmax 激活)和隱藏狀態(即層輸出)??梢钥吹?,盡管中位數相似,但與 Transformer 相比,差分 Transformer 的較大激活值要低得多。這表明新方法產生的激活異常值較少。

圖片

圖 8 則展示了將注意力 logit 量化到更低位的情況。這里使用的方案是:使用 absmax 量化的動態后訓練量化。其中,16 位配置表示未經量化的原始結果。模型逐步量化為 8 位、6 位和 4 位。這里報告的是在 HellaSwag 上的零樣本準確度,但該團隊也指出在其它數據集上也有類似表現。

圖片

從圖中可知,即使降低位寬,差分 Transformer 也能保持較高性能。相較之下,常規 Transformer 的準確度在 6 位和 4 位量化時會顯著下降。這一結果表明,差分 Transformer 本身就能緩解注意力分數中的激活異常值問題,從而可為低位 FlashAttention 的實現提供新機會。

最后,該團隊也進行了消融實驗,證明了各個新設計的有效性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-04 08:45:00

2024-12-17 14:39:16

2025-04-29 09:05:00

2024-02-19 00:12:00

模型數據

2024-10-31 10:00:39

注意力機制核心組件

2022-02-08 15:43:08

AITransforme模型

2023-07-30 15:42:45

圖神經網絡PyTorch

2024-12-04 15:55:21

2024-12-04 09:25:00

2024-09-19 10:07:41

2024-07-01 12:17:54

2023-11-24 12:36:00

模型訓練

2018-08-26 22:25:36

自注意力機制神經網絡算法

2025-02-19 15:30:00

模型訓練數據

2025-02-25 09:40:00

模型數據AI

2023-07-29 13:26:51

模型AI

2023-06-12 09:57:22

AIChatGPT

2025-07-08 09:00:00

2023-12-11 14:21:00

模型訓練

2025-02-19 15:47:48

點贊
收藏

51CTO技術棧公眾號

91在线精品播放| 亚洲激情视频网站| 91社在线播放| 蜜桃视频一区| 8090成年在线看片午夜| 日韩经典一区| 亚洲国产精品免费| 精精国产xxxx视频在线野外| 欧美丝袜一区二区三区| 免费观看的av网站| 亚洲欧洲一区二区在线播放| 能在线观看的av| 成人av在线网站| 免费在线a视频| 中文字幕一区二区三区蜜月| 思热99re视热频这里只精品| 色七七影院综合| 国产电影一区二区| 91精品久久久久久久久久| 亚洲性69xxxbbb| 国产精品亚洲午夜一区二区三区| 98精品国产自产在线观看| 欧产日产国产精品视频| 亚洲va国产天堂va久久en| 亚洲国产高清在线观看视频| 男人天堂手机在线视频| 国产乱对白刺激视频不卡| 精品一区二区不卡| 日韩精品不卡一区二区| 国产精品免费网站| 国产中文字幕一区二区三区 | 黄色一级视频播放| 麻豆精品一区二区综合av| 欧洲精品久久| 免费看日韩精品| 国产在线拍揄自揄拍无码| 国产一区欧美二区| 椎名由奈jux491在线播放| 国产在线精品一区二区三区不卡| 亚洲欧洲一二三| 国产99久久久国产精品| 国产又黄又猛又粗又爽的视频| 国产欧美一区二区精品秋霞影院 | 国产二级片在线| 一本大道av伊人久久综合| 波多野结衣在线观看| 有码中文亚洲精品| 日韩伦理视频| 91制片厂免费观看| 亚洲色图欧美激情| 在线免费观看黄色av| 亚洲天堂网站在线观看视频| 日本欧美高清| 久久综合伊人77777麻豆| 99国产精品国产精品久久| 免费在线一级视频| 久久99久久99精品中文字幕| 国产精品草草| proumb性欧美在线观看| 欧美日韩视频不卡| 六月婷婷综合| 亚洲欧美视频二区| 欧美日韩综合视频| 日韩人妻一区二区三区蜜桃视频| av在线一区二区三区| 男人天堂av网站| 精品奇米国产一区二区三区| 超碰97久久| 亚洲国产精品综合| 99这里有精品| 日韩精品久久一区二区| 亚瑟在线精品视频| 4438全国亚洲精品观看视频| 欧美综合77777色婷婷| 亚洲精品一二三四区| 欧美亚洲综合视频| 日韩三级电影| 欧美视频一区在线| 欧美成人一区二免费视频软件| 免费看的黄色大片| 精品欧美久久久| 蜜桃av一区二区| 国产黄大片在线观看画质优化| 欧美精品999| 快she精品国产999| 亚洲综合图区| 亚洲aa在线观看| 亚洲精品免费一二三区| 97成人在线| va中文字幕| 亚洲人午夜精品免费| 视频一区二区国产| 国产欧美一区二区三区精品酒店| 91在线观看免费高清| 欧美日本国产视频| 六月丁香综合| 超碰公开在线| 97在线免费视频观看| 深夜福利日韩在线看| 成人欧美一区二区三区视频网页 | 午夜免费看视频| 亚洲精品综合久久中文字幕| 理论片日本一区| 日本高清中文字幕在线| 精品视频第一区| 亚洲免费福利视频| 国产精品嫩草99a| 欧美99久久| 天堂中文在线8| 色播亚洲婷婷| 亚洲国内精品在线| 国产精品二三区| 午夜综合激情| www.一区| 国产系列电影在线播放网址| 日本一道在线观看| 国产乱肥老妇国产一区二| 成人午夜在线视频一区| 亚洲免费色视频| 欧美一站二站| 老司机在线看片网av| 亚洲一区3d动漫同人无遮挡| 午夜精品福利在线观看| 国产香蕉97碰碰久久人人| 国产肉丝袜一区二区| 新呦u视频一区二区| 国产在线播放精品| 成人免费在线网| 国产精品久久久久一区二区三区 | 国产日本欧美一区二区三区在线| 国产天堂在线播放视频| 久久久久久久久久久视频| 国产精品美女久久久久av福利| 久久精品国产一区| 日韩av在线导航| 在线观看日韩av电影| 久久亚洲综合网| 久久久久久国产精品| 日韩亚洲欧美中文三级| 狠狠做深爱婷婷久久综合一区| 91啪九色porn原创视频在线观看| 国产美女高潮在线| 国模私拍一区二区三区| 中文字幕亚洲欧美日韩高清| 日韩一区二区在线看片| 欧美性猛交xxxx富婆弯腰| 亚洲午夜精品网| 好吊妞这里只有精品| www.99.热| 免费一级电影| 在线观看av每日更新免费| 中文字幕视频在线| 日本护士...精品国| 九色在线观看视频| 亚洲s色大片| se69色成人网wwwsex| 久久av国产紧身裤| 久久久国产91| 日韩欧美激情在线| 亚洲精品99久久久久| 亚洲精品国产精品国自产在线 | 免费观看黄色的网站| 久久久久久久久影视| 午夜久久久久久久久久久| 国产免费xxx| 一级片视频免费观看| 男女污视频在线观看| 青青在线视频| 日韩视频1区| 99精品网站| 国产成人在线看| 一区二区三区在线视频免费观看| 欧美午夜精品久久久久久浪潮| 精品亚洲va在线va天堂资源站| 91国内产香蕉| 国产精品视频入口| 日韩免费一级视频| 国产在线一二| 日韩成人精品一区二区三区| 午夜性色一区二区三区免费视频 | 日韩国产一区二区三区| 国产一区二区三区美女| 色偷偷av一区二区三区| 国产成人久久婷婷精品流白浆| 极品束缚调教一区二区网站| 在线观看日韩高清av| 人妻无码一区二区三区四区| 久久91麻豆精品一区| 精品区一区二区| 成人黄色免费| 美腿丝袜在线亚洲一区| 国产精品美乳在线观看| 欧美日韩五码| 欧美一a一片一级一片| 欧美一级黄色影院| 这里只有精品在线| 欧美一级视频一区二区| 成人高清在线观看| caoporn超碰97| 老司机精品视频一区二区三区|