国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

FDA對(duì)偶錨點(diǎn):模型知識(shí)遷移的新視角——從參數(shù)空間到輸入空間

人工智能 新聞
研究者們提出了 FDA(Model Merging with Functional Dual Anchors)——一個(gè)全新的模型融合框架。

該項(xiàng)工作的作者分別是來(lái)自香港中文大學(xué)的博士生施柯煊,來(lái)自西湖大學(xué)的助理教授溫研東,來(lái)自香港中文大學(xué)的計(jì)算機(jī)系助理教授劉威楊。

當(dāng)前,基于通用基礎(chǔ)模型進(jìn)行任務(wù)特定微調(diào)已成為主流范式。這種范式雖然能夠在各個(gè)特定任務(wù)上獲得高性能的專(zhuān)家模型,但也帶來(lái)新的挑戰(zhàn):如何將這些特定微調(diào)得到的專(zhuān)家模型的能力有效整合到單一模型中并且無(wú)需訪問(wèn)原始訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)多任務(wù)協(xié)通,同時(shí)最小化性能損失?

針對(duì)這一問(wèn)題,研究者們提出了 FDA(Model Merging with Functional Dual Anchors)——一個(gè)全新的模型融合框架。與傳統(tǒng)的參數(shù)空間操作不同,F(xiàn)DA 將專(zhuān)家模型的參數(shù)知識(shí)投射到輸入-表征空間中的合成錨點(diǎn),通過(guò)功能對(duì)偶的方式實(shí)現(xiàn)更高效的知識(shí)整合。

  • Title:Model Merging with Functional Dual Anchors
  • Arxiv:https://arxiv.org/pdf/2510.21223 
  • Project page:https://spherelab.ai/fda/ 

FDA 的關(guān)鍵思想是:將參數(shù)中所蘊(yùn)藏的任務(wù)知識(shí),用輸入空間的一組對(duì)偶的合成輸入點(diǎn)(Dual Anchors)來(lái)表示;使用合成輸入點(diǎn)所誘導(dǎo)的聯(lián)合梯度,更新模型,以整合多任務(wù)知識(shí)。

具體來(lái)說(shuō),任務(wù)知識(shí)在參數(shù)空間上可以體現(xiàn)為模型最終的參數(shù)與初始參數(shù)的差異向量(任務(wù)向量,Task Vector)。FDA 為每一個(gè)專(zhuān)家模型,構(gòu)造一組 Dual Anchors,使其能夠在初始參數(shù)處誘導(dǎo)出與任務(wù)向量近似的梯度方向。相似的梯度方向,可以讓 FDA 近似地模擬任務(wù)知識(shí)對(duì)預(yù)訓(xùn)練模型的函數(shù)偏移。

相比于任務(wù)向量將任務(wù)知識(shí)編碼在參數(shù)空間,F(xiàn)DA 則通過(guò)誘導(dǎo)相似梯度在輸入空間編碼對(duì)應(yīng)的任務(wù)知識(shí)。因此,F(xiàn)DA 相對(duì)于任務(wù)向量而言,是一組在函數(shù)功能上對(duì)偶的輸入點(diǎn)。

FDA 將知識(shí)的整合過(guò)程,從參數(shù)空間遷移至輸入空間。相比于先前的基于任務(wù)向量算術(shù)操作的框架,F(xiàn)DA 為當(dāng)下的 Model Merging 問(wèn)題提供了一種新的視角。為了兼顧性能與實(shí)用性,研究者還開(kāi)發(fā)了基于分層策略的算法來(lái)部署 FDA 框架,使其可以擴(kuò)展至超大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明,該方法在視覺(jué)、自然語(yǔ)言模型上表現(xiàn)出卓越的性能和可擴(kuò)展性。

圖 1:FDA 框架的示意圖。

FDA 框架的直覺(jué)理解與動(dòng)機(jī)

當(dāng)前的主流 Model Merging 方法,本質(zhì)是基于任務(wù)向量的算術(shù)操作,即對(duì)不同的任務(wù)向量進(jìn)行線性組合,然后加至預(yù)訓(xùn)練參數(shù),以獲得一個(gè)多任務(wù)模型。因此,任務(wù)向量的算術(shù)操作,只能產(chǎn)生固定的合并路徑;然而,F(xiàn)DA 方法則提供了一個(gè)可以根據(jù)融合過(guò)程中的損失函數(shù)景觀誘導(dǎo)新合并路徑的機(jī)會(huì)。研究者們將獲得的 FDA 視作微調(diào)數(shù)據(jù),逐步優(yōu)化預(yù)訓(xùn)練模型的參數(shù)。

如下圖所示,使用 FDA 進(jìn)行優(yōu)化時(shí),模型會(huì)逐步靠近在八個(gè)下游數(shù)據(jù)集上計(jì)算得到的損失函數(shù)局部最小值(local minima)區(qū)域。相比之下,任務(wù)向量(task vectors)雖然能夠在一定程度上提供來(lái)自預(yù)訓(xùn)練模型的優(yōu)化方向,但它們往往會(huì)迅速偏離原本的損失盆地;而 FDA 則能夠持續(xù)地引導(dǎo)優(yōu)化過(guò)程朝向更有利的區(qū)域。FDA 的這一優(yōu)勢(shì)類(lèi)比于聯(lián)合多任務(wù)訓(xùn)練的靈活性。

FDA 的另一項(xiàng)核心動(dòng)機(jī)在于:對(duì)輸入空間進(jìn)行建模通常比對(duì)參數(shù)空間建模更容易,因?yàn)檩斎肟臻g往往具有更強(qiáng)的結(jié)構(gòu)性(structured)。在知識(shí)遷移(knowledge transfer)的研究中,基于輸入空間建模的有效性已被廣泛探討并通過(guò)大量實(shí)證驗(yàn)證。例如,在數(shù)據(jù)集蒸餾 [1, 2, 5, 6]、迭代式教學(xué) [3, 4] 以及持續(xù)學(xué)習(xí) [7, 8] 等領(lǐng)域的研究中,都充分展示了輸入空間建模在促進(jìn)知識(shí)高效遷移與壓縮方面的強(qiáng)大潛力。

FDA 提供更靈活和魯棒的融合路徑

為驗(yàn)證 FDA 的有效性,研究者們將 FDA 用于對(duì)多種不同尺寸的預(yù)訓(xùn)練模型(80M、125M、400M、13B)進(jìn)行適配,并將其多任務(wù)性能與對(duì)應(yīng)的對(duì)偶框架(即任務(wù)向量方法,Task Vectors, TA)進(jìn)行比較。為進(jìn)一步驗(yàn)證其魯棒性,研究者們?cè)趯?shí)驗(yàn)中將預(yù)訓(xùn)練模型初始化為通過(guò)無(wú)數(shù)據(jù)(data-free)任務(wù)向量方法融合得到的參數(shù)。研究者們共考慮了三種無(wú)數(shù)據(jù)融合方法:TA [9]、TSVM [10] 和 WUDI [11]。其中,TA 是經(jīng)典方法,而 TSVM 與 WUDI 則代表當(dāng)前的 SOTA 方法。部分實(shí)驗(yàn)結(jié)果如上表所示,更多結(jié)果可參考論文正文。

圖 2:FDA 的部分實(shí)驗(yàn)的結(jié)果。

從結(jié)果中,研究者們得到兩個(gè)關(guān)鍵觀察結(jié)論:

觀察 1:FDA 能夠更有效利用模型編碼的知識(shí),實(shí)現(xiàn)高效的多任務(wù)模型融合:

與對(duì)偶框架 TA 相比,F(xiàn)DA 帶來(lái)了顯著的性能提升。使用 FDA 適配后的預(yù)訓(xùn)練模型在多任務(wù)場(chǎng)景下的平均性能達(dá)到 87.26,而 TA 方法僅為 73.94,提升幅度接近 18%;與此同時(shí),平均 GLUE 分?jǐn)?shù)也提升了 15.4%。

觀察 2:FDA 具備靈活的知識(shí)建模能力:盡管 FDA 與其他無(wú)數(shù)據(jù)、以參數(shù)為中心的方法(如 TA、TSVM、WUDI)使用了相同的任務(wù)特定知識(shí),F(xiàn)DA 仍能在此基礎(chǔ)上進(jìn)一步提升融合模型的性能。在 ViT-B/16 上,F(xiàn)DA 的平均提升約為 5.10%,而在 RoBERTa-Large 上則達(dá)到約 13%,展示出其在不同架構(gòu)下的通用性與強(qiáng)大適配能力。

FDA 算法實(shí)現(xiàn)

FDA 的實(shí)際算法流程主要包括兩個(gè)階段:FDA 的構(gòu)建(Construction)和基于 FDA 的參數(shù)更新(Adaptation)。

階段一:針對(duì)每一個(gè)下游任務(wù)的微調(diào)模型(checkpoint)構(gòu)建其對(duì)應(yīng)的 FDA。具體來(lái)說(shuō),給定預(yù)訓(xùn)練模型以及對(duì)應(yīng)的微調(diào)模型 ,研究者們通過(guò)求解以下優(yōu)化問(wèn)題構(gòu)造 FDA 的樣本集合 

其中,表示梯度方向的余弦距離;為矩陣的向量化操作; 為可微分的表示差異度量函數(shù)。該優(yōu)化問(wèn)題采用基于梯度的迭代優(yōu)化方法求解。由于梯度優(yōu)化過(guò)程對(duì)初始化敏感,研究者們分析了線性編碼器(linear encoder)下 Dual Anchors 的優(yōu)化動(dòng)態(tài),并提出以下原則:

有效的初始化策略應(yīng)當(dāng)將初始點(diǎn)的能量限制在由任務(wù)向量(task vector)所張成的尾部子空間(tail subspace)。

研究者們進(jìn)而導(dǎo)出兩種實(shí)用的初始化方案:線性權(quán)重采樣(Linear weight sampling)和縮放高斯采樣(Scaled Gaussian sampling),來(lái)進(jìn)行初始化。

階段二:該階段利用階段 1 構(gòu)造得到的 FDA 對(duì)參數(shù)進(jìn)行更新。具體來(lái)說(shuō),是階段一的對(duì)偶過(guò)程。當(dāng)初始參數(shù)本身為預(yù)訓(xùn)練參數(shù)時(shí),研究者們直接用 FDA 對(duì)參數(shù)進(jìn)行更新:

當(dāng)初始參數(shù)初始化為基于任務(wù)向量方法的融合參數(shù)時(shí),目標(biāo)轉(zhuǎn)變?yōu)閷?duì)任務(wù)向量的調(diào)節(jié):

研究者們將具體的算法流程整理成如下偽代碼:

圖 3:FDA 具體算法的偽代碼。

FDA 所編碼的任務(wù)知識(shí)

得益于 FDA 優(yōu)越的性能,研究者們進(jìn)一步探索 FDA 中編碼知識(shí)的過(guò)程。研究者們通過(guò)系統(tǒng)的實(shí)證分析來(lái)揭示 FDA 背后潛在的機(jī)制:

觀察一:在優(yōu)化過(guò)程中,F(xiàn)DA 傾向于長(zhǎng)尾結(jié)構(gòu)。研究者們對(duì) FDA 矩陣進(jìn)行奇異值分解發(fā)現(xiàn)(圖 4):無(wú)論采用何種初始化方式,在構(gòu)建過(guò)程中歸一化后的尾部奇異值均快速衰減。這表明:

  • FDA 有效捕捉了任務(wù)相關(guān)的主導(dǎo)表示方向;
  • 自動(dòng)抑制了冗余或噪聲成分;
  • 與任務(wù)特定知識(shí)在參數(shù)空間通常表現(xiàn)為低秩結(jié)構(gòu)的觀察一致。

圖 4:FDA 的 SVD 譜。

觀察二:在優(yōu)化過(guò)程中,F(xiàn)DA 的高能量子空間逐漸與真實(shí)數(shù)據(jù)的高能量子空間對(duì)齊。鑒于 FDA 具有長(zhǎng)尾結(jié)構(gòu)(long-tailed structure),研究者們進(jìn)一步通過(guò)投影矩陣(Projection Matrix)來(lái)衡量真實(shí)數(shù)據(jù)與 FDA 之間前若干主奇異向量(top singular vectors)子空間的相似性。

從圖 5 的示例可以看到,隨著優(yōu)化過(guò)程的進(jìn)行,這種相似性逐漸提高。這一結(jié)果表明,F(xiàn)DA 中所編碼的知識(shí)與真實(shí)任務(wù)數(shù)據(jù)之間存在潛在的關(guān)聯(lián)——即在優(yōu)化過(guò)程中,F(xiàn)DA 逐步對(duì)齊了由真實(shí)數(shù)據(jù)所定義的任務(wù)相關(guān)子空間,從而在功能層面有效捕獲了任務(wù)知識(shí)的本質(zhì)結(jié)構(gòu)。

圖 5:FDA 的子空間對(duì)齊。

觀察三:在優(yōu)化過(guò)程中,F(xiàn)DA 所誘導(dǎo)的參數(shù)更新與真實(shí)數(shù)據(jù)所誘導(dǎo)的更新逐漸對(duì)齊。研究者們進(jìn)一步從參數(shù)空間(parameter space)的角度分析 FDA 的性質(zhì),即考察其在模型參數(shù)上的誘導(dǎo)更新。具體而言,研究者們將這種由 FDA 引發(fā)的參數(shù)變化投影到由真實(shí)數(shù)據(jù)產(chǎn)生的參數(shù)更新向量所張成的非負(fù)錐空間(non-negative cone)中。

如圖 6 所示,無(wú)論是在預(yù)訓(xùn)練模型還是融合模型中,投影能量(projection energy)都隨著優(yōu)化過(guò)程逐步上升。這一結(jié)果表明,F(xiàn)DA 在訓(xùn)練過(guò)程中不斷產(chǎn)生穩(wěn)定且具有方向性的任務(wù)特定功能偏移(task-specific functional shifts),即 FDA 的適配動(dòng)態(tài)與真實(shí)任務(wù)學(xué)習(xí)過(guò)程在功能空間上形成一致性,從而體現(xiàn)出其在捕捉任務(wù)相關(guān)知識(shí)方面的穩(wěn)健性與有效性。

圖 6:FDA 的參數(shù)更新對(duì)應(yīng)的投影比例。

更為詳盡的討論與實(shí)證結(jié)果見(jiàn)論文附錄。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-09-18 09:50:00

大模型AI

2024-09-24 10:45:59

數(shù)據(jù)模型數(shù)據(jù)飛輪

2024-09-26 19:25:21

數(shù)據(jù)飛輪數(shù)據(jù)中臺(tái)數(shù)據(jù)技術(shù)

2015-09-10 13:28:51

暢享網(wǎng)

2025-07-08 08:38:09

推理錨點(diǎn)LLM大模型

2010-03-26 15:22:40

云輸入

2024-01-23 12:57:00

模型數(shù)據(jù)

2009-03-12 08:52:12

瀏覽器競(jìng)爭(zhēng)

2013-01-06 11:10:56

Android開(kāi)發(fā)擴(kuò)展UI設(shè)計(jì)

2021-09-14 09:52:56

ToB小程序生態(tài)評(píng)估

2012-10-16 10:41:31

云計(jì)算應(yīng)用架構(gòu)

2024-09-10 09:36:26

2018-01-16 12:31:33

Python爬蟲(chóng)數(shù)據(jù)

2024-09-26 16:51:33

2022-12-09 10:00:23

2010-05-24 13:13:25

Swap空間

2024-10-31 14:40:00

模型AI

2009-01-18 11:11:36

InnoDBMySQLMVCC

2021-08-20 20:16:08

區(qū)塊鏈Web3.0分布式存儲(chǔ)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产欧美精品| 狂野欧美一区| 欧美 亚欧 日韩视频在线| 影音先锋在线一区| 国产sm精品调教视频网站| 中文字幕不卡在线观看| 亚洲va欧美va人人爽| 日韩三级在线观看| 欧美夫妻性生活视频| 成人欧美在线观看| 一区二区欧美日韩| 鲁一鲁一鲁一鲁一av| 天天影视久久综合| 欧美电影免费观看| 成人一区而且| 老司机免费视频一区二区| 国产欧美日韩在线视频| 亚洲国产另类av| 日韩成人在线观看| 91av中文字幕| 亚洲日本一区二区三区在线不卡| 日韩中文字幕免费在线| 黄色网址在线免费观看| 日韩一级淫片| 日韩av电影天堂| 亚洲国产综合色| 亚洲人成五月天| 91视频99| 日本一极黄色片| 蜜桃成人365av| 亚洲精品合集| 成人免费视频app| 91国产视频在线观看| 欧美精品第一页在线播放| 久久久久一区二区| 佐山爱痴汉视频一区二区三区 | 欧美日韩在线精品一区二区三区激情综| 不卡福利视频| 亚洲精品影院在线观看| ㊣最新国产の精品bt伙计久久| 亚洲国产精品久久久| 福利视频一区二区三区| 快色在线观看| 欧美国产中文高清| 91美女精品福利| 亚洲美女中文字幕| 99亚洲精品视频| 污污在线观看| 日日摸夜夜添夜夜添精品视频| 色综合网站在线| 亚洲自拍偷拍福利| 亚洲天堂2018av| 国产精品美女在线观看直播| 久久久91精品国产一区二区精品| 国产一区二区三区久久精品| 日韩国产美国| 美足av综合网| 日本不卡不码高清免费观看 | 在线播放国产一区二区三区| 天堂精品视频| 成人免费观看在线观看| 日本午夜精品视频在线观看| 亚洲成**性毛茸茸| 在线观看日韩片| 日韩中文影院| 久久新电视剧免费观看| 亚洲一区影音先锋| 成人欧美一区二区三区黑人| 精品欧美不卡一区二区在线观看| 欧美三级在线| 日韩三级高清在线| www精品久久| 日韩一区二区三区精品视频第3页| 亚洲三级在线看| 亚洲专区中文字幕| 麻豆免费在线视频| 精品一区二区精品| 欧美国产日本高清在线 | 国产精品电影院| 国产精自产拍久久久久久| 午夜国产福利在线| 国产黑丝在线一区二区三区| 91超碰中文字幕久久精品| 免费在线看v| 国产精品夜夜嗨| 日韩av手机在线看| 含羞草www国产在线视频| 国产盗摄一区二区三区| 性色av一区二区三区红粉影视| 黄色视屏网站在线免费观看| 麻豆传媒一区二区三区| 97在线看福利| 黄色免费网站在线| av不卡一区二区三区| 国产精品欧美激情| 国产传媒av在线| 欧美亚洲专区| 5566中文字幕一区二区电影 | 精品三级久久| 91精品黄色片免费大全| 国产一级在线观看| 图片区日韩欧美亚洲| 初尝黑人巨炮波多野结衣电影| av午夜精品一区二区三区| 色一情一乱一乱一区91| 麻豆专区一区二区三区四区五区| 成人激情视频免费在线| 亚洲三区欧美一区国产二区| 亚洲视频999| 成年女人在线看片| 精品久久久久一区| 在线网址91| 欧美日韩亚洲综合在线| 亚洲第一成年免费网站| 精品国产户外野外| 校园春色综合| 亚洲福利视频三区| 18成人在线| 91麻豆精品激情在线观看最新| 亚洲午夜女主播在线直播| av在线最新| 91精品久久久久久蜜臀| 中文字幕av网| 中文字幕佐山爱一区二区免费| 欧美综合在线播放| 韩国理伦片一区二区三区在线播放| 国产精品一区而去| 欧美一区二区三区另类| 国产精品久久在线观看| 欧美激情在线免费| 国产福利成人在线| 国产精品欧美日韩一区| 91精品成人久久| 国产精品毛片视频| 69久久夜色精品国产69乱青草 | 99pao成人国产永久免费视频| 国产综合香蕉五月婷在线| 国产精品一区2区3区| 成人精品一区二区三区电影黑人| 97视频精品| 国产99视频精品免费视频36| 欧美精品午夜| 精品一区日韩成人| 免费久久99精品国产自在现线| 性欧美videosex高清少妇| 精品一区二区在线视频| 青青草精品视频在线| 狠狠操综合网| 国内成+人亚洲| 国产一区二区在线影院| 日本一区二区黄色| 亚洲欧洲精品一区二区三区| 22288色视频在线观看| 欧美在线高清视频| 成人爽a毛片免费啪啪动漫| 日韩在线小视频| 最新国产精品视频| 黄色国产精品一区二区三区| 精品无人码麻豆乱码1区2区 | 福利电影一区二区三区| 99视频在线视频| 日韩欧美国产中文字幕| 91高清视频在线观看| 久久亚洲精品一区二区| 久久社区一区| 欧美精品一区二区性色a+v| 国产三级精品在线| 蜜桃视频在线入口www| 亚洲精品久久久久中文字幕二区 | 中国一级特黄毛片大片| 亚洲美女av在线播放| 永久91嫩草亚洲精品人人| 无码人妻少妇伦在线电影| 宅男噜噜噜66一区二区66| 久久免费视频66| 亚洲一区二区不卡视频| 亚洲一区在线视频| 精品国产亚洲一区二区三区在线 | 色综合久久88色综合天天看泰| jiujiure精品视频播放| 色噜噜色狠狠狠狠狠综合色一| 国产欧美精品日韩区二区麻豆天美| 中文日本在线观看| 国产精品女主播| 最新高清无码专区| 久久中文资源| 91p在线观看| 日本最新高清不卡中文字幕| 亚洲日本va午夜在线影院| www免费在线观看| 韩国视频理论视频久久| 国精产品一区一区三区mba桃花| 男人艹女人网站| 亚洲精品永久免费精品| 久久精品av| 99免费视频| 亚洲国产一区自拍| 国内精品福利| 日本我和搜子同居的日子高清在线| 国产婷婷成人久久av免费高清|