国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

FDA對(duì)偶錨點(diǎn):模型知識(shí)遷移的新視角——從參數(shù)空間到輸入空間

人工智能 新聞
研究者們提出了 FDA(Model Merging with Functional Dual Anchors)——一個(gè)全新的模型融合框架。

該項(xiàng)工作的作者分別是來(lái)自香港中文大學(xué)的博士生施柯煊,來(lái)自西湖大學(xué)的助理教授溫研東,來(lái)自香港中文大學(xué)的計(jì)算機(jī)系助理教授劉威楊。

當(dāng)前,基于通用基礎(chǔ)模型進(jìn)行任務(wù)特定微調(diào)已成為主流范式。這種范式雖然能夠在各個(gè)特定任務(wù)上獲得高性能的專(zhuān)家模型,但也帶來(lái)新的挑戰(zhàn):如何將這些特定微調(diào)得到的專(zhuān)家模型的能力有效整合到單一模型中并且無(wú)需訪問(wèn)原始訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)多任務(wù)協(xié)通,同時(shí)最小化性能損失?

針對(duì)這一問(wèn)題,研究者們提出了 FDA(Model Merging with Functional Dual Anchors)——一個(gè)全新的模型融合框架。與傳統(tǒng)的參數(shù)空間操作不同,F(xiàn)DA 將專(zhuān)家模型的參數(shù)知識(shí)投射到輸入-表征空間中的合成錨點(diǎn),通過(guò)功能對(duì)偶的方式實(shí)現(xiàn)更高效的知識(shí)整合。

  • Title:Model Merging with Functional Dual Anchors
  • Arxiv:https://arxiv.org/pdf/2510.21223 
  • Project page:https://spherelab.ai/fda/ 

FDA 的關(guān)鍵思想是:將參數(shù)中所蘊(yùn)藏的任務(wù)知識(shí),用輸入空間的一組對(duì)偶的合成輸入點(diǎn)(Dual Anchors)來(lái)表示;使用合成輸入點(diǎn)所誘導(dǎo)的聯(lián)合梯度,更新模型,以整合多任務(wù)知識(shí)。

具體來(lái)說(shuō),任務(wù)知識(shí)在參數(shù)空間上可以體現(xiàn)為模型最終的參數(shù)與初始參數(shù)的差異向量(任務(wù)向量,Task Vector)。FDA 為每一個(gè)專(zhuān)家模型,構(gòu)造一組 Dual Anchors,使其能夠在初始參數(shù)處誘導(dǎo)出與任務(wù)向量近似的梯度方向。相似的梯度方向,可以讓 FDA 近似地模擬任務(wù)知識(shí)對(duì)預(yù)訓(xùn)練模型的函數(shù)偏移。

相比于任務(wù)向量將任務(wù)知識(shí)編碼在參數(shù)空間,F(xiàn)DA 則通過(guò)誘導(dǎo)相似梯度在輸入空間編碼對(duì)應(yīng)的任務(wù)知識(shí)。因此,F(xiàn)DA 相對(duì)于任務(wù)向量而言,是一組在函數(shù)功能上對(duì)偶的輸入點(diǎn)。

FDA 將知識(shí)的整合過(guò)程,從參數(shù)空間遷移至輸入空間。相比于先前的基于任務(wù)向量算術(shù)操作的框架,F(xiàn)DA 為當(dāng)下的 Model Merging 問(wèn)題提供了一種新的視角。為了兼顧性能與實(shí)用性,研究者還開(kāi)發(fā)了基于分層策略的算法來(lái)部署 FDA 框架,使其可以擴(kuò)展至超大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明,該方法在視覺(jué)、自然語(yǔ)言模型上表現(xiàn)出卓越的性能和可擴(kuò)展性。

圖 1:FDA 框架的示意圖。

FDA 框架的直覺(jué)理解與動(dòng)機(jī)

當(dāng)前的主流 Model Merging 方法,本質(zhì)是基于任務(wù)向量的算術(shù)操作,即對(duì)不同的任務(wù)向量進(jìn)行線性組合,然后加至預(yù)訓(xùn)練參數(shù),以獲得一個(gè)多任務(wù)模型。因此,任務(wù)向量的算術(shù)操作,只能產(chǎn)生固定的合并路徑;然而,F(xiàn)DA 方法則提供了一個(gè)可以根據(jù)融合過(guò)程中的損失函數(shù)景觀誘導(dǎo)新合并路徑的機(jī)會(huì)。研究者們將獲得的 FDA 視作微調(diào)數(shù)據(jù),逐步優(yōu)化預(yù)訓(xùn)練模型的參數(shù)。

如下圖所示,使用 FDA 進(jìn)行優(yōu)化時(shí),模型會(huì)逐步靠近在八個(gè)下游數(shù)據(jù)集上計(jì)算得到的損失函數(shù)局部最小值(local minima)區(qū)域。相比之下,任務(wù)向量(task vectors)雖然能夠在一定程度上提供來(lái)自預(yù)訓(xùn)練模型的優(yōu)化方向,但它們往往會(huì)迅速偏離原本的損失盆地;而 FDA 則能夠持續(xù)地引導(dǎo)優(yōu)化過(guò)程朝向更有利的區(qū)域。FDA 的這一優(yōu)勢(shì)類(lèi)比于聯(lián)合多任務(wù)訓(xùn)練的靈活性。

FDA 的另一項(xiàng)核心動(dòng)機(jī)在于:對(duì)輸入空間進(jìn)行建模通常比對(duì)參數(shù)空間建模更容易,因?yàn)檩斎肟臻g往往具有更強(qiáng)的結(jié)構(gòu)性(structured)。在知識(shí)遷移(knowledge transfer)的研究中,基于輸入空間建模的有效性已被廣泛探討并通過(guò)大量實(shí)證驗(yàn)證。例如,在數(shù)據(jù)集蒸餾 [1, 2, 5, 6]、迭代式教學(xué) [3, 4] 以及持續(xù)學(xué)習(xí) [7, 8] 等領(lǐng)域的研究中,都充分展示了輸入空間建模在促進(jìn)知識(shí)高效遷移與壓縮方面的強(qiáng)大潛力。

FDA 提供更靈活和魯棒的融合路徑

為驗(yàn)證 FDA 的有效性,研究者們將 FDA 用于對(duì)多種不同尺寸的預(yù)訓(xùn)練模型(80M、125M、400M、13B)進(jìn)行適配,并將其多任務(wù)性能與對(duì)應(yīng)的對(duì)偶框架(即任務(wù)向量方法,Task Vectors, TA)進(jìn)行比較。為進(jìn)一步驗(yàn)證其魯棒性,研究者們?cè)趯?shí)驗(yàn)中將預(yù)訓(xùn)練模型初始化為通過(guò)無(wú)數(shù)據(jù)(data-free)任務(wù)向量方法融合得到的參數(shù)。研究者們共考慮了三種無(wú)數(shù)據(jù)融合方法:TA [9]、TSVM [10] 和 WUDI [11]。其中,TA 是經(jīng)典方法,而 TSVM 與 WUDI 則代表當(dāng)前的 SOTA 方法。部分實(shí)驗(yàn)結(jié)果如上表所示,更多結(jié)果可參考論文正文。

圖 2:FDA 的部分實(shí)驗(yàn)的結(jié)果。

從結(jié)果中,研究者們得到兩個(gè)關(guān)鍵觀察結(jié)論:

觀察 1:FDA 能夠更有效利用模型編碼的知識(shí),實(shí)現(xiàn)高效的多任務(wù)模型融合:

與對(duì)偶框架 TA 相比,F(xiàn)DA 帶來(lái)了顯著的性能提升。使用 FDA 適配后的預(yù)訓(xùn)練模型在多任務(wù)場(chǎng)景下的平均性能達(dá)到 87.26,而 TA 方法僅為 73.94,提升幅度接近 18%;與此同時(shí),平均 GLUE 分?jǐn)?shù)也提升了 15.4%。

觀察 2:FDA 具備靈活的知識(shí)建模能力:盡管 FDA 與其他無(wú)數(shù)據(jù)、以參數(shù)為中心的方法(如 TA、TSVM、WUDI)使用了相同的任務(wù)特定知識(shí),F(xiàn)DA 仍能在此基礎(chǔ)上進(jìn)一步提升融合模型的性能。在 ViT-B/16 上,F(xiàn)DA 的平均提升約為 5.10%,而在 RoBERTa-Large 上則達(dá)到約 13%,展示出其在不同架構(gòu)下的通用性與強(qiáng)大適配能力。

FDA 算法實(shí)現(xiàn)

FDA 的實(shí)際算法流程主要包括兩個(gè)階段:FDA 的構(gòu)建(Construction)和基于 FDA 的參數(shù)更新(Adaptation)。

階段一:針對(duì)每一個(gè)下游任務(wù)的微調(diào)模型(checkpoint)構(gòu)建其對(duì)應(yīng)的 FDA。具體來(lái)說(shuō),給定預(yù)訓(xùn)練模型以及對(duì)應(yīng)的微調(diào)模型 ,研究者們通過(guò)求解以下優(yōu)化問(wèn)題構(gòu)造 FDA 的樣本集合 

其中,表示梯度方向的余弦距離;為矩陣的向量化操作; 為可微分的表示差異度量函數(shù)。該優(yōu)化問(wèn)題采用基于梯度的迭代優(yōu)化方法求解。由于梯度優(yōu)化過(guò)程對(duì)初始化敏感,研究者們分析了線性編碼器(linear encoder)下 Dual Anchors 的優(yōu)化動(dòng)態(tài),并提出以下原則:

有效的初始化策略應(yīng)當(dāng)將初始點(diǎn)的能量限制在由任務(wù)向量(task vector)所張成的尾部子空間(tail subspace)。

研究者們進(jìn)而導(dǎo)出兩種實(shí)用的初始化方案:線性權(quán)重采樣(Linear weight sampling)和縮放高斯采樣(Scaled Gaussian sampling),來(lái)進(jìn)行初始化。

階段二:該階段利用階段 1 構(gòu)造得到的 FDA 對(duì)參數(shù)進(jìn)行更新。具體來(lái)說(shuō),是階段一的對(duì)偶過(guò)程。當(dāng)初始參數(shù)本身為預(yù)訓(xùn)練參數(shù)時(shí),研究者們直接用 FDA 對(duì)參數(shù)進(jìn)行更新:

當(dāng)初始參數(shù)初始化為基于任務(wù)向量方法的融合參數(shù)時(shí),目標(biāo)轉(zhuǎn)變?yōu)閷?duì)任務(wù)向量的調(diào)節(jié):

研究者們將具體的算法流程整理成如下偽代碼:

圖 3:FDA 具體算法的偽代碼。

FDA 所編碼的任務(wù)知識(shí)

得益于 FDA 優(yōu)越的性能,研究者們進(jìn)一步探索 FDA 中編碼知識(shí)的過(guò)程。研究者們通過(guò)系統(tǒng)的實(shí)證分析來(lái)揭示 FDA 背后潛在的機(jī)制:

觀察一:在優(yōu)化過(guò)程中,F(xiàn)DA 傾向于長(zhǎng)尾結(jié)構(gòu)。研究者們對(duì) FDA 矩陣進(jìn)行奇異值分解發(fā)現(xiàn)(圖 4):無(wú)論采用何種初始化方式,在構(gòu)建過(guò)程中歸一化后的尾部奇異值均快速衰減。這表明:

  • FDA 有效捕捉了任務(wù)相關(guān)的主導(dǎo)表示方向;
  • 自動(dòng)抑制了冗余或噪聲成分;
  • 與任務(wù)特定知識(shí)在參數(shù)空間通常表現(xiàn)為低秩結(jié)構(gòu)的觀察一致。

圖 4:FDA 的 SVD 譜。

觀察二:在優(yōu)化過(guò)程中,F(xiàn)DA 的高能量子空間逐漸與真實(shí)數(shù)據(jù)的高能量子空間對(duì)齊。鑒于 FDA 具有長(zhǎng)尾結(jié)構(gòu)(long-tailed structure),研究者們進(jìn)一步通過(guò)投影矩陣(Projection Matrix)來(lái)衡量真實(shí)數(shù)據(jù)與 FDA 之間前若干主奇異向量(top singular vectors)子空間的相似性。

從圖 5 的示例可以看到,隨著優(yōu)化過(guò)程的進(jìn)行,這種相似性逐漸提高。這一結(jié)果表明,F(xiàn)DA 中所編碼的知識(shí)與真實(shí)任務(wù)數(shù)據(jù)之間存在潛在的關(guān)聯(lián)——即在優(yōu)化過(guò)程中,F(xiàn)DA 逐步對(duì)齊了由真實(shí)數(shù)據(jù)所定義的任務(wù)相關(guān)子空間,從而在功能層面有效捕獲了任務(wù)知識(shí)的本質(zhì)結(jié)構(gòu)。

圖 5:FDA 的子空間對(duì)齊。

觀察三:在優(yōu)化過(guò)程中,F(xiàn)DA 所誘導(dǎo)的參數(shù)更新與真實(shí)數(shù)據(jù)所誘導(dǎo)的更新逐漸對(duì)齊。研究者們進(jìn)一步從參數(shù)空間(parameter space)的角度分析 FDA 的性質(zhì),即考察其在模型參數(shù)上的誘導(dǎo)更新。具體而言,研究者們將這種由 FDA 引發(fā)的參數(shù)變化投影到由真實(shí)數(shù)據(jù)產(chǎn)生的參數(shù)更新向量所張成的非負(fù)錐空間(non-negative cone)中。

如圖 6 所示,無(wú)論是在預(yù)訓(xùn)練模型還是融合模型中,投影能量(projection energy)都隨著優(yōu)化過(guò)程逐步上升。這一結(jié)果表明,F(xiàn)DA 在訓(xùn)練過(guò)程中不斷產(chǎn)生穩(wěn)定且具有方向性的任務(wù)特定功能偏移(task-specific functional shifts),即 FDA 的適配動(dòng)態(tài)與真實(shí)任務(wù)學(xué)習(xí)過(guò)程在功能空間上形成一致性,從而體現(xiàn)出其在捕捉任務(wù)相關(guān)知識(shí)方面的穩(wěn)健性與有效性。

圖 6:FDA 的參數(shù)更新對(duì)應(yīng)的投影比例。

更為詳盡的討論與實(shí)證結(jié)果見(jiàn)論文附錄。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-09-18 09:50:00

大模型AI

2024-09-24 10:45:59

數(shù)據(jù)模型數(shù)據(jù)飛輪

2024-09-26 19:25:21

數(shù)據(jù)飛輪數(shù)據(jù)中臺(tái)數(shù)據(jù)技術(shù)

2015-09-10 13:28:51

暢享網(wǎng)

2025-07-08 08:38:09

推理錨點(diǎn)LLM大模型

2010-03-26 15:22:40

云輸入

2024-01-23 12:57:00

模型數(shù)據(jù)

2009-03-12 08:52:12

瀏覽器競(jìng)爭(zhēng)

2013-01-06 11:10:56

Android開(kāi)發(fā)擴(kuò)展UI設(shè)計(jì)

2021-09-14 09:52:56

ToB小程序生態(tài)評(píng)估

2012-10-16 10:41:31

云計(jì)算應(yīng)用架構(gòu)

2024-09-10 09:36:26

2018-01-16 12:31:33

Python爬蟲(chóng)數(shù)據(jù)

2024-09-26 16:51:33

2022-12-09 10:00:23

2010-05-24 13:13:25

Swap空間

2024-10-31 14:40:00

模型AI

2009-01-18 11:11:36

InnoDBMySQLMVCC

2021-08-20 20:16:08

區(qū)塊鏈Web3.0分布式存儲(chǔ)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

黄色aaa级片| 成人av国产| 一级免费视频| 国产极品尤物在线| xxx.xxx欧美| 免费观看在线一区二区三区| 不卡电影免费在线播放一区| 播播国产欧美激情| 精品视频无码一区二区三区| 国产成人77亚洲精品www| 成人免费毛片app| 久久精品小视频| 欧美成人xxxxx| 日本国产精品| 亚洲麻豆国产自偷在线| 成人精品一区二区三区| 嫩草研究院在线| 亚洲久色影视| 日韩精品视频在线播放| 午夜欧美性电影| 韩漫成人漫画| 中文字幕 久热精品 视频在线 | 国产欧美日韩网站| 欧美成人xxxx| 亚洲卡通动漫在线| 成人免费淫片| 亚洲天堂久久| 在线视频精品一| 国产福利电影网| 亚洲精品综合| 鲁片一区二区三区| 国产精品麻豆| 亚洲高清免费在线| 中文字幕剧情在线观看一区| 亚洲爽爆av| 亚洲成av人影院在线观看网| 先锋影音网一区| 精品制服美女久久| 久久久久这里只有精品| 国产毛片av在线| 国产成人综合视频| 成人国产在线视频| 欧美1区2区| 欧美成人亚洲成人日韩成人| 国产一区二区三区福利| av动漫一区二区| 国产亚洲精品自在久久| 都市激情亚洲| 欧美不卡一区二区| 99re免费99re在线视频手机版| 日韩午夜av在线| 久久免费视频在线| 欧美日韩中文一区二区| 亚洲美女又黄又爽在线观看| 最新国产在线视频| 91色在线porny| 精品久久久久久亚洲| 91麻豆精品激情在线观看最新| 欧美伦理视频网站| 国产 porn| 精品福利一区二区| 国产v亚洲v天堂无码久久久| 午夜综合激情| 国产免费一区二区三区在线观看 | 成人丝袜视频网| 97福利电影| 欧美一区二区三区四区五区| 嫩模私拍啪啪| 懂色av一区二区三区免费看| 国产精品区在线| 国产成人精品影院| 2222www色视频在线观看| 国产偷v国产偷v亚洲高清| 欧美一区二区综合| 日本久久精品| 中文字幕在线亚洲| 日本韩国欧美超级黄在线观看| 国产九色精品| 日本a口亚洲| 色播五月综合| 一区二区三区国产| 欧美一级片中文字幕| 欧美在线视频你懂得| 免费看的毛片| 日韩激情视频在线| av资源久久| 成年在线观看视频| 丝袜美腿高跟呻吟高潮一区| 99在线影院| 成人一区二区| 国产天堂视频在线观看| 国产美女娇喘av呻吟久久| 国产精品视频入口| 国产网站一区二区| 日本片在线看| 日韩精品一区二区三区三区免费 | 成人视屏免费看| 97人人在线| 色播五月激情综合网| 宅男视频免费在线观看视频| 亚洲视频axxx| videos性欧美另类高清| 2020国产精品久久精品不卡| 日韩欧美中文| 国产一区二区三区精彩视频| 日韩小视频在线观看专区| 麻豆影视国产在线观看| 欧美在线视频日韩| 精品亚洲自拍| 18久久久久久| 国产精品白丝av嫩草影院| 亚洲精品国产一区| 国产一区二区不卡老阿姨| 亚洲精品一区国产精品| 色哟哟亚洲精品| 免费观看成人高潮| 国产成人精品电影久久久| 成人免费看片39| 日韩视频第二页| 亚洲天堂免费看| av电影资源| 欧美日韩免费在线观看| 在线观看二区| 日韩一级精品视频在线观看| 欧美黄色精品| 永久免费在线| 欧美一区二区三区喷汁尤物| 亚洲在线久久| 亚洲精品中字| 91精品国产综合久久福利| 国产一在线精品一区在线观看| 伊人发布在线| 国产精品视频区| 亚洲天堂男人| 可以直接在线观看的av| 成人黄色av免费在线观看| 亚洲激情网站免费观看| 春暖花开成人亚洲区| 亚洲欧洲xxxx| 国产真实精品久久二三区| 日韩特级毛片| 亚洲电影网站| 亚洲国产欧美久久| 国产一精品一av一免费爽爽| 日本精品福利视频| 亚洲人成欧美中文字幕| 国产99久久久国产精品潘金| av最新地址| 国产精品678| 一区二区三区91| 99热国内精品| 亚洲精品中文字幕在线| 日韩欧美国产一区二区三区| 日本欧美一区二区| 成人毛片免费在线观看| 色88888久久久久久影院按摩| 女同性一区二区三区人了人一| 黄色软件在线观看| 日韩中文字幕一区| 在线观看欧美成人| 97精品在线| 男人c女人视频| 日韩中文字幕精品视频| 欧美国产日韩亚洲一区| 欧美激情777| 日本无删减在线| 青青草原av在线播放| 国产精品第七十二页| 国产成人一区在线| 一区二区三区亚洲变态调教大结局| 狠狠久久综合婷婷不卡| 91精品在线一区二区| 欧美xxxx在线| 涩涩视频在线观看免费| 久久手机精品视频| 一区二区三区高清视频在线观看| 人人澡人人添人人爽一区二区| 96精品视频在线| 色又黄又爽网站www久久| 另类中文字幕网| 污视频在线观看免费| 日韩中文字幕精品视频| 亚洲日本成人在线观看| 激情国产一区| 免费av片风间由美在线| 999日本视频| 亚洲欧美资源在线| 亚洲一二三级电影| 精品国产不卡一区二区| 两个人hd高清在线观看| 欧美裸体xxxx极品少妇| 日韩中文字幕区一区有砖一区 | 少妇激情一区二区三区| 亚洲综合av影视| 亚洲欧美怡红院| 亚洲国产福利| 久久精品综合一区| 亚洲国产婷婷综合在线精品| 老鸭窝毛片一区二区三区| 最新中文字幕在线视频|