FDA對(duì)偶錨點(diǎn):模型知識(shí)遷移的新視角——從參數(shù)空間到輸入空間
該項(xiàng)工作的作者分別是來(lái)自香港中文大學(xué)的博士生施柯煊,來(lái)自西湖大學(xué)的助理教授溫研東,來(lái)自香港中文大學(xué)的計(jì)算機(jī)系助理教授劉威楊。
當(dāng)前,基于通用基礎(chǔ)模型進(jìn)行任務(wù)特定微調(diào)已成為主流范式。這種范式雖然能夠在各個(gè)特定任務(wù)上獲得高性能的專(zhuān)家模型,但也帶來(lái)新的挑戰(zhàn):如何將這些特定微調(diào)得到的專(zhuān)家模型的能力有效整合到單一模型中并且無(wú)需訪問(wèn)原始訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)多任務(wù)協(xié)通,同時(shí)最小化性能損失?
針對(duì)這一問(wèn)題,研究者們提出了 FDA(Model Merging with Functional Dual Anchors)——一個(gè)全新的模型融合框架。與傳統(tǒng)的參數(shù)空間操作不同,F(xiàn)DA 將專(zhuān)家模型的參數(shù)知識(shí)投射到輸入-表征空間中的合成錨點(diǎn),通過(guò)功能對(duì)偶的方式實(shí)現(xiàn)更高效的知識(shí)整合。

- Title:Model Merging with Functional Dual Anchors
- Arxiv:https://arxiv.org/pdf/2510.21223
- Project page:https://spherelab.ai/fda/
FDA 的關(guān)鍵思想是:將參數(shù)中所蘊(yùn)藏的任務(wù)知識(shí),用輸入空間的一組對(duì)偶的合成輸入點(diǎn)(Dual Anchors)來(lái)表示;使用合成輸入點(diǎn)所誘導(dǎo)的聯(lián)合梯度,更新模型,以整合多任務(wù)知識(shí)。
具體來(lái)說(shuō),任務(wù)知識(shí)在參數(shù)空間上可以體現(xiàn)為模型最終的參數(shù)與初始參數(shù)的差異向量(任務(wù)向量,Task Vector)。FDA 為每一個(gè)專(zhuān)家模型,構(gòu)造一組 Dual Anchors,使其能夠在初始參數(shù)處誘導(dǎo)出與任務(wù)向量近似的梯度方向。相似的梯度方向,可以讓 FDA 近似地模擬任務(wù)知識(shí)對(duì)預(yù)訓(xùn)練模型的函數(shù)偏移。
相比于任務(wù)向量將任務(wù)知識(shí)編碼在參數(shù)空間,F(xiàn)DA 則通過(guò)誘導(dǎo)相似梯度在輸入空間編碼對(duì)應(yīng)的任務(wù)知識(shí)。因此,F(xiàn)DA 相對(duì)于任務(wù)向量而言,是一組在函數(shù)功能上對(duì)偶的輸入點(diǎn)。
FDA 將知識(shí)的整合過(guò)程,從參數(shù)空間遷移至輸入空間。相比于先前的基于任務(wù)向量算術(shù)操作的框架,F(xiàn)DA 為當(dāng)下的 Model Merging 問(wèn)題提供了一種新的視角。為了兼顧性能與實(shí)用性,研究者還開(kāi)發(fā)了基于分層策略的算法來(lái)部署 FDA 框架,使其可以擴(kuò)展至超大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明,該方法在視覺(jué)、自然語(yǔ)言模型上表現(xiàn)出卓越的性能和可擴(kuò)展性。

圖 1:FDA 框架的示意圖。
FDA 框架的直覺(jué)理解與動(dòng)機(jī)
當(dāng)前的主流 Model Merging 方法,本質(zhì)是基于任務(wù)向量的算術(shù)操作,即對(duì)不同的任務(wù)向量進(jìn)行線性組合,然后加至預(yù)訓(xùn)練參數(shù),以獲得一個(gè)多任務(wù)模型。因此,任務(wù)向量的算術(shù)操作,只能產(chǎn)生固定的合并路徑;然而,F(xiàn)DA 方法則提供了一個(gè)可以根據(jù)融合過(guò)程中的損失函數(shù)景觀誘導(dǎo)新合并路徑的機(jī)會(huì)。研究者們將獲得的 FDA 視作微調(diào)數(shù)據(jù),逐步優(yōu)化預(yù)訓(xùn)練模型的參數(shù)。
如下圖所示,使用 FDA 進(jìn)行優(yōu)化時(shí),模型會(huì)逐步靠近在八個(gè)下游數(shù)據(jù)集上計(jì)算得到的損失函數(shù)局部最小值(local minima)區(qū)域。相比之下,任務(wù)向量(task vectors)雖然能夠在一定程度上提供來(lái)自預(yù)訓(xùn)練模型的優(yōu)化方向,但它們往往會(huì)迅速偏離原本的損失盆地;而 FDA 則能夠持續(xù)地引導(dǎo)優(yōu)化過(guò)程朝向更有利的區(qū)域。FDA 的這一優(yōu)勢(shì)類(lèi)比于聯(lián)合多任務(wù)訓(xùn)練的靈活性。
FDA 的另一項(xiàng)核心動(dòng)機(jī)在于:對(duì)輸入空間進(jìn)行建模通常比對(duì)參數(shù)空間建模更容易,因?yàn)檩斎肟臻g往往具有更強(qiáng)的結(jié)構(gòu)性(structured)。在知識(shí)遷移(knowledge transfer)的研究中,基于輸入空間建模的有效性已被廣泛探討并通過(guò)大量實(shí)證驗(yàn)證。例如,在數(shù)據(jù)集蒸餾 [1, 2, 5, 6]、迭代式教學(xué) [3, 4] 以及持續(xù)學(xué)習(xí) [7, 8] 等領(lǐng)域的研究中,都充分展示了輸入空間建模在促進(jìn)知識(shí)高效遷移與壓縮方面的強(qiáng)大潛力。
FDA 提供更靈活和魯棒的融合路徑
為驗(yàn)證 FDA 的有效性,研究者們將 FDA 用于對(duì)多種不同尺寸的預(yù)訓(xùn)練模型(80M、125M、400M、13B)進(jìn)行適配,并將其多任務(wù)性能與對(duì)應(yīng)的對(duì)偶框架(即任務(wù)向量方法,Task Vectors, TA)進(jìn)行比較。為進(jìn)一步驗(yàn)證其魯棒性,研究者們?cè)趯?shí)驗(yàn)中將預(yù)訓(xùn)練模型初始化為通過(guò)無(wú)數(shù)據(jù)(data-free)任務(wù)向量方法融合得到的參數(shù)。研究者們共考慮了三種無(wú)數(shù)據(jù)融合方法:TA [9]、TSVM [10] 和 WUDI [11]。其中,TA 是經(jīng)典方法,而 TSVM 與 WUDI 則代表當(dāng)前的 SOTA 方法。部分實(shí)驗(yàn)結(jié)果如上表所示,更多結(jié)果可參考論文正文。

圖 2:FDA 的部分實(shí)驗(yàn)的結(jié)果。
從結(jié)果中,研究者們得到兩個(gè)關(guān)鍵觀察結(jié)論:
觀察 1:FDA 能夠更有效利用模型編碼的知識(shí),實(shí)現(xiàn)高效的多任務(wù)模型融合:
與對(duì)偶框架 TA 相比,F(xiàn)DA 帶來(lái)了顯著的性能提升。使用 FDA 適配后的預(yù)訓(xùn)練模型在多任務(wù)場(chǎng)景下的平均性能達(dá)到 87.26,而 TA 方法僅為 73.94,提升幅度接近 18%;與此同時(shí),平均 GLUE 分?jǐn)?shù)也提升了 15.4%。
觀察 2:FDA 具備靈活的知識(shí)建模能力:盡管 FDA 與其他無(wú)數(shù)據(jù)、以參數(shù)為中心的方法(如 TA、TSVM、WUDI)使用了相同的任務(wù)特定知識(shí),F(xiàn)DA 仍能在此基礎(chǔ)上進(jìn)一步提升融合模型的性能。在 ViT-B/16 上,F(xiàn)DA 的平均提升約為 5.10%,而在 RoBERTa-Large 上則達(dá)到約 13%,展示出其在不同架構(gòu)下的通用性與強(qiáng)大適配能力。
FDA 算法實(shí)現(xiàn)
FDA 的實(shí)際算法流程主要包括兩個(gè)階段:FDA 的構(gòu)建(Construction)和基于 FDA 的參數(shù)更新(Adaptation)。
階段一:針對(duì)每一個(gè)下游任務(wù)的微調(diào)模型(checkpoint)構(gòu)建其對(duì)應(yīng)的 FDA。具體來(lái)說(shuō),給定預(yù)訓(xùn)練模型以及對(duì)應(yīng)的微調(diào)模型
,研究者們通過(guò)求解以下優(yōu)化問(wèn)題構(gòu)造 FDA 的樣本集合
:

其中,
表示梯度方向的余弦距離;
為矩陣的向量化操作;
為可微分的表示差異度量函數(shù)。該優(yōu)化問(wèn)題采用基于梯度的迭代優(yōu)化方法求解。由于梯度優(yōu)化過(guò)程對(duì)初始化敏感,研究者們分析了線性編碼器(linear encoder)下 Dual Anchors 的優(yōu)化動(dòng)態(tài),并提出以下原則:
有效的初始化策略應(yīng)當(dāng)將初始點(diǎn)的能量限制在由任務(wù)向量(task vector)所張成的尾部子空間(tail subspace)。
研究者們進(jìn)而導(dǎo)出兩種實(shí)用的初始化方案:線性權(quán)重采樣(Linear weight sampling)和縮放高斯采樣(Scaled Gaussian sampling),來(lái)進(jìn)行初始化。
階段二:該階段利用階段 1 構(gòu)造得到的 FDA 對(duì)參數(shù)進(jìn)行更新。具體來(lái)說(shuō),是階段一的對(duì)偶過(guò)程。當(dāng)初始參數(shù)本身為預(yù)訓(xùn)練參數(shù)時(shí),研究者們直接用 FDA 對(duì)參數(shù)進(jìn)行更新:

當(dāng)初始參數(shù)初始化為基于任務(wù)向量方法的融合參數(shù)時(shí),目標(biāo)轉(zhuǎn)變?yōu)閷?duì)任務(wù)向量的調(diào)節(jié):

研究者們將具體的算法流程整理成如下偽代碼:

圖 3:FDA 具體算法的偽代碼。
FDA 所編碼的任務(wù)知識(shí)
得益于 FDA 優(yōu)越的性能,研究者們進(jìn)一步探索 FDA 中編碼知識(shí)的過(guò)程。研究者們通過(guò)系統(tǒng)的實(shí)證分析來(lái)揭示 FDA 背后潛在的機(jī)制:
觀察一:在優(yōu)化過(guò)程中,F(xiàn)DA 傾向于長(zhǎng)尾結(jié)構(gòu)。研究者們對(duì) FDA 矩陣進(jìn)行奇異值分解發(fā)現(xiàn)(圖 4):無(wú)論采用何種初始化方式,在構(gòu)建過(guò)程中歸一化后的尾部奇異值均快速衰減。這表明:
- FDA 有效捕捉了任務(wù)相關(guān)的主導(dǎo)表示方向;
- 自動(dòng)抑制了冗余或噪聲成分;
- 與任務(wù)特定知識(shí)在參數(shù)空間通常表現(xiàn)為低秩結(jié)構(gòu)的觀察一致。

圖 4:FDA 的 SVD 譜。
觀察二:在優(yōu)化過(guò)程中,F(xiàn)DA 的高能量子空間逐漸與真實(shí)數(shù)據(jù)的高能量子空間對(duì)齊。鑒于 FDA 具有長(zhǎng)尾結(jié)構(gòu)(long-tailed structure),研究者們進(jìn)一步通過(guò)投影矩陣(Projection Matrix)來(lái)衡量真實(shí)數(shù)據(jù)與 FDA 之間前若干主奇異向量(top singular vectors)子空間的相似性。
從圖 5 的示例可以看到,隨著優(yōu)化過(guò)程的進(jìn)行,這種相似性逐漸提高。這一結(jié)果表明,F(xiàn)DA 中所編碼的知識(shí)與真實(shí)任務(wù)數(shù)據(jù)之間存在潛在的關(guān)聯(lián)——即在優(yōu)化過(guò)程中,F(xiàn)DA 逐步對(duì)齊了由真實(shí)數(shù)據(jù)所定義的任務(wù)相關(guān)子空間,從而在功能層面有效捕獲了任務(wù)知識(shí)的本質(zhì)結(jié)構(gòu)。

圖 5:FDA 的子空間對(duì)齊。
觀察三:在優(yōu)化過(guò)程中,F(xiàn)DA 所誘導(dǎo)的參數(shù)更新與真實(shí)數(shù)據(jù)所誘導(dǎo)的更新逐漸對(duì)齊。研究者們進(jìn)一步從參數(shù)空間(parameter space)的角度分析 FDA 的性質(zhì),即考察其在模型參數(shù)上的誘導(dǎo)更新。具體而言,研究者們將這種由 FDA 引發(fā)的參數(shù)變化投影到由真實(shí)數(shù)據(jù)產(chǎn)生的參數(shù)更新向量所張成的非負(fù)錐空間(non-negative cone)中。
如圖 6 所示,無(wú)論是在預(yù)訓(xùn)練模型還是融合模型中,投影能量(projection energy)都隨著優(yōu)化過(guò)程逐步上升。這一結(jié)果表明,F(xiàn)DA 在訓(xùn)練過(guò)程中不斷產(chǎn)生穩(wěn)定且具有方向性的任務(wù)特定功能偏移(task-specific functional shifts),即 FDA 的適配動(dòng)態(tài)與真實(shí)任務(wù)學(xué)習(xí)過(guò)程在功能空間上形成一致性,從而體現(xiàn)出其在捕捉任務(wù)相關(guān)知識(shí)方面的穩(wěn)健性與有效性。

圖 6:FDA 的參數(shù)更新對(duì)應(yīng)的投影比例。
更為詳盡的討論與實(shí)證結(jié)果見(jiàn)論文附錄。





























