FDA對(duì)偶錨點(diǎn)：模型知識(shí)遷移的新視角——從參數(shù)空間到輸入空間

2025-11-14 09:45:09

研究者們提出了 FDA（Model Merging with Functional Dual Anchors）——一個(gè)全新的模型融合框架。

該項(xiàng)工作的作者分別是來(lái)自香港中文大學(xué)的博士生施柯煊，來(lái)自西湖大學(xué)的助理教授溫研東，來(lái)自香港中文大學(xué)的計(jì)算機(jī)系助理教授劉威楊。

當(dāng)前，基于通用基礎(chǔ)模型進(jìn)行任務(wù)特定微調(diào)已成為主流范式。這種范式雖然能夠在各個(gè)特定任務(wù)上獲得高性能的專(zhuān)家模型，但也帶來(lái)新的挑戰(zhàn)：如何將這些特定微調(diào)得到的專(zhuān)家模型的能力有效整合到單一模型中并且無(wú)需訪問(wèn)原始訓(xùn)練數(shù)據(jù)，實(shí)現(xiàn)多任務(wù)協(xié)通，同時(shí)最小化性能損失？

針對(duì)這一問(wèn)題，研究者們提出了 FDA（Model Merging with Functional Dual Anchors）——一個(gè)全新的模型融合框架。與傳統(tǒng)的參數(shù)空間操作不同，F(xiàn)DA 將專(zhuān)家模型的參數(shù)知識(shí)投射到輸入-表征空間中的合成錨點(diǎn)，通過(guò)功能對(duì)偶的方式實(shí)現(xiàn)更高效的知識(shí)整合。

Title：Model Merging with Functional Dual Anchors
Arxiv：https://arxiv.org/pdf/2510.21223
Project page：https://spherelab.ai/fda/

FDA 的關(guān)鍵思想是：將參數(shù)中所蘊(yùn)藏的任務(wù)知識(shí)，用輸入空間的一組對(duì)偶的合成輸入點(diǎn)（Dual Anchors）來(lái)表示；使用合成輸入點(diǎn)所誘導(dǎo)的聯(lián)合梯度，更新模型，以整合多任務(wù)知識(shí)。

具體來(lái)說(shuō)，任務(wù)知識(shí)在參數(shù)空間上可以體現(xiàn)為模型最終的參數(shù)與初始參數(shù)的差異向量（任務(wù)向量，Task Vector）。FDA 為每一個(gè)專(zhuān)家模型，構(gòu)造一組 Dual Anchors，使其能夠在初始參數(shù)處誘導(dǎo)出與任務(wù)向量近似的梯度方向。相似的梯度方向，可以讓 FDA 近似地模擬任務(wù)知識(shí)對(duì)預(yù)訓(xùn)練模型的函數(shù)偏移。

相比于任務(wù)向量將任務(wù)知識(shí)編碼在參數(shù)空間，F(xiàn)DA 則通過(guò)誘導(dǎo)相似梯度在輸入空間編碼對(duì)應(yīng)的任務(wù)知識(shí)。因此，F(xiàn)DA 相對(duì)于任務(wù)向量而言，是一組在函數(shù)功能上對(duì)偶的輸入點(diǎn)。

FDA 將知識(shí)的整合過(guò)程，從參數(shù)空間遷移至輸入空間。相比于先前的基于任務(wù)向量算術(shù)操作的框架，F(xiàn)DA 為當(dāng)下的 Model Merging 問(wèn)題提供了一種新的視角。為了兼顧性能與實(shí)用性，研究者還開(kāi)發(fā)了基于分層策略的算法來(lái)部署 FDA 框架，使其可以擴(kuò)展至超大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明，該方法在視覺(jué)、自然語(yǔ)言模型上表現(xiàn)出卓越的性能和可擴(kuò)展性。

圖 1：FDA 框架的示意圖。

FDA 框架的直覺(jué)理解與動(dòng)機(jī)

當(dāng)前的主流 Model Merging 方法，本質(zhì)是基于任務(wù)向量的算術(shù)操作，即對(duì)不同的任務(wù)向量進(jìn)行線性組合，然后加至預(yù)訓(xùn)練參數(shù)，以獲得一個(gè)多任務(wù)模型。因此，任務(wù)向量的算術(shù)操作，只能產(chǎn)生固定的合并路徑；然而，F(xiàn)DA 方法則提供了一個(gè)可以根據(jù)融合過(guò)程中的損失函數(shù)景觀誘導(dǎo)新合并路徑的機(jī)會(huì)。研究者們將獲得的 FDA 視作微調(diào)數(shù)據(jù)，逐步優(yōu)化預(yù)訓(xùn)練模型的參數(shù)。

如下圖所示，使用 FDA 進(jìn)行優(yōu)化時(shí)，模型會(huì)逐步靠近在八個(gè)下游數(shù)據(jù)集上計(jì)算得到的損失函數(shù)局部最小值（local minima）區(qū)域。相比之下，任務(wù)向量（task vectors）雖然能夠在一定程度上提供來(lái)自預(yù)訓(xùn)練模型的優(yōu)化方向，但它們往往會(huì)迅速偏離原本的損失盆地；而 FDA 則能夠持續(xù)地引導(dǎo)優(yōu)化過(guò)程朝向更有利的區(qū)域。FDA 的這一優(yōu)勢(shì)類(lèi)比于聯(lián)合多任務(wù)訓(xùn)練的靈活性。

FDA 的另一項(xiàng)核心動(dòng)機(jī)在于：對(duì)輸入空間進(jìn)行建模通常比對(duì)參數(shù)空間建模更容易，因?yàn)檩斎肟臻g往往具有更強(qiáng)的結(jié)構(gòu)性（structured）。在知識(shí)遷移（knowledge transfer）的研究中，基于輸入空間建模的有效性已被廣泛探討并通過(guò)大量實(shí)證驗(yàn)證。例如，在數(shù)據(jù)集蒸餾 [1, 2, 5, 6]、迭代式教學(xué) [3, 4] 以及持續(xù)學(xué)習(xí) [7, 8] 等領(lǐng)域的研究中，都充分展示了輸入空間建模在促進(jìn)知識(shí)高效遷移與壓縮方面的強(qiáng)大潛力。

FDA 提供更靈活和魯棒的融合路徑

為驗(yàn)證 FDA 的有效性，研究者們將 FDA 用于對(duì)多種不同尺寸的預(yù)訓(xùn)練模型（80M、125M、400M、13B）進(jìn)行適配，并將其多任務(wù)性能與對(duì)應(yīng)的對(duì)偶框架（即任務(wù)向量方法，Task Vectors, TA）進(jìn)行比較。為進(jìn)一步驗(yàn)證其魯棒性，研究者們?cè)趯?shí)驗(yàn)中將預(yù)訓(xùn)練模型初始化為通過(guò)無(wú)數(shù)據(jù)（data-free）任務(wù)向量方法融合得到的參數(shù)。研究者們共考慮了三種無(wú)數(shù)據(jù)融合方法：TA [9]、TSVM [10] 和 WUDI [11]。其中，TA 是經(jīng)典方法，而 TSVM 與 WUDI 則代表當(dāng)前的 SOTA 方法。部分實(shí)驗(yàn)結(jié)果如上表所示，更多結(jié)果可參考論文正文。

圖 2：FDA 的部分實(shí)驗(yàn)的結(jié)果。

從結(jié)果中，研究者們得到兩個(gè)關(guān)鍵觀察結(jié)論：

觀察 1：FDA 能夠更有效利用模型編碼的知識(shí)，實(shí)現(xiàn)高效的多任務(wù)模型融合：

與對(duì)偶框架 TA 相比，F(xiàn)DA 帶來(lái)了顯著的性能提升。使用 FDA 適配后的預(yù)訓(xùn)練模型在多任務(wù)場(chǎng)景下的平均性能達(dá)到 87.26，而 TA 方法僅為 73.94，提升幅度接近 18%；與此同時(shí)，平均 GLUE 分?jǐn)?shù)也提升了 15.4%。

觀察 2：FDA 具備靈活的知識(shí)建模能力：盡管 FDA 與其他無(wú)數(shù)據(jù)、以參數(shù)為中心的方法（如 TA、TSVM、WUDI）使用了相同的任務(wù)特定知識(shí)，F(xiàn)DA 仍能在此基礎(chǔ)上進(jìn)一步提升融合模型的性能。在 ViT-B/16 上，F(xiàn)DA 的平均提升約為 5.10%，而在 RoBERTa-Large 上則達(dá)到約 13%，展示出其在不同架構(gòu)下的通用性與強(qiáng)大適配能力。

FDA 算法實(shí)現(xiàn)

FDA 的實(shí)際算法流程主要包括兩個(gè)階段：FDA 的構(gòu)建（Construction）和基于 FDA 的參數(shù)更新（Adaptation）。

階段一：針對(duì)每一個(gè)下游任務(wù)的微調(diào)模型（checkpoint）構(gòu)建其對(duì)應(yīng)的 FDA。具體來(lái)說(shuō)，給定預(yù)訓(xùn)練模型以及對(duì)應(yīng)的微調(diào)模型，研究者們通過(guò)求解以下優(yōu)化問(wèn)題構(gòu)造 FDA 的樣本集合：

其中，表示梯度方向的余弦距離；為矩陣的向量化操作；為可微分的表示差異度量函數(shù)。該優(yōu)化問(wèn)題采用基于梯度的迭代優(yōu)化方法求解。由于梯度優(yōu)化過(guò)程對(duì)初始化敏感，研究者們分析了線性編碼器（linear encoder）下 Dual Anchors 的優(yōu)化動(dòng)態(tài)，并提出以下原則：

有效的初始化策略應(yīng)當(dāng)將初始點(diǎn)的能量限制在由任務(wù)向量（task vector）所張成的尾部子空間（tail subspace）。

研究者們進(jìn)而導(dǎo)出兩種實(shí)用的初始化方案：線性權(quán)重采樣（Linear weight sampling）和縮放高斯采樣（Scaled Gaussian sampling），來(lái)進(jìn)行初始化。

階段二：該階段利用階段 1 構(gòu)造得到的 FDA 對(duì)參數(shù)進(jìn)行更新。具體來(lái)說(shuō)，是階段一的對(duì)偶過(guò)程。當(dāng)初始參數(shù)本身為預(yù)訓(xùn)練參數(shù)時(shí)，研究者們直接用 FDA 對(duì)參數(shù)進(jìn)行更新：

當(dāng)初始參數(shù)初始化為基于任務(wù)向量方法的融合參數(shù)時(shí)，目標(biāo)轉(zhuǎn)變?yōu)閷?duì)任務(wù)向量的調(diào)節(jié)：

研究者們將具體的算法流程整理成如下偽代碼：

圖 3：FDA 具體算法的偽代碼。

FDA 所編碼的任務(wù)知識(shí)

得益于 FDA 優(yōu)越的性能，研究者們進(jìn)一步探索 FDA 中編碼知識(shí)的過(guò)程。研究者們通過(guò)系統(tǒng)的實(shí)證分析來(lái)揭示 FDA 背后潛在的機(jī)制：

觀察一：在優(yōu)化過(guò)程中，F(xiàn)DA 傾向于長(zhǎng)尾結(jié)構(gòu)。研究者們對(duì) FDA 矩陣進(jìn)行奇異值分解發(fā)現(xiàn)（圖 4）：無(wú)論采用何種初始化方式，在構(gòu)建過(guò)程中歸一化后的尾部奇異值均快速衰減。這表明：

FDA 有效捕捉了任務(wù)相關(guān)的主導(dǎo)表示方向；
自動(dòng)抑制了冗余或噪聲成分；
與任務(wù)特定知識(shí)在參數(shù)空間通常表現(xiàn)為低秩結(jié)構(gòu)的觀察一致。

圖 4：FDA 的 SVD 譜。

觀察二：在優(yōu)化過(guò)程中，F(xiàn)DA 的高能量子空間逐漸與真實(shí)數(shù)據(jù)的高能量子空間對(duì)齊。鑒于 FDA 具有長(zhǎng)尾結(jié)構(gòu)（long-tailed structure），研究者們進(jìn)一步通過(guò)投影矩陣（Projection Matrix）來(lái)衡量真實(shí)數(shù)據(jù)與 FDA 之間前若干主奇異向量（top singular vectors）子空間的相似性。

從圖 5 的示例可以看到，隨著優(yōu)化過(guò)程的進(jìn)行，這種相似性逐漸提高。這一結(jié)果表明，F(xiàn)DA 中所編碼的知識(shí)與真實(shí)任務(wù)數(shù)據(jù)之間存在潛在的關(guān)聯(lián)——即在優(yōu)化過(guò)程中，F(xiàn)DA 逐步對(duì)齊了由真實(shí)數(shù)據(jù)所定義的任務(wù)相關(guān)子空間，從而在功能層面有效捕獲了任務(wù)知識(shí)的本質(zhì)結(jié)構(gòu)。

圖 5：FDA 的子空間對(duì)齊。

觀察三：在優(yōu)化過(guò)程中，F(xiàn)DA 所誘導(dǎo)的參數(shù)更新與真實(shí)數(shù)據(jù)所誘導(dǎo)的更新逐漸對(duì)齊。研究者們進(jìn)一步從參數(shù)空間（parameter space）的角度分析 FDA 的性質(zhì)，即考察其在模型參數(shù)上的誘導(dǎo)更新。具體而言，研究者們將這種由 FDA 引發(fā)的參數(shù)變化投影到由真實(shí)數(shù)據(jù)產(chǎn)生的參數(shù)更新向量所張成的非負(fù)錐空間（non-negative cone）中。

如圖 6 所示，無(wú)論是在預(yù)訓(xùn)練模型還是融合模型中，投影能量（projection energy）都隨著優(yōu)化過(guò)程逐步上升。這一結(jié)果表明，F(xiàn)DA 在訓(xùn)練過(guò)程中不斷產(chǎn)生穩(wěn)定且具有方向性的任務(wù)特定功能偏移（task-specific functional shifts），即 FDA 的適配動(dòng)態(tài)與真實(shí)任務(wù)學(xué)習(xí)過(guò)程在功能空間上形成一致性，從而體現(xiàn)出其在捕捉任務(wù)相關(guān)知識(shí)方面的穩(wěn)健性與有效性。