不靠海量數(shù)據(jù)，如何精準喂養(yǎng)大模型？上交Data Whisperer：免訓練數(shù)據(jù)選擇法，10%數(shù)據(jù)逼近全量效果

2025-07-30 09:00:00

上海交通大學等團隊提出 Data Whisperer —— 首個免訓練的注意力驅(qū)動數(shù)據(jù)選擇框架。它直接利用預訓練模型的上下文學習（ICL）能力，無需額外微調(diào)打分模型，僅用 10% 數(shù)據(jù)就能讓微調(diào)效果逼近全量數(shù)據(jù)！

本文第一作者王少博為上海交通大學博士生，現(xiàn)于阿里 Qwen 團隊實習，此前有 CVPR 滿分一作論文。通訊作者為其導師、上海交大助理教授張林峰。本文其他作者來自上交 EPIC Lab、NTU、NUS、微軟、上海 AI Lab、港科大（廣州）等。

從未微調(diào)目標數(shù)據(jù)集，一個預訓練模型竟能自己篩選出「黃金訓練樣本」？

就像一位精通教學的導師，看一眼題庫就知道該讓學生重點練什么題。

論文標題：Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning
論文鏈接：arxiv.org/pdf/2505.12212
GitHub 地址：gszfwsb/Data-Whisperer
關(guān)鍵詞：數(shù)據(jù)選擇、上下文學習、小樣本泛化、結(jié)構(gòu)對齊

精調(diào)大模型，數(shù)據(jù)挑對才關(guān)鍵

模型說：「別給我扔幾百萬條數(shù)據(jù)了，你先告訴我哪些題值得看！」

傳統(tǒng)的數(shù)據(jù)選擇方法：

要先訓練個打分模型；
要調(diào)一堆啟發(fā)式參數(shù)；
要花一堆時間還不一定好用；

而 Data Whisperer 就像摸魚同學中的學霸 —— 不看全書也能穩(wěn)拿高分。

方法機制：只靠模型自身，打分挑數(shù)據(jù)

Data Whisperer 是一種以大模型自身為評估器、完全免訓練的數(shù)據(jù)子集選擇方法。

1. ICL 少樣本構(gòu)建

隨機采樣若干「示范樣本」和「查詢樣本」，構(gòu)建 ICL 提示；
讓待精調(diào)的大模型嘗試回答這些查詢?nèi)蝿眨?/span>
根據(jù)回答質(zhì)量，給每個「示范樣本」打一個分。

2. 引入注意力感知權(quán)重

為了讓「題目權(quán)重」更加合理，Data Whisperer 不只看輸出結(jié)果；
它利用 Transformer 的注意力權(quán)重，度量每個示例對模型推理的「影響力」；
最終打分由模型輸出與注意力貢獻共同決定，更穩(wěn)定、更合理。

這種打分機制是完全無需訓練、無需人工標注的！

Data Whisperer 不是「拍腦袋選題」，理論也站得住腳！

在傳統(tǒng)精調(diào)中，模型通過梯度下降顯式更新參數(shù)，比如注意力權(quán)重的關(guān)鍵值（Key）矩陣 W_K 和數(shù)值（Value）矩陣 W_V：

其中是通過反向傳播學到的參數(shù)更新。

而在 ICL 過程中，雖然模型參數(shù)固定不變，但通過上下文中的示例（demonstration tokens）對注意力進行加權(quán)，使得模型在預測時行為發(fā)生了「類精調(diào)」式的變化：

這里的并非真實權(quán)重更新，而是通過注意力機制「模擬出的權(quán)重調(diào)整」。這正是 Data Whisperer 利用的核心。

也就是說，ICL 就像是在不動參數(shù)的前提下，用「語言上下文」在行為上更新了模型。

精調(diào)誰還全訓？我 10% 數(shù)據(jù)照樣打贏！

讓我們看看 Data Whisperer 的「壓軸戰(zhàn)績」：

GSM8K 數(shù)學題：10% 數(shù)據(jù)打出 72.46%，還比全量數(shù)據(jù)（71.39%）更高；
DialogSum 總結(jié)任務：用 Qwen 模型達到 43%，比最強 SOTA 方法高出 2.5 個點；
BioInstruct 任務也同樣提升顯著。

別人還在選題，我已經(jīng)開始精調(diào)了

Data Whisperer 引入了一個新的效率指標：Selection-to-Tuning Ratio（STR），即選擇過程耗時與全量精調(diào)耗時之比。

在該指標下，Data Whisperer 以 STR ≈ 0.03~0.2 的水平，大幅領先現(xiàn)有所有方法。相比之下，許多傳統(tǒng)方法（如 Nuggets）STR > 1，意味著「選題還不如直接精調(diào)快」。

Data Whisperer 用極低成本完成了模型適配所需的「預判題型」工作。

小模型選題，大模型精調(diào)，誰用誰知道！

Data Whisperer 支持弱模型作為「選題器」，強模型作為「學習者」的弱選強訓（weak-to-strong）機制。

例如，使用 Qwen-2.5-3B-Instruct 選題、再用 Qwen-2.5-7B-Instruct 精調(diào)，最終性能幾乎不降，卻帶來更低計算負擔。

Data Whisperer 成功實現(xiàn)了從小模型到大模型間的「知識前置遷移」，適用于資源受限場景下的精調(diào)任務。

演示題和查詢題怎么配？精細搭配才能挑好！

Data Whisperer 進一步分析了 ICL 中示例（n_d）與查詢（n_q）數(shù)量對選擇效果的影響。

結(jié)果顯示，n_d=10、n_q=5 是穩(wěn)定優(yōu)選配置。在此之后增加樣本數(shù)量，效果提升趨于飽和。

這表明 Data Whisperer 對輸入規(guī)模具有良好的魯棒性，不是靠堆樣本，而是真挑核心。

哪層注意力最好用？

Data Whisperer 的注意力打分依賴于 Transformer 的層級結(jié)構(gòu)。作者分別測試了淺層、中層、深層注意力用于打分的效果。

結(jié)果發(fā)現(xiàn)，中間層（如 Layer13）提供的語義信息更穩(wěn)定，選題效果更佳，符合語言模型內(nèi)部語義聚合的層次分布規(guī)律。

Data Whisperer 巧妙借力模型結(jié)構(gòu)，使「注意力」真正發(fā)揮了「注意」的功能。

模型偏好什么題？簡單好懂才是王道

進一步的分析中，作者使用 GPT-4o-mini 對被選中樣本的困惑度（perplexity）進行了評估。

發(fā)現(xiàn) Data Whisperer 傾向選擇困惑度較低的樣本，說明模型更喜歡「簡單題」，也符合 Sorscher 等人在小樣本學習中的「易例優(yōu)先」理論。

對比分析：到底比哪些方法強？

Data Whisperer 在所有主流數(shù)據(jù)選擇方法對比中均展現(xiàn)出領先效果：

GraNd：基于梯度；
EL2N：基于預測誤差；
CCS：注重多樣性；
Nuggets：需要額外精調(diào)打分器；
STAFF：組合打分策略。

Data Whisperer 在準確率、效率、穩(wěn)定性三個維度全面領先，尤其在低預算（1%、5%、10%）場景中優(yōu)勢明顯。

Data Whisperer 的秘訣：ICL 就是精調(diào)的「影子」

Data Whisperer 并非經(jīng)驗規(guī)則，而是基于理論支撐。

論文從注意力機制視角出發(fā)，分析了 ICL 過程中上下文樣本對模型輸出的影響，實質(zhì)上等價于一種隱式的參數(shù)更新。

ICL 調(diào)整注意力權(quán)重 ≈ Fine-Tuning 調(diào)整參數(shù)矩陣

兩者都是為了「讓模型在未來輸入中表現(xiàn)更好」。

這一結(jié)構(gòu)上的對應性解釋了 Data Whisperer 能有效選出訓練子集：它無需調(diào)模型參數(shù)，就能「預訓」出訓練效益。

啟示與未來方向

Data Whisperer 所倡導的是一種新范式：結(jié)構(gòu)感知、推理驅(qū)動的數(shù)據(jù)選擇方法，為 LLM 訓練過程引入「自解釋、自判斷」的機制。

值得注意的是，字節(jié) Seed 最新的工作 (https://arxiv.org/abs/2505.07293)，也用了類似 few-shot 和 attention 結(jié)合的方法。

接下來值得探索的方向包括：

1. 將方法遷移至法律、醫(yī)療、工程等復雜結(jié)構(gòu)任務；

2. 引入人類反饋或語言理解偏好，進一步增強「任務對齊」能力；

3. 結(jié)合 prompt 工程，控制示例順序以提升效果；

4. 與合成數(shù)據(jù)方法融合，構(gòu)建任務驅(qū)動的多源樣本庫。

總之，Data Whisperer 并不是簡單優(yōu)化效率的技巧，而是揭示了一個事實：

任務對齊不必依賴人類標簽、不必堆數(shù)據(jù)量。
結(jié)構(gòu)化的推理機制與任務映射，本身就可以引導模型學習方向。

未來的大模型訓練也許不再是「知道做什么」，而是「知道問什么」。

責任編輯：張燕妮來源：機器之心

模型訓練數(shù)據(jù)

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看