国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

擊敗Meta登榜首:推理增強的文檔排序模型ReasonRank來了

人工智能 新聞
我們在本文提出了多領域面向推理型排序的訓練數據,解決了訓練數據上的難題。

本文的第一作者是劉文涵,就讀于中國人民大學高瓴人工智能學院,博士三年級,導師為竇志成教授,目前在百度大搜部門進行實習。他的研究方向聚焦于 AI 搜索,在頂級國際會議如 ACL、WWW 等發表了多篇論文。

推理大模型(Large Reasoning Model)極大的促進了自然語言處理領域的發展,而信息檢索領域的核心問題之一是文檔排序,如何利用強大的推理大模型通過主動推理來判斷文檔的相關性,進而再對文檔進行排序是一個值得探索的方向。

在本次工作中,我們提出了 ReasonRank,ReasonRank 在包括 BRIGHT、R2MED 在內的多個榜單,擊敗了 UMASS 大學,Waterloo 大學,Meta 在內的多個大學和機構,于 2025 年 8 月 9 日榮登榜單第一名。我們更小尺寸的 ReasonRank-7B 也遠遠超越了其他 32B 大小的推理型排序大模型,同時相比 pointwise 排序器具備明顯的效率優勢。此外,我們的論文還獲得了 Huggingface paper 日榜第一名。

圖 1:8 月 9 日,ReasonRank 在 BRIGHT benchmark 上榮登榜單第一名

  • 論文標題:ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
  • 論文鏈接:https://arxiv.org/pdf/2508.07050
  • 代碼倉庫:https://github.com/8421BCD/ReasonRank/
  • 開源數據 & 模型:https://huggingface.co/collections/liuwenhan/reasonrank-68941e9e6af7edd3714ee6e2

研究動機:復雜推理型訓練數據的缺乏

近來,test-time reasoning 已經被證明能夠提升文檔排序器的排序效果。其通過在給出最終排序結果前,先顯式進行一系列推理過程(查詢理解,文檔比較等等)。然而,由于推理密集型(reasoning-intensive)排序訓練數據的稀缺,現有推理型排序器均依賴 MSMARCO 這種傳統 web 搜索數據進行訓練。

這些數據主要側重簡單的語義或詞匹配,導致模型在面臨復雜搜索場景(如 StackExchange 復雜查詢、代碼類查詢、數學類查詢等)時泛化能力受限。而使用人工標注構造推理密集型排序訓練數據代價又是非常高的。

方法設計:數據合成 + 兩階段訓練

為破解推理密集型排序訓練數據稀缺的問題,我們提出了基于 DeepSeek-R1 的自動化數據合成框架,生成了 13K 高質量的推理密集型 listwise 排序訓練數據。基于合成的訓練數據,我們進一步設計了一個兩階段的訓練框架包括 Supervised Fine-Tuning (SFT) 和 Reinforcement Learning (RL)。在 RL 階段,不同于以往僅使用排序指標作為獎勵(reward),我們基于 listwise 排序中滑動窗口策略的特性設計了 multi-view ranking reward,其更適合 listwise 排序。

1. 數據合成

傳統模型在復雜排序任務上表現差,主要是由于缺少面向復雜推理搜索場景的訓練數據的缺失。根據已有的 IR benchmarks,我們將復雜搜索查詢分為四大類并收集了對應領域的用戶查詢:

  • 復雜問答型查詢
  • 代碼類查詢
  • 數學類查詢
  • 網頁搜索類查詢

有了查詢,如何挖掘高質量的候選文檔列表以及構造訓練 label 是一個關鍵問題,其直接影響模型訓練的效果。

在本文,我們提出利用強大的 DeepSeek-R1 從海量的 web 頁面和已有的文檔 corpus 挖掘其相關文檔以及不相關文檔(包含難負例)。在這個過程,我們還給 R1 提供了 query 的人工標注的正確答案來提高挖掘的準確性,相比傳統蒸餾,這樣能夠進一步提升 R1 相關性判斷的準確性。

這樣我們便得到了文檔的 pointwise 訓練標簽(相關 / 不相關)。為了訓練最終的 listwise 排序器,我們繼續利用 DeepSeek-R1 對候選文檔進行 listwise 排序,得到 listwise 訓練標簽(包含推理鏈以及最終的 gold ranking list)。

為了提升訓練數據的質量,我們進一步設計了一個自一致性(self-consistency)數據過濾機制。

我們利用得到的 pointwise 標簽對 listwise 標簽中的 gold ranking list 計算排序指標 NDCG@10,小于閾值 α 的數據將被過濾掉(表明教師模型 R1 判斷不一致,相應數據樣本被丟棄),最終我們得到 13K 高質量的多領域訓練數據集。

2. 兩階段訓練

階段一:冷啟動 SFT

在獲得高質量的推理密集型訓練數據后,我們首先采用監督微調對大模型進行 “冷啟動” 訓練,通過 R1 的推理鏈顯式引導模型學習如何對一組文檔進行對比、推理和排序。具體而言,輸入由用戶查詢和對應的候選文檔列表組成,輸出為 listwise label(也即 R1 生成的推理鏈和 gold ranking list)。

階段二:多視角排序 reward 的強化學習

多視角排序 reward

1) 召回視角(Recall@10):

現有方法在強化學習訓練排序任務中,通常只采用單輪的 NDCG@10 作為獎勵信號。然而,我們認為這種單輪獎勵對于多輪滑動窗口的 listwise 排序任務而言是次優的。這是因為滑動窗口策略要求模型在排序時進行多輪、序列化的局部決策:每一步窗口內的前 10 個文檔才會被傳遞給下一個排序窗口,并通過滑動窗口不斷迭代,實現整體排序。此時,單獨優化每一窗口的 NDCG 指標,并不一定能夠帶來全局最優的排序效果。基于上述觀察,我們在強化學習獎勵設計中,額外引入了 Recall@10 指標來確保重要文檔不會在滑動過程中被遺漏,有助于后續窗口獲得更優的排序基礎。

2) 排序相似度視角(RBO):

此外,相較于基于 pointwise 標簽計算 NDCG@10,我們認為 listwise 訓練標簽的 gold ranking list 能夠提供更細粒度的排序信號。因此,我們引入 RBO(Rank-biased Overlap)指標,作為補充排序獎勵,用于衡量當前排序結果與金標準排序的相似性。

我們將 NDCG@10、Recall@10 和 RBO 結合,構建了多視角排序獎勵:

格式 reward

為了保證正確的輸出格式,我們考慮了兩種格式:

(1)輸出格式:保證輸出內容嵌套在 <think> 和 < answer > 標簽中;

(2)答案格式:<answer > 標簽內的排序列表要滿足特定的輸出格式(例如:[4] > [2] > …)。

最終,我們的強化學習 reward 計算如下,我們使用 GRPO 算法進行 RL 優化。

核心實驗 1:多個 benchmarks 上效果實現 SOTA

為充分評估 ReasonRank 在不同推理型搜索任務上的效果,我們選取了兩個推理型 IR benchmark:

  • BRIGHT:包含 12 個推理密集型搜索任務,涉及復雜問答型檢索,代碼類檢索,定理類檢索等等
  • R2MED:包含 8 個面向醫療類的復雜查詢檢索數據集,覆蓋問答參考文獻檢索、臨床證據檢索和臨床病例檢索

從實驗結果可以發現:ReasonRank 顯著優于已有的排序器。ReasonRank(32B)在 BRIGHT 和 R2MED 上分別超越最好的 baselines 4-5 個點;且 ReasonRank(7B)甚至優于所有的 32B 的 baselines。

此外,我們還在傳統 IR benchmark BEIR 上開展了實驗,結果證明了其良好的泛化性。

核心實驗 2:效率優勢

我們還在 BRIGHT 上測試了 ReasonRank 的排序效率,并與推理型 pointwise 排序器 Rank1 比較。在以往,pointwise 排序器被認為是最高效的。然而,推理場景下,我們發現我們的 listwise 排序器 ReasonRank 效率顯著高于 pointwise 排序器 Rank1。這種高效性來自于 Rank1 需要為每個段落生成推理鏈,而 ReasonRank 一次處理 20 個段落,只生成一條推理鏈,大大減少了輸出的 token 數量。

核心實驗 3:消融實驗

我們還開展了詳盡的消融實驗,結果證明了我們構造的多領域數據集相比于單領域(MSMARCO)的效果優勢以及我們兩階段訓練框架和 multi-view ranking reward 設計的合理性。

總結與未來展望

我們在本文提出了多領域面向推理型排序的訓練數據,解決了訓練數據上的難題。并設計了合理的 SFT 和 RL 訓練方法,充分激發了推理型排序器的效果。未來,如何基于大模型的推理能力繼續提升搜索排序器的效果,我們認為仍有多個方向值得探索:

  • 引入非推理型數據:未來可以在訓練過程中融合非推理型數據,使模型能夠靈活適應不同難度的搜索場景,在推理與非推理模式間自如切換,提升排序器的通用性和實用性。
  • 探索基于全排序(full ranking)的推理型重排序方法:已有的工作已經證明 LLM 一次排序全部候選文檔的能力。未來可以結合 LLM 強大的全排序能力,研究基于推理的全局排序方法,替代當前的滑動窗口策略,以提升模型在大規模文檔排序任務中的效率和表現。
  • 嘗試多樣化模型骨干:后續可嘗試以 Llama 3.1、以及推理型 LRM(例如 Qwen3)等更多不同類型的大語言模型作為 ReasonRank 的基礎,進一步驗證方法的通用性和有效性。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-27 12:03:11

2025-10-15 00:00:00

2023-06-19 19:26:54

模型開源

2020-05-07 10:02:46

編程語言JavaC語言

2011-06-20 17:26:42

斑馬技術條碼打印RFID打印機

2022-08-18 15:13:37

模型參數

2024-08-27 09:35:47

2025-04-11 12:04:58

2025-03-05 16:19:50

2023-12-23 23:08:21

語音數據

2024-02-04 07:20:00

AI模型

2025-03-10 08:00:00

RAG檢索Reranker

2015-09-06 08:55:54

Java自帶排序算法

2023-06-06 14:09:32

模型開源

2024-09-18 10:37:00

強化學習AI模型

2023-08-15 14:05:27

AI模型

2012-07-13 11:08:11

Rovio憤怒的小鳥移動游戲

2022-12-23 10:37:41

JavaScript文檔

2025-01-16 08:40:00

2025-10-24 13:00:19

點贊
收藏

51CTO技術棧公眾號

狼人精品一区二区三区在线| 九色视频网站在线观看| 91精品入口| 日韩av中文字幕在线播放| 免费毛片小视频| 国产精品综合| 色av中文字幕一区| 黄视频网站在线看| 亚洲欧美一区二区视频| 四虎免费在线观看视频| 亚洲女同中文字幕| 久久99亚洲热视| 午夜精品成人av| 精品国产电影一区二区| 在线影视一区| 亚洲少妇最新在线视频| 黄色动漫在线免费看| 久久99精品国产.久久久久| 成人自拍爱视频| 欧美视频导航| 亚洲a∨日韩av高清在线观看| 动漫av一区| 久久天天躁狠狠躁夜夜爽蜜月| 久久99亚洲网美利坚合众国| 欧美日韩国产成人在线91| 日本在线视频1区| 婷婷综合另类小说色区| 在线观看你懂| 欧美欧美午夜aⅴ在线观看| www亚洲人| 欧美另类z0zxhd电影| 久草中文在线| 精品国产免费人成在线观看| 免费在线小视频| 一区二区三区四区在线观看视频| 六九午夜精品视频| 色综合久久久888| 久久夜色精品国产噜噜av小说| 国产91精品久久久久久| 欧美伦理在线视频| 国产精品露出视频| 国产成人av网站| 国产男小鲜肉同志免费| 欧美在线视频全部完| 三上悠亚激情av一区二区三区| 日韩中文字幕视频在线| 国产在线播放精品| 久久波多野结衣| 久久综合九色综合欧美98 | 亚洲婷婷噜噜| 永久免费毛片在线播放不卡 | 日韩av电影中文字幕| 亚洲综合二区| 亚洲一级免费在线观看| 91精品国产入口| 日韩国产一区二区| 免费人成自慰网站| 欧美日韩亚洲丝袜制服| 97久久中文字幕| 日韩欧美三级一区二区| 欧美国产日韩精品免费观看| 手机在线免费看av| 国产欧美精品一区二区| www.av精品| f2c人成在线观看免费视频| 国产精品久久久久久久久久三级 | 国产女人18毛片水真多成人如厕| 国产高清在线a视频大全| 国产精品视频免费观看www| 国产精品欧美一级免费| 嗯~啊~轻一点视频日本在线观看| 国产精品日韩在线| 亚洲六月丁香色婷婷综合久久 | 中文字幕一区二区三区四区不卡 | 亚洲欧美制服综合另类| 国自产拍偷拍福利精品免费一| 独立日3在线观看完整版| 欧美激情2020午夜免费观看| 国产美女精品在线| 免费av不卡在线观看| 成人免费看片网址| 欧洲国产伦久久久久久久| 日韩在线综合| 国产区视频在线| av成人在线电影| 欧美色中文字幕| 天堂久久一区二区三区| 青春草视频在线| 超碰成人在线免费观看| 日韩黄在线观看| 亚洲视频在线观看一区| 国产伦精品一区二区三区免费优势| 哪个网站能看毛片| 日韩免费观看网站| 91久久国产最好的精华液| 一二三区不卡| free性欧美hd另类精品| 97视频在线免费| 81精品国产乱码久久久久久| 亚洲精品综合在线| 国产美女一区| 性欧美xxx69hd高清| 日韩a在线播放| 成人免费午夜电影| 亚洲久久久久久久久久| 亚洲精品国产第一综合99久久| 亚洲欧美日本视频在线观看| abab456成人免费网址| 天天看片激情网站| 日本日本精品二区免费| 欧美高清在线播放| 欧亚一区二区三区| 91老司机福利 在线| 精品成人免费| 1769国产精品视频| 国产精品剧情一区二区在线观看| 日韩欧美xxxx| 91精品视频在线看| 尤物tv国产一区| 91精品国产入口| 一区二区欧美精品| 成人性色生活片免费看爆迷你毛片| 女仆av观看一区| а√天堂资源国产精品| 最爽无遮挡行房视频在线| 九色福利视频| 日韩精品久久久| 国产欧美日韩免费看aⅴ视频| 精品国内亚洲在观看18黄| 欧美成人精品福利| 色女孩综合影院| 亚洲精品视频一区| 久久精品在线观看| 99久久精品国产网站| 国产成人福利片| 狠狠色狠狠色合久久伊人| 久久精品伊人| 日韩成人伦理电影在线观看| 欧美精品三级| 亚洲啪啪91| 在线亚洲一区| 午夜影院日韩| 久久精品国产亚洲a| 精品在线一区二区| 欧美网站在线| 老鸭窝91久久精品色噜噜导演| 国内精品美女在线观看| 影音先锋中文字幕一区| 免费在线观看精品| 国产精品性做久久久久久| 国产91精品一区二区麻豆亚洲| 99re成人精品视频| 亚洲国产精品久久久久婷婷884| 色婷婷综合久久久久中文一区二区 | 精品视频久久久久久久| 国产亚洲美女久久| 色综合久久悠悠| 57pao国产精品一区| 国产一区玩具在线观看| 免费试看一区| 国产婷婷一区二区三区| 91福利在线看| 欧美日韩中文字幕综合视频| 欧美日本在线看| 亚洲区在线播放| 日本乱人伦a精品| 日本公妇乱淫免费视频一区三区| 中国女人做爰视频| 亚洲欧美国产中文| 91大神在线网站| 欧美成人福利| 久久在线免费| 国产一区二区女| 91久久精品日日躁夜夜躁欧美| 日韩精品视频观看| 成人免费激情视频| 日韩黄色片视频| 女人黄色免费在线观看| 欧美裸体在线版观看完整版| 日日摸夜夜添夜夜添精品视频| 欧美国产一区二区| 亚洲精品720p| 蜜桃视频在线观看成人| 老司机很黄的视频免费| 精品久久在线| 九色porny丨国产精品| 色婷婷激情综合| 97色在线视频观看| 国产精品入口芒果| 欧美v亚洲v| 欧美一区激情| 一区二区视频在线看| 久久久免费观看| 国产在线青青草| 国产原创一区| 成人一区二区三区中文字幕| 精品对白一区国产伦| 日韩在线三区| 国产色播av在线| 国产原创一区二区三区|