国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

人大清華提出自主搜索版「Search-o1」!解決知識困境,大幅提升推理模型可靠性

人工智能
人大清華團隊提出Search-o1框架,大幅提升推理模型可靠性。尤其是「文檔內推理」模塊有效融合了知識學習與推理過程,在「搜索+學習」范式基礎上,使得模型的推理表現與可靠性都更上一層樓。

自OpenAI發布o1以來,如何復現并改進o1就成為了LLM研究的焦點。

盡管以OpenAI-o1、Qwen-QwQ和DeepSeek-R1為代表的推理模型,其推理能力已然震驚四座,但由于在長鏈推理過程中仍然面臨著「知識不足」的問題,導致這些模型在推理過程還包含著一些不確定性和潛在錯誤。

類似于OpenAI-o1在處理復雜問題時,每次推理過程中平均會遇到超過30個不確定術語實例,如「或許」和「可能」。這不僅增加了推理的復雜性,還使得手動驗證推理過程更具挑戰性。

因此,自動化補充推理過程中所需知識對于提升大型推理模型的可信度變得至關重要。

為了解決這一問題,人大高瓴攜手清華團隊提出了Search-o1框架。該框架通過集成自主檢索增強生成(Agentic Retrieval-Augmented Generation)機制和文檔內推理(Reason-in-Documents)模塊,解決了大型推理模型(LRMs)固有的知識不足問題。

同時也使得LRMs能夠在推理過程中自主檢索并無縫整合外部知識,從而提升其長步驟推理能力的準確性和連貫性。在科學、數學、編程等多樣復雜推理任務以及多個開放域問答基準上的全面實驗表明,Search-o1 始終優于現有的檢索增強和直接推理方法。

值得注意的是,Search-o1 不僅在處理復雜推理挑戰上超越了基線模型,還在特定領域達到了與人類專家相當甚至超越的表現水平。

圖片圖片

論文鏈接:https://arxiv.org/abs/2501.05366

如下圖所示,在對比推理過程中出現的不確定性詞語的平均次數時,Search-o1明顯比直接進行推理的模型要低,尤其是「alternatively」出現的次數甚至還不到后者的一半。

高頻不確定詞出現次數對比高頻不確定詞出現次數對比

同時Search-o1也明顯低于標準RAG。因為標準RAG僅以問題導向的方式檢索一次相關知識,而在復雜推理場景中,每一步所需的知識往往是多樣且多變的。

與它們不同,Search-o1采用了一種代理式RAG技術,指導模型在面對知識短缺時主動解碼去搜索查詢,從而觸發檢索機制以獲取相關外部知識。得益于這一設計的優勢,Search-o1的檢索機制可以在一次推理會話中多次觸發和迭代,以滿足各種推理步驟的知識需求。

框架介紹

研究者將以下三種推理范式做了一個流程概述的對比:

  • 原始推理模式:考慮下圖(a)中的例子,其任務為確定三步化學反應最終產物中的碳原子數量。然而當遇到知識空白時,例如「反式肉桂醛的結構」,原始推理方法就會失效。因為在無法獲取準確信息的情況下,模型必須依賴假設,這就可能導致后續推理步驟中產生連環錯誤。
  • 代理式RAG:為了在推理過程中彌合知識差距,圖(b)代理式RAG機制能夠使模型在需要時自主檢索外部知識。當出現不確定性時,例如關于化合物結構的問題,模型則會生成有針對性的搜索查詢。然而,直接處理檢索到的文檔(這些文檔通常包含冗長且不相關的信息)可能會打斷推理流程并影響連貫性。
  • Search-o1:Search-o1框架(圖(c))通過整合一個「文檔內推理」模塊擴展了代理式RAG機制。該模塊將檢索到的文檔內容濃縮為聚焦的推理步驟,這些步驟在保持推理鏈邏輯流暢的同時,融入了外部知識。它考慮當前搜索查詢、檢索到的文檔以及現有的推理鏈,以生成連貫的步驟。這一迭代過程持續進行,直至得出最終答案。

三種框架的概述對比三種框架的概述對比

簡要來講,Search-o1推理首先將任務指令與具體問題相結合。當推理模型生成推理鏈時,可能會創建帶有特殊符號標記的搜索查詢。

檢測到搜索查詢后,接著會觸發對相關外部文檔的檢索。這些文檔隨后由文檔內推理模塊處理,提取并精煉必要信息。

精煉后的知識被重新整合到推理鏈中,確保模型在保持連貫和邏輯流程的同時,融入關鍵的外部信息,最終實現全面的推理過程并得出最終答案。

研究者將推理模型的目標定義為生成每個問題q的全面解決方案,包括邏輯推理鏈?和最終答案a,并使推理模型能夠在推理過程中利用外部知識源。

圖片圖片

如上述算法流程圖所示:對于每個問題,Search-o1推理首先通過將任務指令I與特定問題q連接來初始化推理序列。隨著推理模型?生成推理鏈?,它可能會產生封裝在特殊符號<|begin_search_query|>和<|end_search_query|>之間的搜索查詢。

一旦檢測到符號,相應的搜索查詢圖片會被提取出來,觸發檢索函數Search以獲取相關的外部文檔??。

這些檢索到的文檔,連同文檔內推理指令圖片和當前的推理序列?,隨后由文檔內推理模塊處理。該模塊將原始文檔提煉為簡潔、相關的信息圖片并無縫地將其整合回推理鏈?中的符號和內。這一迭代過程確保了推理模型在保持連貫性和邏輯一致性的同時,融入必要的外部知識,從而生成全面的推理鏈 ? 和最終答案a。

具體而言,研究者在問題解決過程中考慮三個主要輸入:任務指令I 、問題q和外部檢索的文檔??。其中,I提供了推理任務的總體描述,q是要回答的具體復雜問題,??包括從相關知識庫動態檢索的背景知識。

目標是設計一種推理機制,有效整合I、q和??,以生成連貫的推理鏈?和最終答案a。這可以形式化為映射(I,q,??)→(?,a)。推理序列和最終答案的生成可表示為:

圖片圖片

其中Tr是推理序列?中的標記數量。位置t處的標記是?t,而?<t表示在位置t之前生成的所有標記。??≤t表示在推理鏈中直到標記t為止檢索到的所有文檔。同樣地,Ta是答案序列a的長度,at是位置t處的標記,a<t表示在位置t之前生成的所有答案標記。

代理檢索增強生成機制

代理式RAG機制是Search-o1框架的關鍵組成部分,它賦予推理模型在推理過程中自主決定何時檢索外部知識的能力。該機制使得模型能夠自行決定是繼續生成推理步驟還是啟動檢索步驟。

在生成推理鏈?的過程中,模型可能會在特殊符號<|begin_search_query|>與<|end_search_query|>之間,間歇性地生成搜索查詢圖片,其中i索引第i個搜索步驟。每個搜索查詢都是基于當前推理過程的狀態和先前檢索到的知識生成的。每個搜索查詢的生成表示為:

圖片

其中圖片是第i個搜索查詢的長度,圖片表示在第i個搜索查詢的第t步生成的令牌,?(i?1)表示在第i個搜索步驟之前的所有推理步驟,包括搜索查詢和搜索結果。

一旦在推理序列中檢測到用于搜索查詢的一對新特殊符號,就需要暫停推理過程,并提取搜索查詢圖片。調用檢索函數 Search 以獲取相關文檔:

圖片

其中圖片表示針對第i個搜索查詢檢索到的前ki個相關文檔的集合。檢索到的文檔??(i)隨后被注入到特殊符號之間的推理鏈 ?(i?1) 中,使推理模型能夠利用外部知識繼續推理過程。

文檔內推理實現知識精煉

盡管代理RAG機制解決了推理中的知識缺口,但直接插入完整文檔可能會因其長度和冗余而破壞連貫性。

為此Search-o1框架包含了知識精煉模塊,該模塊通過使用原始推理模型的獨立生成過程,選擇性地將相關且簡潔的信息整合到推理鏈中。

此模塊處理檢索到的文檔,使其與模型的特定推理需求對齊,將原始信息精煉為僅相關的簡潔知識,同時保持主推理鏈的連貫性和邏輯一致性。

對于每個搜索步驟i,令圖片表示在第i次搜索查詢之前積累的推理鏈。給定圖片、當前搜索查詢圖片和檢索到的文檔圖片,知識精煉過程分為兩個階段:首先生成中間推理序列圖片以分析檢索到的文檔,然后基于此分析生成精煉后的知識圖片。中間推理序列圖片的生成表達為:

圖片

然后基于此分析生成精煉知識圖片

圖片

隨后,精煉知識圖片被整合到推理鏈?(i)中,使模型能夠繼續生成連貫的推理步驟,并訪問外部知識。

圖片

其中圖片表示截至第i?(t)搜索步驟之前所有已提煉的知識。這種精煉的知識整合確保了每個推理步驟都能訪問相關的外部信息,同時保持推理過程的簡潔性和專注性。

實驗評估

Search-o1采用QwQ-32B-Preview作為backbone,進行基線實驗。本實驗的評估涵蓋兩類任務與數據集:高難度推理任務和開放領域問答任務。

高難度推理任務涉及以下三個數據集:

1. GPQA:這是一個博士級別的科學問答數據集,其中的問題均由領域專家編寫,主要用于評估模型在復雜科學推理方面的表現。

2. 數學基準測試:旨在考察模型在不同難度數學推理任務中的能力表現。

3. LiveCodeBench:該數據集用于評估LLM的編碼能力。

開放領域問答任務可分為單跳問答和多跳問答兩類。單跳問答主要考查模型對單一信息源的理解能力。多跳問答目的是評估模型在跨段落、多信息源進行推理時的綜合能力。

Search-o1在復雜推理任務的表現Search-o1在復雜推理任務的表現

在上述表格中我們可以發現:

QwQ-32B-Preview優勢顯著,無論有無檢索,它都強于傳統指令微調的大語言模型。在直接推理時,32B的QwQ模型比Qwen2.5-72B、Llama3.3-70B等更大模型表現還好,表明o1類長CoT方法在復雜推理的有效性。

RAgent-QwQ-32B表現突出,其智能體檢索機制可自主補充推理知識,多數任務中優于標準RAG模型和直接推理的QwQ-32B。但非推理模型Qwen2.5-32B 用智能體RAG時,在GPQA與標準RAG持平,數學和代碼任務卻下降,說明普通LLM難以用檢索解決復雜推理。

Search-o1性能卓越,在多數任務中超越RAgent-QwQ-32B。平均來看,它比RAgent-QwQ-32B和QwQ-32B分別高4.7%和3.1%,比非推理模型Qwen2.5-32B和Llama3.3-70B分別高出44.7%和39.3%。

檢索文檔數量的擴展分析

在本次實驗里,我們探究了性能如何隨著檢索文檔數量的改變而變化,相關結果呈現在下圖中。

實驗結果顯示,Search-o1能高效利用逐步增多的檢索文檔。隨著文檔數量增加,它在處理復雜推理任務時,性能得到顯著提升。

值得關注的是,即便Search-o1僅檢索一個文檔,其整體性能也優于直接推理(Direct Reasoning),以及使用十個檢索文檔的標準RAG模型。

這一結果進一步證實了代理型搜索(Agentic Search)與文檔內推理(Reason-in-Documents)策略行之有效。

推理中使用的top-k檢索文檔的擴展分析推理中使用的top-k檢索文檔的擴展分析

與人類專家的比較

作者在GPQA擴展集中將 Search-o1 的性能與各領域的人類專家進行了比較。下表展示了來自物理學、化學和生物學等多個學科的人類專家評估結果。

圖片

Search-o1模型在整體性能(57.9)以及物理學(68.7)和生物學(69.5)方面均優于人類專家,展示了其在處理復雜推理任務上的卓越能力。盡管Search-o1在化學子領域(40.7vs.72.6)遜于化學家,但總體上仍具有競爭優勢,特別是在跨多個領域的通用性能方面。

這凸顯了Search-o1在利用文檔檢索和推理實現跨領域性能方面的有效性,其表現可與專家級能力相媲美甚至超越。

這些發現也揭示了Search-o1在顯著提高LRMs的可靠性和多功能性方面的潛力,為復雜問題解決場景中更可信、更有效的智能系統實現鋪平了道路。

參考資料:

https://search-o1.github.io/

https://arxiv.org/abs/2501.05366

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-09-23 09:06:00

AILLM系統

2024-09-24 11:01:03

2023-06-20 13:44:49

清華推理

2025-06-11 09:19:46

2025-01-20 09:05:00

模型推理AI

2010-12-28 19:50:21

可靠性產品可靠性

2025-07-17 09:21:11

2024-12-24 16:15:04

2019-08-30 12:10:05

磁盤數據可靠性RAID

2025-09-15 09:43:33

分層推理模型循環網絡推理

2009-07-24 12:35:17

刀片惠普數據中心

2023-07-21 08:00:00

API數字世界

2010-12-28 20:04:10

網絡的可靠性網絡解決方案可靠性

2025-04-23 08:30:05

2025-04-21 08:45:00

2025-04-08 09:16:00

推理模型AI

2010-12-28 20:16:24

2011-05-25 19:31:07

Stratus信息化

2024-11-07 15:40:00

點贊
收藏

51CTO技術棧公眾號

久久精品av麻豆的观看方式| 欧美日韩国产综合视频在线观看中文| 91成人性视频| 人人干在线视频| 大桥未久av一区二区三区中文| 国产免费久久av| 色噜噜成人av在线| 日韩视频国产视频| 在线手机福利影院| 成人av资源站| 亚洲一区二区在线免费观看| 99精品在线免费在线观看| 久久亚洲国产精品成人av秋霞| 中国日本在线视频中文字幕| 国产精品久久久久毛片软件| 日本免费在线视频观看| 日韩一级精品| 亚洲aⅴ日韩av电影在线观看| 97青娱国产盛宴精品视频| 亚洲女人初尝黑人巨大| 成人在线观看免费网站| 一本大道久久a久久综合| 日韩欧美国产片| caoporm超碰国产精品| 在线看成人av电影| 久久人人精品| 久久精品国产综合精品| 欧美另类综合| 亚洲综合自拍一区| 91精品高清| 96精品久久久久中文字幕| 亚洲人和日本人hd| 亚州精品天堂中文字幕| 日韩成人视屏| 久久99亚洲热视| 91亚洲无吗| 欧美国产乱视频| 中文字幕久久精品一区二区| 欧美成年人网站| 亚洲不卡在线| 欧美极品少妇全裸体| 亚洲青青久久| 久久精品最新地址| 999久久久精品一区二区| 欧美极品xxxx| 欧美手机视频| 国产精品丝袜久久久久久高清| 免费精品国产的网站免费观看| 26uuu另类亚洲欧美日本一| 国产精品1luya在线播放| 久久91亚洲人成电影网站| 538任你躁精品视频网免费| 欧美极品欧美精品欧美视频 | 在线 亚洲欧美在线综合一区| 成人国内精品久久久久一区| 久久精品av| 成人资源视频网站免费| 国产综合网站| 亚洲精品在线免费| 国产成人精品综合在线观看 | 国产成人午夜电影网| 国产1区2区3区中文字幕| 国产69精品久久久久毛片| 国产黄色片免费在线观看| 2019国产精品| 理论视频在线观看| 一本色道久久综合亚洲aⅴ蜜桃 | 中文字幕在线高清| 精品国产一区av| 猛男gaygay欧美视频| 国产精品一区专区欧美日韩| 国产一区二区三区四区老人| 日韩视频在线播放| www.亚洲精品| 诱人的瑜伽老师3hd中字| 欧美三电影在线| 99精品国自产在线| 国产日本欧美一区二区三区| 日一区二区三区| 国产情侣av自拍| 欧美性黄网官网| 在线天堂中文资源最新版| 68精品国产免费久久久久久婷婷| 综合激情一区| 国产中文字幕乱人伦在线观看| 18成人在线观看| 宅男在线观看免费高清网站| 久久亚洲精品网站| 91精品二区| 可以在线看的av网站| 疯狂欧美牲乱大交777| 性欧美1819sex性高清| 国产成人综合av| 久久精品国产免费看久久精品| 四虎av网址| 亚洲黄色www| 欧美一区2区| 美国av在线播放| 欧美性猛交99久久久久99按摩| 日韩制服诱惑| 国产女主播一区二区| 成人在线综合网| 国产视频网址在线| 欧美精品久久久久久久久| 亚洲欧美日韩视频二区| 五月婷婷狠狠操| 亚洲福利小视频| 欧美日韩激情| 成人免费看片'免费看| 日本高清免费不卡视频| 国产精品99久久免费| 欧美日韩在线观看一区二区三区| 国产精品乱码一区二三区小蝌蚪| caopeng在线| 91久久在线视频| 日本一区二区视频在线| av不卡高清| 国产精品一区二区在线观看 | 超碰97人人做人人爱少妇| 在线日韩av| 羞羞小视频视频| 日韩成人在线电影网| 欧美在线不卡| 成人3d漫画免费无遮挡软件| 亚洲午夜色婷婷在线| 99亚洲精品| 免费男女羞羞的视频网站主页在线观看 | **欧美日韩在线观看| 国产精品视频福利| 亚洲色图制服丝袜| 欧美成人xxxx| 国产又粗又爽又黄的视频| 69av一区二区三区| 一级毛片免费高清中文字幕久久网| 成人在色线视频在线观看免费大全| 亚洲网站视频福利| 蜜桃在线一区二区三区| chinese偷拍一区二区三区| 国产精品久久久久久久久久东京 | 成人黄色在线免费| 国产欧美日韩激情| 国产精品第一| 免费在线黄网站| 亚洲精品美女网站| 久久人人97超碰国产公开结果| av中文资源在线| 成人黄色在线免费观看| 欧美日韩免费在线| 永久亚洲成a人片777777| 在线免费色视频| 国产精品日韩在线播放| 亚洲另类一区二区| 日韩av午夜| 欧美h版电影| 国产精品中文字幕在线| 亚洲午夜精品久久久久久久久| 日韩欧美美女在线观看| 一插菊花综合| 国产z一区二区三区| 一区二区三区中文字幕| 国产欧美日韩精品一区二区免费| 国产精品影视| 国产精品视频在线观看| 精品久久久久久久久久久久久久 | 男男电影完整版在线观看| 81精品国产乱码久久久久久| 久久伊人蜜桃av一区二区| 最新亚洲国产| 五月婷婷激情久久| 97在线视频一区| 亚洲在线观看免费视频| 久久亚洲影视| 欧美成人视屏| 在线电影看在线一区二区三区| 精品无人国产偷自产在线| 国产aⅴ精品一区二区三区色成熟| 成人午夜精品| 成年人在线观看视频免费| 欧美日产国产成人免费图片| 国产精品视频一二三| 欧美日中文字幕| 97超碰国产一区二区三区| 日韩久久久久久久| 日韩中文理论片| 亚洲欧洲成人精品av97| 久久理论电影| 麻豆av在线免费看| 精品视频在线观看一区二区| 久久成人精品电影| 精品一区二区三区中文字幕视频 | 精品国产三级| 91污色多多| 97视频资源在线观看| 日韩欧美成人一区二区| 国产成人免费视频网站高清观看视频| www.成人网| 欧美69xxx| 制服丝袜综合网| 久久久精品国产一区二区三区| 中文字幕亚洲一区二区三区五十路|