終結(jié)數(shù)據(jù)荒！智源開源首個(gè)Deep Research數(shù)據(jù)合成框架InfoSeek

2025-09-17 14:47:51

在大模型走向深度研究的道路上，高質(zhì)量數(shù)據(jù)一直是最大短板。近日，北京智源人工智能研究院發(fā)布首個(gè)面向深度研究的大規(guī)模開源數(shù)據(jù)集InfoSeek，并提出了創(chuàng)新性的「擴(kuò)散-回溯」數(shù)據(jù)合成方法。基于5萬(wàn)條自動(dòng)生成的高難度訓(xùn)練樣本，智源僅用3B參數(shù)規(guī)模的模型，就在BrowseComp-Plus基準(zhǔn)上取得接近Gemini等商業(yè)模型的表現(xiàn)！

近日，北京智源人工智能研究院（簡(jiǎn)稱「智源研究院」）發(fā)布開源數(shù)據(jù)集InfoSeek，成為首個(gè)面向深度研究（Deep Research）場(chǎng)景的大規(guī)模開源數(shù)據(jù)集。

在這一工作中，智源研究團(tuán)隊(duì)揭示了深度研究問(wèn)題與層級(jí)約束滿足問(wèn)題（Hierarchical Constraint Satisfaction Problem）之間的數(shù)學(xué)等價(jià)關(guān)系，并由此提出了基于「擴(kuò)散-回溯」過(guò)程的數(shù)據(jù)合成方法，實(shí)現(xiàn)了深度研究訓(xùn)練數(shù)據(jù)的大規(guī)模自動(dòng)擴(kuò)增。

利用上述方法，研究團(tuán)隊(duì)總計(jì)合成了包含5萬(wàn)條訓(xùn)練樣本的數(shù)據(jù)集InfoSeek，并據(jù)此訓(xùn)練出參數(shù)規(guī)模僅3B的智能體模型。

在BrowseComp-Plus基準(zhǔn)測(cè)試中，該模型取得了16.5%的準(zhǔn)確率，性能已接近Gemini、Sonnet 4.0等領(lǐng)先商業(yè)模型，充分驗(yàn)證了該方法在深度研究任務(wù)上的有效性與潛力。

相關(guān)數(shù)據(jù)集與數(shù)據(jù)合成方法現(xiàn)已面向社區(qū)開放，為推動(dòng)該領(lǐng)域研究提供了堅(jiān)實(shí)基礎(chǔ)。

資源鏈接：

數(shù)據(jù)集：

https://huggingface.co/datasets/Lk123/InfoSeek

代碼倉(cāng)庫(kù)：

https://github.com/VectorSpaceLab/InfoSeek

技術(shù)報(bào)告：

https://arxiv.org/abs/2509.00375

簡(jiǎn)介

從撰寫行業(yè)調(diào)研報(bào)告到梳理復(fù)雜的學(xué)術(shù)脈絡(luò)，我們對(duì)大模型的期待早已超越了簡(jiǎn)單的問(wèn)答。

由此，誕生了「深度研究」（Deep Research）問(wèn)題。

與傳統(tǒng)的QA任務(wù)不同，這類問(wèn)題需要更高維度的推理和檢索，往往需要重復(fù)多輪以下步驟：?jiǎn)栴}拆解、多元信息獲取、結(jié)果整合。

然而，模型/智能體在這類任務(wù)上的表現(xiàn)尚不盡人意，其中一個(gè)關(guān)鍵的障礙是缺乏高質(zhì)量訓(xùn)練數(shù)據(jù)。

現(xiàn)有數(shù)據(jù)集或難度較低，或結(jié)構(gòu)單一，難以教會(huì)模型如何像人類專家一樣，面對(duì)一個(gè)龐大而模糊的問(wèn)題，層層深入，最終找到答案。

為彌補(bǔ)這一缺失，智源研究院推出了一個(gè)專為Deep Research構(gòu)建的數(shù)據(jù)合成框架與首個(gè)開源數(shù)據(jù)集InfoSeek，為推動(dòng)這一領(lǐng)域的更進(jìn)一步發(fā)展提供了堅(jiān)實(shí)基礎(chǔ)。

傳統(tǒng)QA大多為單一/多約束滿足問(wèn)題（Condition Satisfaction Problem），只需要使用一次或數(shù)次檢索就能獲得答案；

多跳問(wèn)題（Multi-hop Problem）是NLP中一直較有挑戰(zhàn)的一類任務(wù)，其具有的鏈?zhǔn)浇Y(jié)構(gòu)，需要依次解決多個(gè)單一約束滿足問(wèn)題并推理出最終答案。

如下圖所示，基于這兩類問(wèn)題，智源研究院提出將深度研究問(wèn)題定義為層級(jí)約束滿足問(wèn)題（Hierarchical Condition Satisfaction Problem），以涵蓋深度研究所具有的多層級(jí)、多分枝的復(fù)雜結(jié)構(gòu)。

圖1. 各類QA任務(wù)的定義與示例

基于這一定義，團(tuán)隊(duì)設(shè)計(jì)了能夠自動(dòng)化的智能體pipeline。

通過(guò)「擴(kuò)散」的方式，從一個(gè)根節(jié)點(diǎn)出發(fā)，構(gòu)造出HCSP的樹狀結(jié)構(gòu)，并通過(guò)「回溯」，從葉子節(jié)點(diǎn)倒推回根節(jié)點(diǎn)來(lái)確認(rèn)每個(gè)HCSP的正確性和有效性。

圖2. InfoSeek構(gòu)造HCSP的智能體流程示意圖

智源研究院將這一構(gòu)造方法，和通過(guò)其構(gòu)造的50k條高質(zhì)量QA數(shù)據(jù)全部開源，并通過(guò)使用這一批數(shù)據(jù)來(lái)進(jìn)行模型訓(xùn)練，在數(shù)個(gè)難度極高的QA基準(zhǔn)上驗(yàn)證了InfoSeek的有效性。

數(shù)據(jù)集

智源研究院開源的InfoSeek數(shù)據(jù)集包含超過(guò)5萬(wàn)條樣本。其中數(shù)據(jù)主要集中在需要4–6中間節(jié)點(diǎn)的問(wèn)題上。為了驗(yàn)證其難度，研究人員使用Qwen2.5-72B模型并采用CoT進(jìn)行測(cè)試，結(jié)果顯示其整體失敗率高達(dá)91.6%。

值得一提的是，InfoSeek的數(shù)據(jù)構(gòu)造流程支持這一數(shù)據(jù)集的持續(xù)擴(kuò)容。同時(shí)，可以進(jìn)一步包含更多的中間節(jié)點(diǎn)來(lái)繼續(xù)加大問(wèn)題的難度。

表格1. InfoSeek開源數(shù)據(jù)集統(tǒng)計(jì)信息

實(shí)驗(yàn)

基于InfoSeek訓(xùn)練的模型在BrowseComp-Plus上取得了非常突出的成績(jī)。

與沒(méi)有經(jīng)過(guò)額外微調(diào)的Qwen3，和在傳統(tǒng)QA數(shù)據(jù)集NQ、HotpotQA上訓(xùn)練的Search-R1模型相比，基于InfoSeek訓(xùn)練的模型在面對(duì)BrowseComp中的困難問(wèn)題時(shí)，能夠通過(guò)大幅提高搜索次數(shù)，以檢索需要的信息。

其帶來(lái)的助力也直接體現(xiàn)在了正確率的提升上，16.5%的準(zhǔn)確率取得了當(dāng)前開源模型的最佳效果，并且能夠與Gemini、Sonnet 4.0等商業(yè)模型媲美。

圖3. 各模型在BrowseComp-Plus基準(zhǔn)上的表現(xiàn)，基于InfoSeek訓(xùn)練的3B模型的表現(xiàn)與當(dāng)前的主流商業(yè)模型媲美

同時(shí)，以HotpotQA等為代表的傳統(tǒng)QA基準(zhǔn)，通過(guò)高質(zhì)量的多跳問(wèn)題來(lái)評(píng)估模型進(jìn)行多輪的推理和檢索工具調(diào)用的能力。

智源研究院使用InfoSeek數(shù)據(jù)所訓(xùn)練的模型，在多個(gè)多跳QA的benchmark上取得了非常亮眼的表現(xiàn)，進(jìn)一步驗(yàn)證了InfoSeek的有效性。

圖4. 各模型在多跳QA基準(zhǔn)上的表現(xiàn)

總結(jié)

數(shù)據(jù)的質(zhì)量決定了模型的高度。

InfoSeek為開源社區(qū)提供了高質(zhì)量的訓(xùn)練數(shù)據(jù)和數(shù)據(jù)合成框架，為未來(lái)Deep Research的發(fā)展提供助力。

智源研究院也會(huì)在這一領(lǐng)域持續(xù)深耕，未來(lái)期待與更多科研機(jī)構(gòu)及產(chǎn)業(yè)伙伴合作，共同推動(dòng)檢索與人工智能的發(fā)展。

歡迎研究者與開發(fā)者關(guān)注并使用InfoSeek及后續(xù)系列工作，共建開放繁榮的開源生態(tài)。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 開源模型

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

終結(jié)數(shù)據(jù)荒！智源開源首個(gè)Deep Research數(shù)據(jù)合成框架InfoSeek

簡(jiǎn)介

數(shù)據(jù)集

實(shí)驗(yàn)

總結(jié)