終結(jié)數(shù)據(jù)荒!智源開源首個(gè)Deep Research數(shù)據(jù)合成框架InfoSeek
近日,北京智源人工智能研究院(簡(jiǎn)稱「智源研究院」)發(fā)布開源數(shù)據(jù)集InfoSeek,成為首個(gè)面向深度研究(Deep Research)場(chǎng)景的大規(guī)模開源數(shù)據(jù)集。
在這一工作中,智源研究團(tuán)隊(duì)揭示了深度研究問(wèn)題與層級(jí)約束滿足問(wèn)題(Hierarchical Constraint Satisfaction Problem)之間的數(shù)學(xué)等價(jià)關(guān)系,并由此提出了基于「擴(kuò)散-回溯」過(guò)程的數(shù)據(jù)合成方法,實(shí)現(xiàn)了深度研究訓(xùn)練數(shù)據(jù)的大規(guī)模自動(dòng)擴(kuò)增。
利用上述方法,研究團(tuán)隊(duì)總計(jì)合成了包含5萬(wàn)條訓(xùn)練樣本的數(shù)據(jù)集InfoSeek,并據(jù)此訓(xùn)練出參數(shù)規(guī)模僅3B的智能體模型。
在BrowseComp-Plus基準(zhǔn)測(cè)試中,該模型取得了16.5%的準(zhǔn)確率,性能已接近Gemini、Sonnet 4.0等領(lǐng)先商業(yè)模型,充分驗(yàn)證了該方法在深度研究任務(wù)上的有效性與潛力。
相關(guān)數(shù)據(jù)集與數(shù)據(jù)合成方法現(xiàn)已面向社區(qū)開放,為推動(dòng)該領(lǐng)域研究提供了堅(jiān)實(shí)基礎(chǔ)。
資源鏈接:
數(shù)據(jù)集:
https://huggingface.co/datasets/Lk123/InfoSeek
代碼倉(cāng)庫(kù):
https://github.com/VectorSpaceLab/InfoSeek
技術(shù)報(bào)告:
https://arxiv.org/abs/2509.00375
簡(jiǎn)介
從撰寫行業(yè)調(diào)研報(bào)告到梳理復(fù)雜的學(xué)術(shù)脈絡(luò),我們對(duì)大模型的期待早已超越了簡(jiǎn)單的問(wèn)答。
由此,誕生了「深度研究」(Deep Research)問(wèn)題。
與傳統(tǒng)的QA任務(wù)不同,這類問(wèn)題需要更高維度的推理和檢索,往往需要重復(fù)多輪以下步驟:?jiǎn)栴}拆解、多元信息獲取、結(jié)果整合。
然而,模型/智能體在這類任務(wù)上的表現(xiàn)尚不盡人意,其中一個(gè)關(guān)鍵的障礙是缺乏高質(zhì)量訓(xùn)練數(shù)據(jù)。
現(xiàn)有數(shù)據(jù)集或難度較低,或結(jié)構(gòu)單一,難以教會(huì)模型如何像人類專家一樣,面對(duì)一個(gè)龐大而模糊的問(wèn)題,層層深入,最終找到答案。
為彌補(bǔ)這一缺失,智源研究院推出了一個(gè)專為Deep Research構(gòu)建的數(shù)據(jù)合成框架與首個(gè)開源數(shù)據(jù)集InfoSeek,為推動(dòng)這一領(lǐng)域的更進(jìn)一步發(fā)展提供了堅(jiān)實(shí)基礎(chǔ)。
傳統(tǒng)QA大多為單一/多約束滿足問(wèn)題(Condition Satisfaction Problem),只需要使用一次或數(shù)次檢索就能獲得答案;
多跳問(wèn)題(Multi-hop Problem)是NLP中一直較有挑戰(zhàn)的一類任務(wù),其具有的鏈?zhǔn)浇Y(jié)構(gòu),需要依次解決多個(gè)單一約束滿足問(wèn)題并推理出最終答案。
如下圖所示,基于這兩類問(wèn)題,智源研究院提出將深度研究問(wèn)題定義為層級(jí)約束滿足問(wèn)題(Hierarchical Condition Satisfaction Problem),以涵蓋深度研究所具有的多層級(jí)、多分枝的復(fù)雜結(jié)構(gòu)。

圖1. 各類QA任務(wù)的定義與示例
基于這一定義,團(tuán)隊(duì)設(shè)計(jì)了能夠自動(dòng)化的智能體pipeline。
通過(guò)「擴(kuò)散」的方式,從一個(gè)根節(jié)點(diǎn)出發(fā),構(gòu)造出HCSP的樹狀結(jié)構(gòu),并通過(guò)「回溯」,從葉子節(jié)點(diǎn)倒推回根節(jié)點(diǎn)來(lái)確認(rèn)每個(gè)HCSP的正確性和有效性。

圖2. InfoSeek構(gòu)造HCSP的智能體流程示意圖
智源研究院將這一構(gòu)造方法,和通過(guò)其構(gòu)造的50k條高質(zhì)量QA數(shù)據(jù)全部開源,并通過(guò)使用這一批數(shù)據(jù)來(lái)進(jìn)行模型訓(xùn)練,在數(shù)個(gè)難度極高的QA基準(zhǔn)上驗(yàn)證了InfoSeek的有效性。
數(shù)據(jù)集
智源研究院開源的InfoSeek數(shù)據(jù)集包含超過(guò)5萬(wàn)條樣本。其中數(shù)據(jù)主要集中在需要4–6中間節(jié)點(diǎn)的問(wèn)題上。為了驗(yàn)證其難度,研究人員使用Qwen2.5-72B模型并采用CoT進(jìn)行測(cè)試,結(jié)果顯示其整體失敗率高達(dá)91.6%。
值得一提的是,InfoSeek的數(shù)據(jù)構(gòu)造流程支持這一數(shù)據(jù)集的持續(xù)擴(kuò)容。同時(shí),可以進(jìn)一步包含更多的中間節(jié)點(diǎn)來(lái)繼續(xù)加大問(wèn)題的難度。

表格1. InfoSeek開源數(shù)據(jù)集統(tǒng)計(jì)信息
實(shí)驗(yàn)
基于InfoSeek訓(xùn)練的模型在BrowseComp-Plus上取得了非常突出的成績(jī)。
與沒(méi)有經(jīng)過(guò)額外微調(diào)的Qwen3,和在傳統(tǒng)QA數(shù)據(jù)集NQ、HotpotQA上訓(xùn)練的Search-R1模型相比,基于InfoSeek訓(xùn)練的模型在面對(duì)BrowseComp中的困難問(wèn)題時(shí),能夠通過(guò)大幅提高搜索次數(shù),以檢索需要的信息。
其帶來(lái)的助力也直接體現(xiàn)在了正確率的提升上,16.5%的準(zhǔn)確率取得了當(dāng)前開源模型的最佳效果,并且能夠與Gemini、Sonnet 4.0等商業(yè)模型媲美。

圖3. 各模型在BrowseComp-Plus基準(zhǔn)上的表現(xiàn),基于InfoSeek訓(xùn)練的3B模型的表現(xiàn)與當(dāng)前的主流商業(yè)模型媲美
同時(shí),以HotpotQA等為代表的傳統(tǒng)QA基準(zhǔn),通過(guò)高質(zhì)量的多跳問(wèn)題來(lái)評(píng)估模型進(jìn)行多輪的推理和檢索工具調(diào)用的能力。
智源研究院使用InfoSeek數(shù)據(jù)所訓(xùn)練的模型,在多個(gè)多跳QA的benchmark上取得了非常亮眼的表現(xiàn),進(jìn)一步驗(yàn)證了InfoSeek的有效性。

圖4. 各模型在多跳QA基準(zhǔn)上的表現(xiàn)
總結(jié)
數(shù)據(jù)的質(zhì)量決定了模型的高度。
InfoSeek為開源社區(qū)提供了高質(zhì)量的訓(xùn)練數(shù)據(jù)和數(shù)據(jù)合成框架,為未來(lái)Deep Research的發(fā)展提供助力。
智源研究院也會(huì)在這一領(lǐng)域持續(xù)深耕,未來(lái)期待與更多科研機(jī)構(gòu)及產(chǎn)業(yè)伙伴合作,共同推動(dòng)檢索與人工智能的發(fā)展。
歡迎研究者與開發(fā)者關(guān)注并使用InfoSeek及后續(xù)系列工作,共建開放繁榮的開源生態(tài)。

































