對抗 OpenAI GPT-5.2:谷歌祭出 Gemini Deep Research 深度研究智能體并首次向開發者開放,DeepSearchQA 因果鏈測試基準重磅開源
12 月 12 日消息,在 OpenAI 發布 GPT-5.2 之后,谷歌緊接著就推出了更強大的 Gemini Deep Research 深度研究智能體,同時推出全新交互 API(Interactions API)并藉此首次面向開發者開放。
此外,谷歌還開源了全新的深度搜索評估基準 DeepSearchQA,用于衡量多步驟復雜檢索任務中的研究全面性。此次升級標志著 AI 自主研究能力正式進入工業化應用階段。

Gemini Deep Research 基于 Gemini 3 Pro 構建,專為長周期的內容收集與綜合任務優化,幻覺率降低 40%,是谷歌迄今“最具事實性”的模型,并可通過專項訓練提升復雜任務中的報告質量。谷歌表示,通過擴展面向搜索的多步驟強化學習,該智能體能夠在復雜信息環境中以更高精度自主導航。
谷歌 DeepMind 產品經理路卡斯?哈斯(Lukas Haas)在 X 上透露,Gemini Deep Research 已經實現 SOTA,在谷歌新基準測試上得分 46.4%,在 BrowseComp 上與 GPT-5 Pro 相當,但價格只有其 1/10 左右。
Deep Research 會反復規劃研究路徑,包括形成搜索查詢、閱讀結果、識別缺口并再次搜索。本次升級帶來顯著增強的網頁搜索能力,使其能深入網站獲取具體數據。

據介紹,該智能體在 Humanity's Last Exam (HLE 人類終極考試)、DeepSearchQA 及 BrowseComp 中取得最新最優成績,并可在顯著更低成本下生成深入研究報告。谷歌稱,這項能力未來將應用到 Google Search、NotebookLM、Google Finance 及 Gemini App 之中。
DeepSearchQA:面向復雜研究智能體的全新評測基準
由于現有評測難以體現真實世界的多步驟研究復雜性,谷歌同步宣布開放 DeepSearchQA 數據集與工具。該基準包含跨 17 個領域、900 個“因果鏈”任務,每一步均依賴前序分析,要求智能體生成詳盡答案集,從而衡量其研究精度與檢索全面性。
谷歌表示,DeepSearchQA 還能作為“思考時間”效益的診斷工具。內部測試顯示,讓智能體執行更多搜索與推理步驟可顯著提升表現,這部分將在未來版本中繼續探索。

開發者可訪問數據集、排行榜與 Colab 示例,并閱讀數據集技術報告。
Deep Research 在實際領域的早期應用
谷歌稱,Gemini Deep Research 已在需要高精度和上下文理解的多個行業中展現出顯著效果,包括金融服務、生物技術和市場研究。
- 在金融行業,企業利用 Deep Research 自動化盡調中的早期信息收集環節,如整合市場信號、競爭格局與合規風險,從而提升研究效率。
- 在科研領域,Axiom Bio 使用該智能體處理藥物毒性預測相關的文獻分析,獲得更高的研究深度與顆粒度,加速藥物開發流程。
開發者能力:文件解析、結構化輸出、引用管理
通過 Interactions API,開發者可調用 Gemini Deep Research 構建下一代自動化研究工具,主要特性包括:
- 統一信息綜合:整合上傳文件(PDF、CSV 等)和公共網頁數據,并能處理大上下文量。
- 可控報告結構:可通過提示詞定義輸出結構、標題、表格格式等。
- 精細引用:為報告中各項事實提供細粒度來源。
- 結構化輸出:支持 JSON schema 以便下游處理。
Interactions API
開發者可通過 Google AI Studio 的 Gemini API Key 使用 Interactions API 構建應用。

谷歌表示,未來更新將加入原生圖表輸出、擴展 Model Context Protocol(MCP)支持以接入更多自定義數據源,并在企業服務平臺 Vertex AI 上提供 Deep Research。
參考資料:


































