Gemini 3深夜來襲：力壓GPT 5.1，大模型谷歌時代來了

作者：機器之心 2025-11-19 08:10:51

人工智能

今天，谷歌開發(fā)者關(guān)系負責人、Google AI Studio 負責人一條僅含「Gemini」一詞的推文，積蓄了數(shù)月的期待終于迎來了爆發(fā)點，推特相關(guān)話題瞬間沸騰。

Gemini 3 還沒現(xiàn)身，推特先崩為敬。

沒有哪家模型的發(fā)布比 Gemini 3 更萬眾矚目，根據(jù) Gemini 之前 3 個月更新一次的頻率，AI 社區(qū)自 9 月起便對 Gemini 3 翹首以盼。

有趣的是，臨近發(fā)布節(jié)點，推特竟「應景」地崩了幾次。盡管「幕后黑手」是 Cloudflare，但這崩潰的時機簡直精準得讓人懷疑有人背后搞鬼（小聲蛐蛐：畢竟推特是各家模型的宣傳主陣地）。

不知道今早剛發(fā)了 Grok 4.1 的馬斯克此時作何感想，反正網(wǎng)友的梗圖已經(jīng)鋪天蓋地了。

就在剛剛，Gemini 3 終于正式登場，讓我們看看在萬眾矚目下登場的它到底有多強。

一、最智能模型

事實證明，Google 沒有讓等待的人失望，Gemini 3 正式發(fā)布，再一次定義了 SOTA，奧特曼和馬斯克也發(fā)來賀電。

Google 將其定義為「通往 AGI 的重要一步」，并強調(diào)這是目前世界上多模態(tài)理解能力最強、交互最深度的智能體。

Gemini 3 不僅在基礎(chǔ)推理能力上刷新了 SOTA 標準，更通過推出全新的 Google Antigravity 平臺和 Deep Think 模式，試圖重塑開發(fā)者生態(tài)與 AI 輔助體驗。

2. 全面霸榜的推理怪獸

Gemini 3 Pro 被官方稱為「最先進的推理模型」，在幾乎所有主流 AI 基準測試中均顯著超越了前代 Gemini 2.5 Pro，并且全面壓制了 Claude Sonnet 4.5 和 GPT-5.1 等主要競品。

Gemini 3 Pro 以 1501 Elo 的突破性高分登頂 LMArena Leaderboard，在 Humanity’s Last Exam（在不使用任何工具的情況下達到 37.5%）和 GPQA Diamond（91.9%）上獲得最高分，展示了博士級的推理能力。它還在數(shù)學方面為前沿模型樹立了新標準，在 MathArena Apex 上達到了 23.4% 的最新 SOTA 水平。

除了文本與邏輯，Gemini 3 Pro 還重新定義了多模態(tài)推理的上限。它在 MMMU-Pro 和 Video-MMMU 上分別斬獲了 81% 和 87.6% 的高分，這意味著無論是解析復雜的科學圖表還是理解動態(tài)視頻流，它都游刃有余。

更值得一提的是，它在 SimpleQA Verified 上取得了 72.1% 的成績，顯示出在事實準確性上的巨大進步 —— 它不僅強，而且可靠。

3. 拒絕奉承的思維伙伴

Gemini 3 Pro 的進化不僅在于跑分，更在于交互的質(zhì)感。它摒棄了以往 AI 常見的陳詞濫調(diào)和過度奉承，變得聰明、簡潔且直接：告訴你需要聽到的，而不僅僅是你愛聽的。

它充當真正的思維伙伴，為你提供理解信息和表達自我的新方式，從通過生成高保真可視化的代碼來翻譯晦澀的科學概念，到創(chuàng)造性的頭腦風暴。

4. Gemini 3 Deep Think

Gemini 3 Deep Think 模式進一步拓展了智能的邊界，帶來了 Gemini 3 在推理和多模態(tài)理解能力上的重大進步，幫助你解決更復雜的問題。

在測試中，Gemini 3 Deep Think 在 Humanity's Last Exam（不使用工具的情況下得分 41.0%）和 GPQA Diamond（得分 93.8%）上的表現(xiàn)均優(yōu)于 Gemini 3 Pro 已相當出色的成績。此外，它在 ARC-AGI-2（代碼執(zhí)行，已通過 ARC Prize 驗證）上也取得了前所未有的 45.1% 的得分，展現(xiàn)了其解決全新挑戰(zhàn)的能力。

Gemini 3 Deep Think 模式在一些最具挑戰(zhàn)性的 AI 基準測試中表現(xiàn)出色。

二、學習、構(gòu)建與規(guī)劃

1. 學習任何事情

Gemini 從一開始就旨在無縫整合任何主題的多種模態(tài)信息，包括文本、圖像、視頻、音頻和代碼。Gemini 3 結(jié)合了其先進的推理、視覺和空間理解能力、領(lǐng)先的多語言性能以及百萬級 token 上下文窗口，進一步拓展了多模態(tài)推理的邊界，幫助你以最適合自己的方式學習。

例如，如果你想學習如何烹飪家族傳統(tǒng)菜肴，Gemini 3 可以解讀并翻譯不同語言的手寫食譜，生成可與家人分享的食譜。

或者，如果你想學習某個新主題，就可以提供學術(shù)論文、長篇視頻講座或教程，它可以生成交互式記憶卡片、可視化或其他格式的代碼，幫助你掌握相關(guān)知識。

它甚至可以分析你的匹克球比賽視頻，找出可以改進的地方，并制定訓練計劃，幫助你全面提升球技。

為了幫助你更好地理解網(wǎng)絡(luò)上的信息，搜索中的 AI 模式現(xiàn)在使用 Gemini 3 來實現(xiàn)新的生成式 UI 體驗，例如沉浸式視覺布局、交互式工具和模擬，所有這些都是根據(jù)你的查詢即時生成的。

2. 開發(fā)任何東西

在 2.5 Pro 成功的基礎(chǔ)上，Gemini 3 兌現(xiàn)了將開發(fā)者的任何想法變?yōu)楝F(xiàn)實的承諾。它在零樣本生成方面表現(xiàn)出色，能夠處理復雜的提示和指令，從而渲染出更豐富、更具交互性的 Web 用戶界面。

Gemini 3 是谷歌迄今為止構(gòu)建的最佳 Vibe 編碼和 Agent 編碼模型，它使谷歌的產(chǎn)品更加自主，并顯著提升了開發(fā)者的效率。它在 WebDev Arena 排行榜上名列榜首，獲得了令人矚目的 1487 Elo 分數(shù)。此外，它在 Terminal-Bench 2.0 測試中也取得了 54.2% 的成績，該測試旨在評估模型通過終端操作計算機的工具使用能力。同時，它在 SWE-bench Verified 測試中也大幅超越了 2.5 Pro 版本（得分為 76.2%），該測試用于衡量編碼代理的性能。

現(xiàn)在，用戶可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及谷歌全新的智能體開發(fā)平臺 Google Antigravity 中的 Gemini 3 進行構(gòu)建。它也適用于 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平臺。

比如編寫一款具有更豐富的視覺效果和更強交互性的復古 3D 太空飛船游戲。

再比如編寫更豐富、更具交互性的 Web UI 和應用程序：

3. 規(guī)劃任何事

自 Gemini 2 智能體之后，Gemini 顯著提升了長周期任務(wù)中的規(guī)劃能力。

Gemini 3 的規(guī)劃能力在 Vending-Bench 2 測試中進一步得到印證：Gemini 3 在模擬售貨機經(jīng)營測試中登頂該排行榜，全程通過長周期規(guī)劃管理虛擬商業(yè)運營。

在完整模擬年度的運營中，Gemini 3 Pro 始終保持穩(wěn)定的工具調(diào)用與決策連貫性，在持續(xù)專注任務(wù)目標的同時實現(xiàn)了更高投資回報。

Gemini 3 Pro 展現(xiàn)出更卓越的長周期規(guī)劃能力，與其他前沿模型相比，能創(chuàng)造更高的回報。

Gemini Agent 還可以幫助整理 Gmail 收件箱。

Gemini 3 現(xiàn)已全面開放。即日起，普通用戶和訂閱用戶分別可通過 Gemini App 及搜索 AI 模式使用新模型；開發(fā)者與企業(yè)客戶也能通過 AI Studio、Vertex AI 等渠道接入。至于備受期待的「深度思考模式」，預計將在未來幾周內(nèi)面向 Google AI Ultra 訂閱用戶獨家上線。

另外，根據(jù)此前泄露的模型卡，還有許多值得關(guān)注的關(guān)鍵信息：Google 使用 TPU 從頭開始訓練這個模型，作為一個 MoE，具有 1M 輸入和 64k token 輸出，MoE 意味著他們可以負擔得起使其變得便宜。

定價方面，Gemini 3.0 Pro 引入了基于上下文長度的分級定價機制：200k tokens 以下的任務(wù)，輸入 / 輸出價格為 $2.00/$12.00（每百萬 token）；超過 200k tokens 則分別為 $4.00 和 $18.00。

三、全新的「智能體優(yōu)先」開發(fā)體驗

Google Antigravity 是 Google 全新的智能體開發(fā)平臺，使開發(fā)者能夠在更高、以任務(wù)為導向的層面上進行操作。利用 Gemini 3 先進的推理、工具使用和智能體編程能力，Google Antigravity 將 AI 輔助從開發(fā)者工具箱中的一個工具轉(zhuǎn)變?yōu)榉e極的合作伙伴。

雖然 Google Antigravity 的核心是熟悉的 AI IDE（集成開發(fā)環(huán)境）體驗，但其智能體已被提升到一個專用界面，并被賦予直接訪問編輯器、終端和瀏覽器的權(quán)限。現(xiàn)在，智能體可以代表你自主規(guī)劃并同時執(zhí)行復雜的端到端軟件任務(wù)，同時驗證它們自己的代碼。

除了 Gemini 3 Pro，Google Antigravity 還緊密結(jié)合了 Google 最新的用于瀏覽器控制的 Gemini 2.5 Computer Use 模型，以及其頂級的圖像編輯模型 Nano Banana (Gemini 2.5 Image)。

四、一手體驗

既然 Gemini 3 Pro 預覽版上線了 AI Studio 平臺，我們也來上手體驗了一把。

Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.

Prompt: Create a visually stunning Space Invaders game.

鵜鶘騎自行車曾難倒一眾大模型，這次我們也讓 Gemini 3 試了下。Prompt：An animated SVG of a pelican riding a bicycle.

相比之前版本，Gemini 3 已有較大進步，不過仍有 bug，比如自行車的腳蹬在天上空轉(zhuǎn)。

我們又換了一個更為清晰的提示詞：Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 這次 Gemini 3 生成的自行車似乎沒有腳蹬。

五、寫在最后

在 X 博主 Chubby 發(fā)起的「到 2026 年底，哪家公司擁有最好的 LLM?」投票中，Google Gemini 遙遙領(lǐng)先。

這種市場信心的回升也體現(xiàn)在了數(shù)據(jù)上，Alphabet CEO Sundar Pichai 在官方博客中回顧了 Gemini 過去兩年的進展：AI Overviews 月活躍用戶已達 20 億，Gemini 應用月活突破 6.5 億，此外更有超過 70% 的云客戶以及 1300 萬開發(fā)者正在使用其生成式模型。

回望過去兩年，從 Bard（Gemini 前身）發(fā)布時的倉促應戰(zhàn)與股價暴跌，到痛定思痛合并 Google DeepMind、召回創(chuàng)始人、斬獲諾貝爾獎，Google 完成了一場教科書般的「大象轉(zhuǎn)身」。

那個曾經(jīng)定義了 Transformer、如今「All in Gemini」的巨人，已經(jīng)做好了全面反擊的準備。

至于它到底能不能終結(jié)「最好的 LLM」之爭？別急，讓子彈（和服務(wù)器）再飛一會兒。

參考鏈接：https://blog.google/products/gemini/gemini-3/#gemini-3

責任編輯：趙寧寧來源：機器之心

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看