Gemini-3-Pro強勢登頂，GPT-5.1轉向“創作型選手”？丨多模態模型11月最新榜單揭曉精華

發布于 2025-12-12 00:32

瀏覽

0收藏

多模態大模型的崛起，正在重新定義我們理解與使用 AI 的方式。當模型能夠像人類一樣，將圖像、文本、語音、視頻等信息自然融會貫通時，它便獲得了更完整、更真實的世界視角。跨模態的統一認知讓 AI 不再停留在“看見”“聽到”的感知層面，而是能夠讀懂語境、推演邏輯、輔助決策，展現出向通用智能邁進的關鍵能力。隨著算法、數據與算力的不斷進化，多模態大模型正加速從實驗室走向產業深處，在越來越多的應用場景中持續釋放價值，引領智能時代的全面升級與加速到來。

司南持續關注大模型的發展動態，基于閉源評測基準，近期針對國內外主流多模態模型進行了全面評測，現公布司南多模態模型 11 月評測榜單。

需要提示的是：由于榜單規則，為提升閉源評測集榜單的時效性與先進性，我們對部分舊模型進行了移除，并測試了他們的最新版本。

綜合榜單解讀

整體性能排名

本次評測中，隨著 Gemini-3-Pro 的發布，榜單的最高得分再創新高，達到了 66.35。
在整體性能上，Gemini-3-Pro 在空間感知能力上的大幅度領先以及在信息圖形感知能力上的優勢，助力其以大比分領先第二名的 Seed1.6-vision-250815，而其在視覺質量感知和多模態創作領域雖仍居于前列，但仍無法達到全方面領先。
在其他本次新上榜的模型中，OpenAI 的 GPT-5.1 在綜合能力上有所下降，但在多模態創作領域卻能斬獲最高分，印證了 OpenAI 對 GPT-5.1 的 “更具對話感、更加溫暖” 的宣傳。Qwen3-VL-235B-A22B-Thinking 則再次成為最強開源多模態模型。

Gemini-3-Pro強勢登頂，GPT-5.1轉向“創作型選手”？丨多模態模型11月最新榜單揭曉-AI.x社區

深層洞察

開源模型再次沖擊榜單新高，推理模型優勢明顯

開源模型 Qwen3-VL-235B-A22B-Thinking 躍居第三，超越 GLM-4.5V ，成為開源模型中排名第一的模型，進一步鞏固了國產多模態模型在開源賽道的領先地位。
值得關注的是，推理模型，如 Qwen3-VL-235B-A22B-Thinking、GLM-4.5V，在多模態推理、信息圖形理解兩個領域擁有普遍的優勢，也導致推理模型普遍能夠在總榜單中獲得更高的排名。本次新入榜的 RBDash-v2.0-Thinking，在多模態推理維度獲得了顯著高于同參數量級指令模型的得分，展現了 Thinking 模式在該領域的有效性。
而在視覺質量感知領域，反而是小模型和非推理的指令模型獲得了相對優勢。可見 Thinking 模式也非各個領域的萬能靈藥。

閉源模型突破瓶頸，有望引領多模態模型能力的進一步提升

Gemini-3-Pro 相比 Gemini-2.5-Pro 實現全維度提升：通用感知、空間感知、信息圖形、多模態推理等領域均有顯著進步，展現了 Google 在多模態領域的持續迭代能力。
Gemini-3-Pro 打破了上一季度第一梯隊模型集中在 60 分左右的格局，以總分 66 分大比分領先，這展示了多模態模型的進步仍有不俗潛力，相信在 Gemini-3-Pro 的刺激下，各大模型廠商也將能夠愈戰愈勇，將多模態模型的整體水平帶上一個新的臺階。
GPT-5.1 模型在多模態創作領域獲得了顯著提升，和 Qwen3-VL-235B-A22B-Thinking 共同打破了多模態創作領域的得分紀錄。但值得注意的是，GPT-5.1 在其他領域表現欠佳，整體得分僅達到 GPT-5-nano 水平，可見 GPT-5.1 是一個有些偏科的選手，也許是 OpenAI 為了回應前段時間 GPT-5 “缺少人情味” 的指摘，在創作領域重點發力。不知面對 Gemini-3-Pro 的挑戰，OpenAI 后續會交出一份怎樣的答卷。

榜單規則說明

本榜單基于閉源測試數據，對不同多模態模型在通用感知、空間感知、視覺質量感知、信息圖形理解、多模態推理、多模態創作六大能力維度上的表現進行了評測，并基于歸一化分數計算模型的平均得分進行排序。閉源評測基準擁有較為豐富的題目類型，包含單選、多選、填空、開放性創作等，且為中英文雙語，可以同時考驗模型的多語言理解能力。

Gemini-3-Pro強勢登頂，GPT-5.1轉向“創作型選手”？丨多模態模型11月最新榜單揭曉-AI.x社區

子維度能力解讀

通用感知

在通用感知能力方面，閉源模型 Seed1.6-vision-250815 與 Gemini-3-Pro 并列第一。在通用感知測試中存在涉及人物識別的問題，其中 GPT 模型在此問題上現象比較嚴重，一定程度上影響了得分情況。下方的性能展示圖片標注了每個模型的拒答比率。

Gemini-3-Pro強勢登頂，GPT-5.1轉向“創作型選手”？丨多模態模型11月最新榜單揭曉-AI.x社區

視覺質量感知

在視覺質量感知方面，在前 5 名中 Qwen3-VL-235B-A22B-Instruct 為本次榜單新近上榜，此類任務涉及對圖像缺陷的判斷，這一特殊的任務類型，使很多綜合實力很強的模型得分不高，而一些小模型，如 SAIL-VL-2B、OVis2-8B 反而獲得了較高的得分。

Gemini-3-Pro強勢登頂，GPT-5.1轉向“創作型選手”？丨多模態模型11月最新榜單揭曉-AI.x社區

空間感知

在空間感知方面，很多新模型都獲得了較大幅度的提升。最為亮眼的當屬 Gemini-3-Pro，在此能力上大幅領先其他模型，展現了 Gemini 在世界知識上的強大能力。同樣亮眼的是新上榜的 VideoChatOnlineV2，獲得了與 Seed1.6-vision-250815 并列第一的好成績。

Gemini-3-Pro強勢登頂，GPT-5.1轉向“創作型選手”？丨多模態模型11月最新榜單揭曉-AI.x社區

信息圖形感知

在信息圖形感知方面，同樣是 Gemini-3-Pro 取得了排名第一的成績，但分差并沒有領先第二名的 Seed1.6 太多。開源模型則相較上期榜單在這一方面有一定性能提升，Qwen3-VL-235B-A22B-Thinking 追平了 GPT-5-mini-20250807，另外一個新上榜的模型 RBDash-v2.0-Thinking 以 38B 的參數量同樣躋身前十名的行列，期待開源模型能夠在后續取得更好的成績。

Gemini-3-Pro強勢登頂，GPT-5.1轉向“創作型選手”？丨多模態模型11月最新榜單揭曉-AI.x社區

多模態推理

在多模態推理方面，GPT-5-20250807 在評測中維持了第一名的成績，而 Gemini-3-Pro 則超越了前代 Gemini-2.5-Pro，成為了新的第二名。總體而言，閉源模型在推理能力方面占據較強的統治地位，開源模型仍在持續追趕中，Qwen3-VL-235B-A22B-Thinking 躋身前十，而開源模型中的第一名依然是 InternVL3.5-241B-A28B。

Gemini-3-Pro強勢登頂，GPT-5.1轉向“創作型選手”？丨多模態模型11月最新榜單揭曉-AI.x社區

多模態創作

在多模態創作方面，GPT-5.1 異軍突起，雖然在其他維度的能力僅為中上游，但在多模態創作能力上較第二名打出了一個較大的分差，可見 GPT 在創作領域的補強卓見成效。而 Qwen3-VL-235B-A22B-Thinking 和 Qwen3-VL-235B-A22B-Instruct 的表現同樣亮眼，兩個模型雙雙強勢進入前十名，打破了此前閉源模型在此維度的大幅領先地位。

Gemini-3-Pro強勢登頂，GPT-5.1轉向“創作型選手”？丨多模態模型11月最新榜單揭曉-AI.x社區圖片