Gemini-3-Pro強勢登頂,GPT-5.1轉向“創作型選手”?丨多模態模型11月最新榜單揭曉 精華
多模態大模型的崛起,正在重新定義我們理解與使用 AI 的方式。當模型能夠像人類一樣,將圖像、文本、語音、視頻等信息自然融會貫通時,它便獲得了更完整、更真實的世界視角。跨模態的統一認知讓 AI 不再停留在“看見”“聽到”的感知層面,而是能夠讀懂語境、推演邏輯、輔助決策,展現出向通用智能邁進的關鍵能力。隨著算法、數據與算力的不斷進化,多模態大模型正加速從實驗室走向產業深處,在越來越多的應用場景中持續釋放價值,引領智能時代的全面升級與加速到來。
司南持續關注大模型的發展動態,基于閉源評測基準,近期針對國內外主流多模態模型進行了全面評測,現公布司南多模態模型 11 月評測榜單。
需要提示的是:由于榜單規則,為提升閉源評測集榜單的時效性與先進性,我們對部分舊模型進行了移除,并測試了他們的最新版本。
綜合榜單解讀
整體性能排名
- 本次評測中,隨著 Gemini-3-Pro 的發布,榜單的最高得分再創新高,達到了 66.35。
- 在整體性能上,Gemini-3-Pro 在空間感知能力上的大幅度領先以及在信息圖形感知能力上的優勢,助力其以大比分領先第二名的 Seed1.6-vision-250815,而其在視覺質量感知和多模態創作領域雖仍居于前列,但仍無法達到全方面領先。
- 在其他本次新上榜的模型中,OpenAI 的 GPT-5.1 在綜合能力上有所下降,但在多模態創作領域卻能斬獲最高分,印證了 OpenAI 對 GPT-5.1 的 “更具對話感、更加溫暖” 的宣傳。Qwen3-VL-235B-A22B-Thinking 則再次成為最強開源多模態模型。

深層洞察
開源模型再次沖擊榜單新高,推理模型優勢明顯
- 開源模型 Qwen3-VL-235B-A22B-Thinking 躍居第三,超越 GLM-4.5V ,成為開源模型中排名第一的模型,進一步鞏固了國產多模態模型在開源賽道的領先地位。
- 值得關注的是,推理模型,如 Qwen3-VL-235B-A22B-Thinking、GLM-4.5V,在多模態推理、信息圖形理解兩個領域擁有普遍的優勢,也導致推理模型普遍能夠在總榜單中獲得更高的排名。本次新入榜的 RBDash-v2.0-Thinking,在多模態推理維度獲得了顯著高于同參數量級指令模型的得分,展現了 Thinking 模式在該領域的有效性。
- 而在視覺質量感知領域,反而是小模型和非推理的指令模型獲得了相對優勢。可見 Thinking 模式也非各個領域的萬能靈藥。
閉源模型突破瓶頸,有望引領多模態模型能力的進一步提升
- Gemini-3-Pro 相比 Gemini-2.5-Pro 實現全維度提升:通用感知、空間感知、信息圖形、多模態推理等領域均有顯著進步,展現了 Google 在多模態領域的持續迭代能力。
- Gemini-3-Pro 打破了上一季度第一梯隊模型集中在 60 分左右的格局,以總分 66 分大比分領先,這展示了多模態模型的進步仍有不俗潛力,相信在 Gemini-3-Pro 的刺激下,各大模型廠商也將能夠愈戰愈勇,將多模態模型的整體水平帶上一個新的臺階。
- GPT-5.1 模型在多模態創作領域獲得了顯著提升,和 Qwen3-VL-235B-A22B-Thinking 共同打破了多模態創作領域的得分紀錄。但值得注意的是,GPT-5.1 在其他領域表現欠佳,整體得分僅達到 GPT-5-nano 水平,可見 GPT-5.1 是一個有些偏科的選手,也許是 OpenAI 為了回應前段時間 GPT-5 “缺少人情味” 的指摘,在創作領域重點發力。不知面對 Gemini-3-Pro 的挑戰,OpenAI 后續會交出一份怎樣的答卷。
榜單規則說明
本榜單基于閉源測試數據,對不同多模態模型在 通用感知、空間感知、視覺質量感知、信息圖形理解、多模態推理、多模態創作 六大能力維度上的表現進行了評測,并基于 歸一化分數 計算模型的平均得分進行排序。閉源評測基準擁有較為豐富的題目類型,包含單選、多選、填空、開放性創作等,且為中英文雙語,可以同時考驗模型的多語言理解能力。


子維度能力解讀
通用感知
在通用感知能力方面,閉源模型 Seed1.6-vision-250815 與 Gemini-3-Pro 并列第一。在通用感知測試中存在涉及人物識別的問題,其中 GPT 模型在此問題上現象比較嚴重,一定程度上影響了得分情況。下方的性能展示圖片標注了每個模型的拒答比率。

視覺質量感知
在視覺質量感知方面,在前 5 名中 Qwen3-VL-235B-A22B-Instruct 為本次榜單新近上榜,此類任務涉及對圖像缺陷的判斷,這一特殊的任務類型,使很多綜合實力很強的模型得分不高,而一些小模型,如 SAIL-VL-2B、OVis2-8B 反而獲得了較高的得分。

空間感知
在空間感知方面,很多新模型都獲得了較大幅度的提升。最為亮眼的當屬 Gemini-3-Pro,在此能力上大幅領先其他模型,展現了 Gemini 在世界知識上的強大能力。同樣亮眼的是新上榜的 VideoChatOnlineV2,獲得了與 Seed1.6-vision-250815 并列第一的好成績。

信息圖形感知
在信息圖形感知方面,同樣是 Gemini-3-Pro 取得了排名第一的成績,但分差并沒有領先第二名的 Seed1.6 太多。開源模型則相較上期榜單在這一方面有一定性能提升,Qwen3-VL-235B-A22B-Thinking 追平了 GPT-5-mini-20250807,另外一個新上榜的模型 RBDash-v2.0-Thinking 以 38B 的參數量同樣躋身前十名的行列,期待開源模型能夠在后續取得更好的成績。

多模態推理
在多模態推理方面,GPT-5-20250807 在評測中維持了第一名的成績,而 Gemini-3-Pro 則超越了前代 Gemini-2.5-Pro,成為了新的第二名。總體而言,閉源模型在推理能力方面占據較強的統治地位,開源模型仍在持續追趕中,Qwen3-VL-235B-A22B-Thinking 躋身前十,而開源模型中的第一名依然是 InternVL3.5-241B-A28B。

多模態創作
在多模態創作方面,GPT-5.1 異軍突起,雖然在其他維度的能力僅為中上游,但在多模態創作能力上較第二名打出了一個較大的分差,可見 GPT 在創作領域的補強卓見成效。而 Qwen3-VL-235B-A22B-Thinking 和 Qwen3-VL-235B-A22B-Instruct 的表現同樣亮眼,兩個模型雙雙強勢進入前十名,打破了此前閉源模型在此維度的大幅領先地位。
圖片
本文轉載自??司南評測體系??,作者: 司南OpenCompass

















