最先進推理模型！ OpenAI 推出 o3 和 o4-mini 模型

作者：崔皓 2025-04-23 08:30:05

OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大進步，特別是在推理和多模態(tài)理解方面。通過將深層推理與多才多藝的工具使用以及“以圖像思考”的新能力相結合，為人工智能的智能和效用設定了新標準。

譯者 | 崔皓

審校 | 重樓

開篇

就在OpenAI推出 GPT 4.1 系列幾天后，又發(fā)布了o3 和 o4-mini 的推理模型，這表明大模型正式邁向 AGI（人工通用智能）。 o3 和 o4-mini 不僅僅是 AI 模型；它們還具備智能性、自治性、可調用工具以及與真實軟件對接的技能，是一個真正意義上的AI 系統(tǒng)。新模型不會被動工作；而是主動使用工具自動完成任務！接下來，就讓我們深入了解“O 系”模型：o3 和 o4-mini 的功能、性能和應用。

o3 和 o4-mini 是什么？

o3 和 o4-mini 是 OpenAI 最新的推理模型，取代了 o 系列之前的模型，比如 o1 和 o3-mini。o 系模型不同于主要關注模式識別和文本生成的LLMs（大語言模型），o 系模型作為推理模型采用了更長的內部“思維鏈”模式。

這種方式使模型能夠分解復雜問題，評估不同步驟，并得出更準確和慎重的解決方案。因此，在諸如 STEM、編碼和邏輯推理等領域，它們尤其擅長。此外， o 系模型首創(chuàng)了整合工具套件的能力，能夠主動使用和組合 ChatGPT 中提供的完整工具套件。

o3 是 OpenAI 最先進的推理模型，擅長處理在各個領域需要深入分析思考的任務。該模型的計算量是 o1 的 10 倍，引入了“圖像推理”的能力。這使其能夠直接在認知過程中處理和推理關于視覺輸入的信息。

o4-mini 是 o3 模型的替代品，相對于o3而言o4-mini更加緊湊、高效、以及成本更低。盡管o4-mini模型的參數少于o3模型，但它在數學、編碼和視覺任務等領域表現出色。通過對模型的優(yōu)化設計可以確保模型具備更快的響應速度和更高的吞吐量，使其適用于高效的應用場景。

同時，OpenAI 還發(fā)布了 o4-mini-high 變體，它會花費更多時間處理用戶請求，并給出更可靠的答案。

未來，OpenAI計劃向訂閱用戶發(fā)布更強大的o3-pro版本，它將使用更多計算資源，同時也提供更好的服務。

o3 和 o4-mini 的主要功能

o3與o4-mini的強大離不開如下關鍵特性：

主動行為：主動解決問題的能力，自主確定復雜任務的最佳方法，并高效地執(zhí)行多步解決方案。
高級工具集成：無縫地利用諸如網絡瀏覽、代碼執(zhí)行和圖像生成等工具，以增強其回答并有效應對復雜查詢。
多模態(tài)推理：直接處理和整合視覺信息到他們的推理過程中，從而解釋和分析圖像與文本數據并行。
高級視覺推理（“用圖像思考”）：解釋復雜的視覺輸入，例如圖表、白板草圖，甚至模糊/低質量照片。它們甚至可以將這些圖像（放大、裁剪、旋轉、增強）作為推理過程的一部分，從而提取相關信息。

o3 和 o4-mini 是否反映了 AGI？

這兩個“o 系”模型會在生成響應前執(zhí)行復雜的多步推理。

當用戶給出問題時， o3先會使用“蠻力”得出解決方案。接著，會嘗試找到更智能的計算方法并以更簡潔的格式呈現。然后，繼續(xù)核對答案并簡化，從而提供給用戶簡單和易于理解的回應。

盡管整個思考過程部分基于計算和訓練，但在模型的訓練過程中，并沒有被明確教導去簡化答案或重新檢查過程。不過模型的響應過程，這使之具備自我進化和自我學習的能力，從而逐漸逼近通用人工智能。

此外，o3 能夠自主決定何時以及如何使用 ChatGPT 中的各種工具（網絡搜索、Python 數據分析、DALL·E 圖像生成和視覺），以解決復雜、多方面的查詢。它可以鏈接多個工具調用，迭代搜索網絡，分析結果，并在各種模式之間綜合信息。

對 o3、o4-mini 和 o4-mini-high 進行實際測試

現在讓我們在一些實際應用中嘗試這些備受期待的新 o 系列模型。我們將測試所有三個模型在它們擅長的任務上的表現。這包括：

使用 o3 進行編碼
使用 o4-mini 進行數學推理
使用 o4-mini-high 進行視覺推理

讓我們開始吧！

任務 1：使用 o3 進行編碼

提示詞: “創(chuàng)建一個 Python 模擬，其中有 2 個球 - 一個是黃色的，另一個是藍色的 - 它們在一個順時針旋轉的五邊形內的厚六邊形框架中彈跳。每次它們相撞時，球必須變成綠色，并在下一次相撞時恢復原來的顏色。它們必須以遞增的速度移動。”

o3 在不到一分鐘內生成了完全功能的、無錯的代碼，并附加了它的解釋，輸出結果非常棒！我嘗試過在其他各種模型上使用類似的提示，這絕對是第一次生成的最佳模擬之一。無論是形狀、運動方向和速度，還是顏色的變化 - 都是十分準確的！唯一出錯的是球一直在框架外移動。

任務 2：使用 o4-mini 進行數學推理的任務

提示詞: “從給定的算式中選出兩個數字，互換位置還能夠讓等式成立？”14 + 39 – (√256 ÷ 3) + (5 × 4) – 6 = 58″

o4-mini 只花了大約 10 秒鐘來回答這個問題。它展示了在生成最終答案之前的思考過程和分析，這使其更可信。結果準確無誤，速度也很快。

任務 3：使用 o4-mini-high 進行視覺推理的任務

提示詞： “軟木板上寫的點綴色是什么？”

輸入圖像:

o4-mini-high 在約一分鐘內分析了圖像并讀取了手寫文本。它首先評估了圖像的大小，放大到便利貼貼在的部分。然后裁剪圖像，將模糊部分清晰化，然后嘗試閱讀文本。這是非常出色的，目前沒有其他模型能夠做到這一點。

盡管 o4-mini-high 可以讀到便簽上寫的“ACCENT COLOURS”，但只看到了其中提到的 4 種顏色中的 3 種，甚至讀錯了。然而，有趣的是，在它的思維過程中，該模型提到無法清楚閱讀文本是因為字體太小。

出于好奇，問 o4-mini-high“顯示器和頭盔是什么品牌？”，它立刻正確識別了它們。

o3 和 o4-mini 的可用性

這兩個模型都可以通過 OpenAI 的 ChatGPT 平臺和 API 服務進行訪問：

ChatGPT 訪問 ：ChatGPT Plus、Pro 和 Team 計劃的用戶可以直接在聊天界面上使用 o3、o4-mini 和 o4-mini-high 模型。

企業(yè)和教育用戶將在一周內獲得訪問權限。

免費用戶可以在提交查詢之前選擇“Think”選項來體驗 o4-mini。

API Access：開發(fā)者可以通過 OpenAI 的API將 o3 和 o4-mini 集成到其應用程序中，從而在各種平臺上實現定制 AI 解決方案。

o3 和 o4-mini：基準性能

o3 和 o4-mini 模型在一系列標準基準測試中展現出了出色的能力。

SWE-Lancer：這兩個模型的高變異體在這個編碼基準測試中表現出色，令它們的前輩相形見絀。
經過 SWE-Bench 驗證（軟件工程）：o3 取得了 69.1%的成績，而 o4-mini 緊隨其后，達到了 68.1%。這兩個模型在表現上明顯優(yōu)于以往的模型，如 o3-mini（49.3%）和像 Claude 3.7 Sonnet（63.7%）。
Aider Polyglot（代碼編輯）：這兩個模型在代碼編輯基準測試中被證明是 OpenAI 中最佳的，創(chuàng)下了新紀錄。

AIME 2025 (數學)：o4-mini 通過配備 Python 解釋器創(chuàng)下了新的基準，得分為 99.5%，而 o3 緊隨其后，得分為 98.4%。
Codeforces （競技編程）: o4-mini 實現了 2719 的 Elo 評分，反映了其在競技編程場景中的先進問題解決能力。與此同時，o3 得分為 2706，仍遠遠優(yōu)于其他模型的表現。
GPQA Diamond (PhD 級)：o3 在不使用任何工具的情況下，通過在該基準測試上達到 87.7%的準確性，展示了先進的科學推理能力。o4-mini 緊隨其后，準確率為 81.4%。

MMMU（大規(guī)模多模態(tài)多任務理解）：o3 在這項基準測試中表現出色，展示出其處理涉及文本和視覺數據的多樣且復雜任務的能力。

Humanity’s Last Exam ：在跨領域專家級推理能力的基準測試中，o3 的準確度達到了 26.6%，勝過所有其他 OpenAI 模型。與此同時，o4-mini 明顯優(yōu)于其前身 o3-mini。

o3 和 o4-mini 的應用

o3 和 o4-mini 的增強推理、工具使用和視覺能力解鎖了各種潛在應用，包括：

復雜數據分析和報告：通過編寫和執(zhí)行 Python 代碼分析數據集，從網絡獲取補充信息，并生成摘要或可視化。
高級科學研究：通過解釋復雜圖表、分析實驗數據、搜索文獻，并可能提出新的研究方向，來協助研究人員。
高級編碼和軟件工程：調試復雜的代碼，基于視覺模擬或圖表生成代碼，理解存儲庫結構，并執(zhí)行多步驟的軟件開發(fā)任務。
教育和輔導：使用逐步推理解釋復雜的 STEM 概念，解釋教科書圖表或手寫筆記，并提供互動問題解決協助。
多模態(tài)內容創(chuàng)作與理解：生成圖像的詳細描述或分析，創(chuàng)建需要整合文本和視覺元素的內容，并根據視覺證據回答問題。
商業(yè)智能與策略：使用實時網絡數據分析市場趨勢，制定預測，并基于綜合信息來源創(chuàng)建戰(zhàn)略計劃。
創(chuàng)新問題解決：解決需要結合不同類型信息和推理步驟的開放性挑戰(zhàn)。

結論

OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大進步，特別是在推理和多模態(tài)理解方面。通過將深層推理與多才多藝的工具使用以及“以圖像思考”的新能力相結合，為人工智能的智能和效用設定了新標準。在各種基準測試中的出色表現，凸顯了在處理軟件工程以及科學研究等領域的復雜任務的潛力。

o3 即使面對最苛刻任務也展現出高性能的一面，而o4-mini 則展現了能力、速度和成本的一種平衡。無論如何，兩個模型都擁有自主能力，體現了人工智能的先進程度。隨著人工智能的不斷發(fā)展，這種創(chuàng)新模型將為更復雜和多樣化的應用鋪平道路，使我們更接近實現 AGI（通用人工智能）。

譯者介紹

崔皓，51CTO社區(qū)編輯，資深架構師，擁有18年的軟件開發(fā)和架構經驗，10年分布式架構經驗。

原文標題：o3 and o4-mini: OpenAI’s Most Advanced Reasoning Models，作者：K.C. Sabreena Basheer

責任編輯：姜華來源： 51CTO內容精選

OpenAI 人工智能推理模型

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看