国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

最先進推理模型! OpenAI 推出 o3 和 o4-mini 模型

譯文 精選
人工智能
OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大進步,特別是在推理和多模態(tài)理解方面。通過將深層推理與多才多藝的工具使用以及“以圖像思考”的新能力相結合,為人工智能的智能和效用設定了新標準。

譯者 | 崔皓

審校 | 重樓

開篇

就在OpenAI推出 GPT 4.1 系列幾天后,又發(fā)布了o3 和 o4-mini 的推理模型,這表明大模型正式邁向 AGI( 人工通用智能 )。 o3 和 o4-mini 不僅僅是 AI 模型;它們還具備智能性、自治性、可調用工具以及與真實軟件對接的技能,是一個真正意義上的AI 系統(tǒng)。 新模型不會被動工作;而是主動使用工具自動完成任務! 接下來,就讓我們深入了解“O 系”模型:o3 和 o4-mini 的功能、性能和應用。

o3 和 o4-mini 是什么?

o3 和 o4-mini 是 OpenAI 最新的推理模型,取代了 o 系列之前的模型,比如 o1 和 o3-mini。o 系模型不同于主要關注模式識別和文本生成的LLMs(大語言模型),o 系模型作為推理模型采用了更長的內部“思維鏈”模式。

這種方式使模型能夠分解復雜問題,評估不同步驟,并得出更準確和慎重的解決方案。因此,在諸如 STEM、編碼和邏輯推理等領域,它們尤其擅長。此外, o 系模型首創(chuàng)了整合工具套件的能力,能夠主動使用和組合 ChatGPT 中提供的完整工具套件。

o3 是 OpenAI 最先進的推理模型,擅長處理在各個領域需要深入分析思考的任務。該模型的計算量是 o1 的 10 倍,引入了“圖像推理”的能力。這使其能夠直接在認知過程中處理和推理關于視覺輸入的信息。

o4-mini 是 o3 模型的替代品, 相對于o3而言o4-mini更加緊湊、高效、以及成本更低。盡管o4-mini模型的參數少于o3模型,但它在數學、編碼和視覺任務等領域表現出色。通過對模型的優(yōu)化設計可以確保模型具備更快的響應速度和更高的吞吐量,使其適用于高效的應用場景。

同時,OpenAI 還發(fā)布了 o4-mini-high 變體,它會花費更多時間處理用戶請求,并給出更可靠的答案。

未來,OpenAI計劃向訂閱用戶發(fā)布更強大的o3-pro版本,它將使用更多計算資源,同時也提供更好的服務。

o3 和 o4-mini 的主要功能

o3與o4-mini的強大離不開如下關鍵特性:

  • 主動行為:主動解決問題的能力,自主確定復雜任務的最佳方法,并高效地執(zhí)行多步解決方案。
  • 高級工具集成:無縫地利用諸如網絡瀏覽、代碼執(zhí)行和圖像生成等工具,以增強其回答并有效應對復雜查詢 。
  • 多模態(tài)推理:直接處理和整合視覺信息到他們的推理過程中,從而解釋和分析圖像與文本數據并行。
  • 高級視覺推理(“用圖像思考”):解釋復雜的視覺輸入,例如圖表、白板草圖,甚至模糊/低質量照片。它們甚至可以將這些圖像(放大、裁剪、旋轉、增強)作為推理過程的一部分,從而提取相關信息。

o3 和 o4-mini 是否反映了 AGI?

這兩個“o 系”模型會在生成響應前執(zhí)行復雜的多步推理。

當用戶給出問題時, o3先會使用“蠻力”得出解決方案。接著,會嘗試找到更智能的計算方法并以更簡潔的格式呈現。然后,繼續(xù)核對答案并簡化,從而提供給用戶簡單和易于理解的回應。

盡管整個思考過程部分基于計算和訓練,但在模型的訓練過程中,并沒有被明確教導去簡化答案或重新檢查過程。不過模型的響應過程,這使之具備自我進化和自我學習的能力,從而逐漸逼近通用人工智能。

此外,o3 能夠自主決定何時以及如何使用 ChatGPT 中的各種工具(網絡搜索、Python 數據分析、DALL·E 圖像生成和視覺),以解決復雜、多方面的查詢。它可以鏈接多個工具調用,迭代搜索網絡,分析結果,并在各種模式之間綜合信息。

對 o3、o4-mini 和 o4-mini-high 進行實際測試

現在讓我們在一些實際應用中嘗試這些備受期待的新 o 系列模型。我們將測試所有三個模型在它們擅長的任務上的表現。這包括:

  • 使用 o3 進行編碼
  • 使用 o4-mini 進行數學推理
  • 使用 o4-mini-high 進行視覺推理

讓我們開始吧!

任務 1:使用 o3 進行編碼

提示詞: “創(chuàng)建一個 Python 模擬,其中有 2 個球 - 一個是黃色的,另一個是藍色的 - 它們在一個順時針旋轉的五邊形內的厚六邊形框架中彈跳。每次它們相撞時,球必須變成綠色,并在下一次相撞時恢復原來的顏色。它們必須以遞增的速度移動。”

o3 在不到一分鐘內生成了完全功能的、無錯的代碼,并附加了它的解釋,輸出結果非常棒!我嘗試過在其他各種模型上使用類似的提示,這絕對是第一次生成的最佳模擬之一。無論是形狀、運動方向和速度,還是顏色的變化 - 都是十分準確的!唯一出錯的是球一直在框架外移動。

任務 2:使用 o4-mini 進行數學推理的任務

提示詞: “從給定的算式中選出兩個數字,互換位置還能夠讓等式成立?”14 + 39 – (√256 ÷ 3) + (5 × 4) – 6 = 58″

o4-mini 只花了大約 10 秒鐘來回答這個問題。它展示了在生成最終答案之前的思考過程和分析,這使其更可信。結果準確無誤,速度也很快。

任務 3:使用 o4-mini-high 進行視覺推理的任務

提示詞: “軟木板上寫的點綴色是什么?”

輸入圖像:

o4-mini-high 在約一分鐘內分析了圖像并讀取了手寫文本。它首先評估了圖像的大小,放大到便利貼貼在的部分。然后裁剪圖像,將模糊部分清晰化,然后嘗試閱讀文本。這是非常出色的,目前沒有其他模型能夠做到這一點。

盡管 o4-mini-high 可以讀到便簽上寫的“ACCENT COLOURS”,但只看到了其中提到的 4 種顏色中的 3 種,甚至讀錯了。然而,有趣的是,在它的思維過程中,該模型提到無法清楚閱讀文本是因為字體太小。

出于好奇,問 o4-mini-high“顯示器和頭盔是什么品牌?”,它立刻正確識別了它們。

o3 和 o4-mini 的可用性

這兩個模型都可以通過 OpenAI 的 ChatGPT 平臺和 API 服務進行訪問:

ChatGPT 訪問 :ChatGPT Plus、Pro 和 Team 計劃的用戶可以直接在聊天界面上使用 o3、o4-mini 和 o4-mini-high 模型。

企業(yè)和教育用戶將在一周內獲得訪問權限。

免費用戶可以在提交查詢之前選擇“Think”選項來體驗 o4-mini。

API Access:開發(fā)者可以通過 OpenAI 的API將 o3 和 o4-mini 集成到其應用程序中,從而在各種平臺上實現定制 AI 解決方案。

o3 和 o4-mini:基準性能

o3 和 o4-mini 模型在一系列標準基準測試中展現出了出色的能力。

  • SWE-Lancer:這兩個模型的高變異體在這個編碼基準測試中表現出色,令它們的前輩相形見絀。
  • 經過 SWE-Bench 驗證(軟件工程):o3 取得了 69.1%的成績,而 o4-mini 緊隨其后,達到了 68.1%。這兩個模型在表現上明顯優(yōu)于以往的模型,如 o3-mini(49.3%)和像 Claude 3.7 Sonnet63.7%
  • Aider Polyglot(代碼編輯):這兩個模型在代碼編輯基準測試中被證明是 OpenAI 中最佳的,創(chuàng)下了新紀錄。

  • AIME 2025 (數學):o4-mini 通過配備 Python 解釋器創(chuàng)下了新的基準,得分為 99.5%,而 o3 緊隨其后,得分為 98.4%。
  • Codeforces (競技編程): o4-mini 實現了 2719 的 Elo 評分,反映了其在競技編程場景中的先進問題解決能力。與此同時,o3 得分為 2706,仍遠遠優(yōu)于其他模型的表現。
  • GPQA Diamond (PhD 級):o3 在不使用任何工具的情況下,通過在該基準測試上達到 87.7%的準確性,展示了先進的科學推理能力。o4-mini 緊隨其后,準確率為 81.4%。

  • MMMU(大規(guī)模多模態(tài)多任務理解):o3 在這項基準測試中表現出色,展示出其處理涉及文本和視覺數據的多樣且復雜任務的能力。

  • Humanity’s Last Exam :在跨領域專家級推理能力的基準測試中,o3 的準確度達到了 26.6%,勝過所有其他 OpenAI 模型。與此同時,o4-mini 明顯優(yōu)于其前身 o3-mini。

o3 和 o4-mini 的應用

o3 和 o4-mini 的增強推理、工具使用和視覺能力解鎖了各種潛在應用,包括:

  • 復雜數據分析和報告: 通過編寫和執(zhí)行 Python 代碼分析數據集,從網絡獲取補充信息,并生成摘要或可視化。
  • 高級科學研究:通過解釋復雜圖表、分析實驗數據、搜索文獻,并可能提出新的研究方向,來協助研究人員。
  • 高級編碼和軟件工程:調試復雜的代碼,基于視覺模擬或圖表生成代碼,理解存儲庫結構,并執(zhí)行多步驟的軟件開發(fā)任務。
  • 教育和輔導:使用逐步推理解釋復雜的 STEM 概念,解釋教科書圖表或手寫筆記,并提供互動問題解決協助。
  • 多模態(tài)內容創(chuàng)作與理解:生成圖像的詳細描述或分析,創(chuàng)建需要整合文本和視覺元素的內容,并根據視覺證據回答問題。
  • 商業(yè)智能與策略:使用實時網絡數據分析市場趨勢,制定預測,并基于綜合信息來源創(chuàng)建戰(zhàn)略計劃。
  • 創(chuàng)新問題解決:解決需要結合不同類型信息和推理步驟的開放性挑戰(zhàn)。

結論

OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大進步,特別是在推理和多模態(tài)理解方面。通過將深層推理與多才多藝的工具使用以及“以圖像思考”的新能力相結合,為人工智能的智能和效用設定了新標準。在各種基準測試中的出色表現,凸顯了在處理軟件工程以及科學研究等領域的復雜任務的潛力。

o3 即使面對最苛刻任務也展現出高性能的一面,而o4-mini 則展現了能力、速度和成本的一種平衡。無論如何,兩個模型都擁有自主能力,體現了人工智能的先進程度。隨著人工智能的不斷發(fā)展,這種創(chuàng)新模型將為更復雜和多樣化的應用鋪平道路,使我們更接近實現 AGI(通用人工智能)。

譯者介紹

崔皓,51CTO社區(qū)編輯,資深架構師,擁有18年的軟件開發(fā)和架構經驗,10年分布式架構經驗。

原文標題:o3 and o4-mini: OpenAI’s Most Advanced Reasoning Models,作者:K.C. Sabreena Basheer

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2024-12-24 16:15:04

2025-04-18 11:18:51

2025-04-07 07:18:48

2024-09-24 11:01:03

2025-08-06 07:42:26

2025-04-21 16:25:58

OpenAI測試模型

2025-04-17 06:10:57

2025-05-13 08:24:14

2025-08-06 09:02:31

2025-06-03 08:26:00

2025-02-08 17:00:11

2025-06-11 09:19:46

2025-04-17 08:59:59

2025-01-20 19:52:50

2025-04-17 06:36:29

2025-05-28 00:00:00

2025-04-25 10:26:19

2025-02-18 08:15:03

2025-06-11 08:56:54

2025-06-08 14:15:42

點贊
收藏

51CTO技術棧公眾號

国产91丝袜在线播放| 亚洲麻豆av| 一本到三区不卡视频| 97久久国产亚洲精品超碰热| 77成人影视| 日韩手机在线导航| 在线观看老湿视频福利| k8久久久一区二区三区| 蜜桃成人免费视频| 欧美丝袜一区| 成人444kkkk在线观看| 69成人在线| 一区二区三区高清| 日韩精品视频在线观看视频| 国产精品av久久久久久麻豆网| 欧美国产精品va在线观看| 黑森林国产精品av| 精品高清一区二区三区| 你懂的一区二区三区| 亚洲人成欧美中文字幕| 日韩精品影视| 国产精品秘入口18禁麻豆免会员| 免费日韩一区二区三区| 亚洲精品一区二三区不卡| 啪啪亚洲精品| 久久999免费视频| 韩日成人影院| 日韩一区二区精品在线观看| 国产精品二线| 日韩欧美a级成人黄色| 午夜影院网站| 亚洲精品免费一二三区| 激情视频网址| 国产精品国产三级国产普通话蜜臀 | 日韩精品亚洲一区| 3d蒂法精品啪啪一区二区免费| 九九综合久久| 欧美主播福利视频| 盗摄牛牛av影视一区二区| 久久国产精品电影| 91精品一区| 久久91精品国产| 97品白浆高清久久久久久| 欧美日韩成人在线观看| 911亚洲精品| 热久久99这里有精品| 国产精品一区高清| 成人性生交大片免费看小说 | 日韩免费在线观看| 中文字幕有码在线观看| 337p日本欧洲亚洲大胆色噜噜| 成年网站在线视频网站| 精品欧美一区二区三区精品久久| 丁香花高清在线观看完整版| 精品乱码亚洲一区二区不卡| 国产乱码午夜在线视频| 亚洲男人天堂久| 99精品视频在线免费播放| 国内精品久久久久| 国产免费久久| 91精品国产91久久久久青草| 午夜亚洲性色福利视频| 麻豆一区二区三区在线观看| 国产亚洲一区字幕| 瑜伽美女视频| 这里只有精品视频在线观看| 制服丝袜专区在线| 性欧美在线看片a免费观看| 日韩欧美一区免费| 久久人人九九| 成人av在线资源网站| 激情视频免费| 日韩一区二区电影| 久久久久九九精品影院| 国产精品嫩草视频| 一区二区三区高清视频在线观看| 自拍偷拍一区二区三区| 国产精品水嫩水嫩| 精品亚洲综合| 中文字幕亚洲二区| 凹凸成人精品亚洲精品密奴| 亚洲成人午夜在线| 日韩美女久久久| 七七久久电影网| 91国内免费在线视频| 亚洲综合丁香| 色总=综合色| 91精品国产91综合久久蜜臀| 精品国产鲁一鲁****| 亚洲一区二区三区视频| 国产综合久久久久久鬼色| www.久草.com| 亚洲国产日韩欧美在线动漫| 蜜桃一区二区三区| 四虎影视永久免费在线观看一区二区三区| 久久久综合视频| 免费在线你懂的| 国a精品视频大全| 国产精品一页| av网站免费观看| 精品视频偷偷看在线观看| 成人在线电影在线观看视频| 欧美高清中文字幕| 福利一区视频在线观看| 高清在线一区二区| 日韩av影视| 亚洲18色成人| 久久九九精品视频| 91手机视频在线| 91久久精品一区二区二区| 福利片一区二区| 成年在线观看视频| 欧美三级视频在线观看| 欧美日韩爱爱| 虎白女粉嫩尤物福利视频| 亚洲福利在线视频| 黄色另类av| 91免费版在线观看| 欧美激情亚洲精品| 国产一区二区在线观看免费| 成人影视在线播放| 国产精品91久久| 久久这里都是精品| 草草在线视频| 精品一区二区三区视频日产| 一区二区视频在线| 亚洲开心激情| 蜜桃视频一区二区在线观看| 欧美日韩免费一区二区三区视频| 天堂综合网久久| 男人操女人免费软件| 亚洲嫩模很污视频| 日本女人一区二区三区| 在线中文资源天堂| 亚洲va久久久噜噜噜| 一区二区理论电影在线观看| 日韩成人在线观看视频| 精品国产av无码一区二区三区| 精品国产凹凸成av人网站| 国产精品99一区二区| 亚洲一本大道| 91av视频导航| 国产精品久久久久aaaa| 精品国产不卡一区二区| 欧美午夜小视频| 亚洲天堂网在线观看| 国产中文一区二区三区| 999福利在线视频| 日韩少妇中文字幕| 欧美大片在线观看一区二区| 亚洲深夜av| 在线午夜影院| 牛人盗摄一区二区三区视频| 欧美日韩国产免费一区二区| 亚洲国产专区| 老司机午夜在线| 久久婷婷国产综合尤物精品| 欧美视频一区二区在线观看| 日韩午夜免费| jizz性欧美| 先锋影音一区二区三区| 亚洲第一区中文99精品| 久久99国内精品| 日韩中文在线播放| 蜜臀久久99精品久久久酒店新书 | 亚洲国产黄色片| 日本在线不卡一区| 嗯啊主人调教在线播放视频| 在线视频91| 亚洲日韩欧美视频一区| zzijzzij亚洲日本少妇熟睡| 欧美二区观看| 久草福利资源站| 成人激情视频小说免费下载| 欧美精品乱码久久久久久按摩| a91a精品视频在线观看| 2020国产在线| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 欧美激情免费看| 亚洲国产aⅴ天堂久久| 精品成人免费| 日韩影片中文字幕| 免费日韩av片| 四虎精品在永久在线观看 | 美女黄色片视频| 欧美激情欧美激情| 亚洲国产精品久久人人爱蜜臀| 欧美三级第一页| 国产伦久视频在线观看| 国产二级片在线观看| 欧美在线视频网站| 欧亚一区二区三区| 久久99久久精品欧美| 6080亚洲理论片在线观看| 在线播放av网站| 亚洲图片都市激情| 久久久久久高潮国产精品视| 色94色欧美sute亚洲线路二| 老鸭窝一区二区久久精品| 色播一区二区|