国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

選AI比選對象還難!起名黑洞OpenAI的新模型,到底怎么選?

人工智能
一句話看懂:o3以深度推理與工具調用能力領跑復雜任務,GPT-4.1超長上下文與精準指令執行適合API開發,而o4-mini則堪稱日常任務的「性價比之王」。

如果你最近關注AI新聞,可能會被各種層出不窮的新模型搞的眼花繚亂。

尤其是堪稱「起名黑洞」的OpenAI,命起名來可謂是是毫無章法。

即便是AI圈的資深團隊,在面對同時發布的o3、o4-mini、GPT-4.1、GPT-4.1 mini和GPT-4.1 nano時,也是蒙圈的。

圖片圖片

為了解決這個困擾,來自Every和DataCamp的團隊在經過反復測試、來回切換模型,折騰了很多提示詞后,得出了以下結論:

  • o3:OpenAI最新的旗艦模型,也是最會「深度思考」的選手——專為自主復雜推理與工具調用設計。
  • o4?mini:效率發動機——速度快、價格低,對數學、視覺推理和成本敏感型開發任務表現驚人。它不是明星旗艦,也不是基準霸主,但憑借效率優勢,完全可以承擔一般的任務。
  • GPT?4.1:API專用的主力干將——指令遵循嚴謹,長上下文記憶出眾。

圖片圖片

接下來,看看這三款模型的新特性、各自擅長什么,以及在Every團隊的工作流中,它們實際表現如何。

o3OpenAI最強推理模型

o3是OpenAI最新的前沿模型,旨在提升其在編碼、數學、科學與視覺感知等復雜任務上的推理能力。

它也是首個具備自主工具調用能力的推理模型,可使用搜索、Python、圖像生成以及圖像解讀等工具來完成任務。

憑借這一能力,就讓它在針對現實世界問題求解的高級基準測試中表現出色,而此前的模型往往難以勝任。

OpenAI 特別強調了o3相較于o1的顯著提升,并將其定位為迄今為止功能最強、適用面最廣的模型。

o3不只是像GPT?4o那樣會用工具、能看圖——它還能把這些工具和圖像融入自己的推理過程。

o3的優勢

? 工具調用

o3既懂得如何使用單個工具,也知道如何把多種工具串聯起來,并在關鍵時刻切換方案。

假設你上傳一張月度銷售圖表,它可能先用OCR提取數據,再寫Python代碼計算同比增長,隨后檢索行業基準為結果提供背景——一氣呵成。

在單條回復中,它最多可調用600次工具,邊執行邊自我優化;一旦出現問題,也能迅速調整方向。就像一位自驅的分析師,隨身攜帶瑞士軍刀,而且知道什么時候該用哪一把刀。

? 視覺推理

o3會帶著真實語境去深度解析圖像。其他模型也許只會說「這是一幅描繪女性的畫」,而o3會放大畫角,讀出畫家簽名,查出畫作懸掛的博物館,并為你講述其所屬藝術流派的歷史。

o3的技術創新

性能大幅躍升絕非偶然。OpenAI團隊通過多項突破,才拿出了如此漂亮的成績單:

? 擴展強化學習

OpenAI發現,只要在強化學習階段提升算力投入,模型效果就能顯著提升,這與GPT系列在監督預訓練里的「越算越強」規律如出一轍。不同的是,此時的o3并非優化「下一詞預測」,而是通過最大化強化學習獎勵來學習,且常在工具增強環境中訓練。

實質上,OpenAI把強化學習當成了「放大版預訓練」:訓練更久、用更多算力,結果也更好。由此解鎖了長期規劃與序列推理等能力,例如競技編程、多步數學證明。再配合工具調用,性能增益更加明顯。

? 動態視覺推理

o3在視覺推理上同樣大幅躍進。它不僅能理解圖片,還把圖像直接納入推理循環——解釋、操作、反復查看都不在話下。因而在科學圖表、數學示意圖,甚至通過照片排定日程等任務上表現突出。

核心做法是:在整個推理過程中始終保留原圖。

與傳統「生成文本描述后就丟圖」的做法不同,o3可借助工具隨時放大、旋轉、重看圖像任意區域,使推理更靈活,也能處理更凌亂的視覺輸入,如模糊白板、手繪草圖或會議日程照片。

舉個例子,OpenAI讓o3讀取一張低清晰度的演出排期照片,并規劃一份在每場活動之間留出10分鐘休息的行程——既要解析視覺布局,又得實時應用約束條件。

圖片圖片

比如,給o1看一幅粗糙草圖,問「這將繪制哪種分形?」——o1答錯了;而o3直接命中了「龍形曲線」。

雖然只是小測試,但結果令人驚喜,因為我們并未提供太多線索。

圖片圖片

圖片圖片

? 更優成本效率

更令人意外的是,o3 的性價比也更高:在相同推理成本下,它交出了更好的成績。這或許得益于架構級優化,提高了 Token 吞吐量并降低了延遲。

自 Deepseek?R1以ChatGPT僅幾分之一的成本取得高性能以來,成本一直是熱門話題,而 o3 的表現顯然再次推高了業界預期。

圖片圖片

o4?mini小巧、敏銳,卻實力驚人

o4?mini是OpenAI o系列推理模型的最新成員。

它針對速度、低成本以及工具增強推理能力進行了優化,提供200 000 Token的上下文窗口,并可輸出最多100000個Token,性能與o3、o1相當。

在工具層面,o4?mini兼容Python執行、網頁瀏覽和圖像輸入,可接入OpenAI的標準接口(包括 Chat Completions 和 Responses)。支持流式輸出、函數調用及結構化輸出,但暫不支持微調和嵌入(Embeddings)。

o4?mini兼顧「量」和「質」:面向普通用戶的每日消息上限達150條,而o3的上限是每周50條;在數學、編程和高視覺負載任務上,它以更快速度、極低成本,達到接近o3的性能。

雖然o3仍然是OpenAI最強的推理模型,但o4?mini可以使用十分之一不到的費用獲得o3大部分的性能。

o4?mini的優勢

? 體積雖小,威力十足

要分析海量數據,或匯總凌亂的研究表格?o4?mini輕松應對——篩選洞見、編寫結構化查詢語言(SQL)、檢索數據,并將結果繪制成可交互圖表。

o3也許要十幾步推理、付出不菲的token成本,而o4?mini直截了當,給你既簡潔又合理的答案。

圖片圖片

圖片

? 工具齊全,算力更省

o4?mini提供與o3同級別的完整工具箱,包括Python、網頁瀏覽、圖像分析與生成等。

生成分析報告時,它可以一次完成:拉取CSV,用Python清洗并制圖,上網查找行業宏觀數據進行對比,最后輸出Markdown報告;整個過程無需承擔o3的計算開銷。

o4?mini與o4?mini?high

打開ChatGPT應用,你會發現有o4?mini和o4?mini?high兩種選擇。

顧名思義,o4?mini?high就是通過更多推理算力的投入,來換取更佳表現。

這意味著o4?mini?high相比于o4?mini:

  • 會在內部花費更多時間處理每個提示詞;
  • 通常能生成更高質量的輸出,尤其是多步任務;
  • 但響應速度更慢,且可能消耗更多Token。

如果你更看重速度,o4?mini或許更合適。若任務需要復雜推理(尤其涉及代碼或視覺輸入)、更長上下文,或對精度要求極高,那么o4?mini?high更有可能給出更好的結果。

實測表現

接下來,對o4?mini分別在數學和編碼場景下進行測試。

? 數學

首先,給它一道看似簡單、卻常常難住語言模型的計算題。

目的不是測它的基礎算術,而是想看看它會如何解題:一步步推理,還是調用像計算器這樣的工具。

圖片圖片

第一次回答錯了。于是,直接提醒它要使用計算器。

第二次雖然算對了,但仍有兩個問題:

  • 它把答案稱為「約等于」,可這道減法題根本不用任何估算。
  • 從推理過程能看出它并未真正調用計算器,盡管輸出里寫著「計算器顯示」,這與實際計算方式不符。更離譜的是,它還去搜了網頁,而這種基礎題完全無需聯網查詢。

圖片圖片

隨后又給了它一道更有挑戰性的數學題,這回表現就穩多了。

模型反應迅速,用一小段Python腳本就解出了答案,而且還能在思維鏈里直接看到代碼。能把代碼公開為推理過程的一部分,確實相當實用。

圖片圖片

? 生成p5.js游戲

在這個測試中,選用算力更高的o4?mini?high。

提示詞:給我做一款引人入勝的無盡跑酷游戲。關鍵操作說明顯示在屏幕上。p5.js場景,不要HTML。我喜歡像素風恐龍和有趣的背景。

第一次生成的結果:

圖片圖片

有些地方我想調整,于是再次進行提示:

  • 畫一只更像樣的恐龍——那東西一點也不像恐龍。
  • 讓玩家按下任意鍵再開始游戲——不要一啟動就自動開始;同時確保所有操作說明仍然顯示在屏幕上。
  • 游戲結束后,讓玩家可以重新嘗試。

第二次生成的結果:

圖片圖片

這次好多了,但這只「恐龍」看起來還是像一臺老式電影攝像機。

GPT?4.1為精準而生,不為「氛圍」服務

目前GPT?4.1只通過API向開發者開放,目標是以毫不妥協的精準度執行細致入微的指令。

它沒有4.5等前輩那種「夢幻」氣質,卻更加結構化、可靠且一致。可以把它當作OpenAI面向特定開發任務的高負荷「勞模」,而非發散創意的靈感源泉。

GPT?4.1的優勢

? 遵循復雜指令

GPT?4.1處理任務就像經驗老到的領航員。

比如你正在寫一個食譜生成器,并且把所有的要求都寫在了一個提示詞里——以Markdown輸出、避開特定話題、按指定順序列出烹飪步驟,并附上鈉含量等關鍵指標。

舊版模型可能會漏掉步驟或亂了順序,而4.1會嚴格遵照你的路線,哪怕十分漫長、全是彎彎繞繞。

這帶來了兩大好處:寫提示詞的時間更短,處理模型輸出的時間也更短。

? 記憶力驚人

上下文窗口從128000個token擴大到1000000個token,比GPT?4o足足多出了8倍。

你只需一次性設定語氣或結構,它便能在多輪對話中持續遵循,無需每次從頭設置。

這讓很多實際場景變得可行:一次性處理完整日志、為代碼倉庫建索引、順暢運行多文檔法律流程,或分析長篇內容,全程無需分塊或摘要。

? 結構化輸出

GPT?4.1就像自駕游里那個「只要路線明確就特別好相處」的朋友。給它清晰的行程表,它就執行得又準又快。

可如果拋給它「氛圍」式的提示詞,比如「能不能讓這個食譜App像走進一家溫馨的地下酒吧?」,它可能立刻就想回家。

GPT?4.1、GPT-4.1 mini和GPT-4.1 nano

如果你想在編碼、指令遵循以及長上下文任務上獲得最優綜合表現,就選GPT?4.1。它能勝任復雜的編碼工作流,也能在單條提示詞中處理大體量文檔。

GPT?4.1 mini屬于中端選項,延遲和成本更低,卻幾乎具備與完整版相同的能力。在多項基準(包括指令遵循和圖像推理)中,它能追平甚至超越GPT?4o。

GPT?4.1 nano是系列中體積最小、速度最快、成本最低的模型(0.1美元/百萬Token),面向自動補全、分類,以及從長文檔中抽取信息等任務。雖然它的推理和規劃能力不如更大的模型,但對于某些任務來說,這已經足夠用了。

與完整版的GPT?4.1一樣,mini和nano都支持100萬Token的上下文窗口。

對比競品的表現

? GPT-4.1 vs Claude 3.7 Sonnet

根據測試,在代碼的優雅度和結構性方面,Claude 3.7 Sonnet仍是首選,尤其體現在整體風格一致性和用戶界面表現上。

不過,只要提示詞范圍清晰且具體,4.1在執行指令能力上已大幅拉近差距。

? o4?mini vs GPT?3.5

就目前觀察,o4?mini正逐漸成為開發者在有限預算下追求速度、可靠性與視覺處理能力時的「平價首選」。而2022年11月發布的GPT?3.5,如今已經顯得有些「過氣」了。

參考資料:https://every.to/context-window/vibe-check-openai-s-o3-gpt-4-1-and-o4-mini

https://www.datacamp.com/blog/o4-mini

https://www.datacamp.com/blog/o3-openaihttps://www.datacamp.com/blog/gpt-4-1

責任編輯:武曉燕 來源: 新智元
相關推薦

2009-05-27 13:25:56

erpIT服務

2025-10-22 08:41:22

2020-09-15 12:59:48

KotlinFlutter移動

2025-12-01 08:45:33

2021-06-22 16:38:56

曙光

2017-06-12 09:15:20

2023-06-13 07:12:10

顯卡丐版游戲

2023-06-12 07:17:01

顯卡靜音旗艦版

2021-08-06 22:47:37

編程語言數據工具

2011-12-31 13:48:04

筆記本選購指南

2021-10-21 06:52:18

低代碼無代碼開發

2013-08-21 09:17:54

PaaS平臺即服務IaaS

2020-07-14 09:01:19

PGMySQLPostgreSQL

2024-01-25 18:00:56

微服務系統KafkaRabbitMQ

2021-03-24 13:27:22

大數據Java薪資

2017-11-29 12:06:07

2022-09-07 15:41:01

微服務開發容器
點贊
收藏

51CTO技術棧公眾號

欧美激情国内偷拍| 男女无套免费网站| 91久久在线| 超碰97人人人人人蜜桃| 一本色道久久综合亚洲精品高清| 欧美韩国日本精品一区二区三区| 久久99精品视频| 国产男女无遮挡| 一区二区三区高清| 日本免费在线视频| 亚洲欧美日韩一区在线| 黄色美女久久久| av资源站久久亚洲| 国产资源在线一区| 冲田杏梨av在线| 色婷婷亚洲精品| 亚洲伊人av| 97超级碰在线看视频免费在线看 | 91国产视频在线播放| 久久久久美女| 自拍偷拍一区二区三区| 欧美激情在线一区二区| 二区三区在线播放| 三级精品视频久久久久| 日本欧美国产| 一区二区欧美日韩| 亚洲色图第一区| 福利在线导航136| 国产91ⅴ在线精品免费观看| 国产模特精品视频久久久久| 日韩视频第二页| 色天天综合色天天久久| 欧美色片在线观看| 成人高h视频在线| 国产精品-区区久久久狼| 亚洲成人一区二区在线观看| 悠悠资源网亚洲青| 国产精品中文字幕久久久| 国内精品久久久久影院一蜜桃| 免费男女羞羞的视频网站中文字幕| 日韩午夜在线播放| 天天躁日日躁狠狠躁欧美| 国产又粗又爽又黄的视频| 欧美伊人久久| 全黄性性激高免费视频| 91国偷自产一区二区三区观看| 成人不卡视频| 国产午夜精品在线| 亚洲欧美综合在线精品| 亚洲一二三四| 精品免费二区三区三区高中清不卡 | 亚洲欧洲成人av每日更新| 麻豆av在线免费观看| 在线中文字幕一区二区| 亚洲免费一区| 天堂av一区二区| 午夜精品一区在线观看| 亚洲精品第一| 亚洲在线色站| 日本精品一区二区三区四区的功能| 欧美1区2区3| 亚洲自拍偷拍一区二区三区| 91黄色免费看| 日韩精品永久网址| 污视频网站免费| 美乳少妇欧美精品| 国产一区二区三区免费观看| 日韩黄色影院| 91久久嫩草影院一区二区| 中文字幕在线免费不卡| 成人福利一区二区| 中文字幕在线中文字幕日亚韩一区 | 成人综合影院| 国产精品网红直播| 亚洲日本欧美天堂| 国产精品高清一区二区| 一本—道久久a久久精品蜜桃| 欧美色欧美亚洲另类二区| 国产精品嫩模av在线| 91po在线观看91精品国产性色| 久久99精品国产91久久来源| 国产大片在线免费观看| 国产伊人精品在线| 国产一区二区三区的电影 | www.四虎成人| 中文字幕久热精品视频在线| 伊人久久大香线蕉综合影院首页| 精品国产_亚洲人成在线| 精品动漫一区二区| 成人免费直播在线| www黄色在线| 欧美国产日韩一区二区在线观看| 99久久99久久精品免费看蜜桃| 欧美日韩在线精品一区二区三区激情综合 | 丝袜国产在线| 欧洲视频一区二区三区| 欧美日本高清视频在线观看| 激情视频一区| 欧美一区二区三区| 欧美日韩免费高清| 亚洲成人网久久久| 日本伊人色综合网| 午夜影院免费在线| 中文字幕中文字幕一区三区| 亚洲精品美女在线观看| 国产精品一级在线| 欧美91在线|欧美| 东京热加勒比无码少妇| 欧美高清视频免费观看| 亚洲免费在线播放| 亚欧美无遮挡hd高清在线视频| 国产小视频在线| 日韩欧美亚洲v片| 亚洲欧洲日本专区| 亚洲成在人线免费观看| 九色视频网站| 91精品黄色| 欧美大片国产精品| 国产91丝袜在线播放| 成人动态视频| 黄页免费在线观看| 国内精品**久久毛片app| 日韩欧美中文一区| 国产成人午夜电影网| 国产精品三p一区二区| 三级视频在线| 大桥未久一区二区| 欧美性视频在线| 欧美精品乱人伦久久久久久| 国产一区二区在线观看免费| 91欧美日韩在线| 成人网视频在线观看| 色综合666| 久久久久久久久久av| 精品日韩中文字幕| 麻豆精品在线播放| 国产精品黄网站| 国产在线小视频| 无码人妻aⅴ一区二区三区日本| 欧美第一淫aaasss性| 色哟哟在线观看一区二区三区| 日本欧美在线观看| 风间由美一区二区av101| 成年网站在线| 国产精品一区二区免费在线观看| 国产成人精品免费视频| 日韩三级免费观看| 中文字幕亚洲欧美在线不卡| 亚洲视频成人| 哺乳挤奶一区二区三区免费看 | 男女精品视频| 国产成人久久精品一区二区三区| 三上悠亚在线免费观看| 永久久久久久| 国产精品视频资源| 亚洲精品在线免费播放| 欧美成人有码| 亚洲欧美一区二区三区| 美日韩黄色片| 亚洲欧洲精品一区| 97视频在线观看免费高清完整版在线观看| 蜜臀久久久99精品久久久久久| www.久久热| 99免在线观看免费视频高清| 69堂免费视频| 国产视色精品亚洲一区二区| 久久亚洲精品毛片| 91精品婷婷国产综合久久竹菊| 国产欧美久久久精品影院| 亚洲一区二区免费看| 天堂av一区二区三区在线播放| 欧美a级在线观看| 一级毛片在线播放| 国产精品久久久久9999小说| 亚洲日本精品国产第一区| 国产欧美久久久久久| 久久中国妇女中文字幕| 精品国产乱码久久久久久浪潮 | 久久综合av| 欧美黄色一级| 国产网站在线| 国产在线视频资源| 天天色综合6| 久久久久久一区二区三区 | 国产精品久久久久7777按摩| 日本不卡视频在线| 68国产成人综合久久精品| 亚洲高清在线一区| 国产又黄又猛视频| 欧美国产一区二区在线| 国产一区二区视频在线观看| 欧美日韩国产二区| 亚洲香蕉成视频在线观看| 91精品国产色综合久久不卡电影| 亚洲电影中文字幕在线观看| 91网址在线看| 成人一道本在线| 日本最新不卡在线| 国产精品三上| 亚洲国产二区|