国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

實測o3/o4-mini:3分鐘解決歐拉問題,OpenAI最強模型名副其實!

人工智能
使用基于結果的強化學習可能會導致模型盲目猜測,并且某些行為(如模擬代碼工具)可能會在某些任務上提高準確性,但在其他任務上造成混淆。

號稱“OpenAI迄今為止最強模型”,o3/o4-mini真實能力究竟如何?

就在發布后的幾小時內,網友們的第一波實測已新鮮出爐。

最強推理模型o3,即使遇上首位全職提示詞工程師Riley Goodside的“刻意刁難”,也順利過關:

圖片圖片

可以看到,面對藏在一堆玩具里的手繪圖表,它也能通過圖像識別和推理能力正確解答。

圖片圖片

而o4-mini作為一款專為快速、經濟高效的推理而優化的小模型,在數學能力方面堪稱強悍——

用時2分55秒,解決了最新的歐拉問題,并且該網友強調:

至今只有15個人能夠在30分鐘內解決它。

圖片圖片

與此同時,OpenAI內部技術人員也表示,o3的出現讓他第一次萌生了將模型稱為通用人工智能(AGI)的念頭。

圖片圖片

眼見氣氛都烘托到這兒了,那我們還不得趕緊看看更多實測效果(doge)。

網友實測o3/o4-mini

首次帶圖深度思考

首先,官方提到,o3和o4-mini是OpenAI首次能將上傳圖像集成到思維鏈中的模型——

這意味著,它們可以基于圖像展開思考。

比如有人隨手上傳一張照片,讓o3來判斷拍攝時間和地點,而且要求能具體到地圖上的某一個點。

結果令這位小哥驚訝的是,其答案和實際情況之間的誤差非常小:

地點僅相差1000英尺(約305米),時間僅相差2分鐘。

圖片圖片

更有意思的是,假如一張圖上的小字看不清,通過扒思維鏈還能發現——o3甚至會自己“偷偷放大”。

圖片圖片

難怪在針對復雜多模態謎題的EnigmaEva測試基準中,o3能拿下SOTA。

圖片圖片

不過值得注意的是,據自稱OpenAI員工的網友爆料,雖然基準測試結果存在差異,但o4-mini實際上是比o3更好的視覺模型。

該網友甚至直接建議大家:

在任何涉及視覺的任務中使用o4-mini-high而不是o3。

圖片圖片

巧合的是,在大多需要計算復雜數學題的帶圖測試中,大家竟默契選擇了o4-mini而非o3。

除了一開頭提到的解答歐拉問題的例子,o4-mini也被用來解讀技術圖紙。

該網友表示,對于這種大多AI都很難搞定的難題,它一次就成功了:

o4 mini(high)能夠分析該部件的尺寸并準確計算出正確體積。

圖片圖片

編程能力

其次,兩個新模型這次在編程能力上都有一定程度升級,測試結果表明:

其中o3 High取代谷歌Gemini-2.5,拿下編程第一。

圖片圖片

順帶OpenAI這次還開源了一個本地代碼智能體Codex CLI——

它是一種聊天驅動的開發方式 ,能夠理解并執行本地代碼庫,兼容所有OpenAI模型,包括剛剛發布的o3、o4-mini和GPT-4.1。

賓大沃頓商學院教授Ethan Mollick,這次直接利用o3的推理+編程能力制作了一個小短片:

圖片圖片

從完整制作過程來看,這里還同步考察了o3調用各項工具的能力。

  • 第一步:理解需求;
  • 第二步:使用編程庫生成幀,并將這些幀組合成一個視頻文件;
  • 第三步:使用Python的PIL庫(Pillow)來處理圖像,使用imageio庫來創建視頻文件;
  • 第四步:生成幀;
  • ……

圖片圖片

最后我們也簡單實測了一把,重點考察一下o3和o4-mini的推理能力。

比如讓它們分別幫忙看看“手相”,o3的結果如下:

圖片圖片

o4-mini:

圖片圖片

可以看到,兩個模型對人物性格特征的判斷大致相似,不過o3還額外給了一些提示建議。

p.s. 原圖為AI生成,大家感興趣可以自己試試~

One More Thing

有趣的是,有網友在實測o3的過程中還發現了一個現象:

o系列模型比GPT系列模型更容易錯誤地聲稱使用了代碼工具

圖片圖片

為此他們還專門寫了一篇博客,其中揭露了:o3經常編造其為滿足用戶請求而采取的行動,并在用戶質疑時詳細地為這些編造進行辯解。

圖片圖片

就像下面這樣,模型聲稱它在筆記本電腦上運行了實際并不存在的代碼。

圖片圖片

而且通過進一步研究發現,這些偽造行為包括下面這些:

1、錯誤地聲稱執行代碼,聲稱“我本地運行了這個”或“運行它產生了”后面跟著特定輸出,而模型沒有能力執行Python或其他編程語言;

2、編造詳細的計算結果,包括特定的數值、統計數據和加密哈希值,表現為它們是實際執行輸出而不是估計或示例;

3、……

圖片圖片

同時,他們也初步提出了造成這一現象的可能原因:

首先就是模型幻覺和獎勵黑客攻擊,他們表示這些問題在o系列模型中尤為普遍。

另外,使用基于結果的強化學習可能會導致模型盲目猜測,并且某些行為(如模擬代碼工具)可能會在某些任務上提高準確性,但在其他任務上造成混淆。

最后就是,o系列模型在處理連續對話時有一個限制,它們無法訪問之前的推理過程,這可能導致模型在回答問題時出現不準確或不一致的情況。

圖片圖片

順便一提,即日起,ChatGPT的Plus、Pro會員以及Team用戶,都能直接體驗o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high則已悄然下架。

你怎么看OpenAI這次發布的o3和o4-mini?

博客:https://transluce.org/investigating-o3-truthfulness

參考鏈接:

[1]https://x.com/goodside/status/1912604138518851990

[2]https://x.com/johnohallman/status/1912608446274498747

[3]https://x.com/bio_bootloader/status/1912566454823870801

[4]https://x.com/TransluceAI/status/1912552046269771985


責任編輯:武曉燕 來源: 量子位
相關推薦

2025-04-23 08:30:05

2024-12-24 16:15:04

2025-04-21 16:25:58

OpenAI測試模型

2025-04-07 07:18:48

2025-04-17 06:10:57

2025-04-17 08:59:59

2025-05-13 08:24:14

2025-04-21 08:22:25

2025-04-17 07:23:10

2025-04-17 14:09:52

OpenAI模型編程

2025-05-28 00:00:00

2025-04-17 06:36:29

2025-08-06 07:42:26

2025-02-08 17:00:11

2025-04-25 10:26:19

2025-05-15 08:52:00

2025-06-13 08:11:11

2025-09-30 09:10:09

Mini-o3OpenAI o3模型

2025-05-14 10:09:12

2025-02-07 09:05:36

點贊
收藏

51CTO技術棧公眾號

亚洲精品无码国产| 日本伊人午夜精品| 欧美性猛交xxxx| 91高潮在线观看| 亚洲an天堂an在线观看| 成人在线高清| 日韩欧美色综合网站| 超碰在线公开97| 午夜精品偷拍| 欧美大胆人体bbbb| 国产精品69久久久| 国产精品x8x8一区二区| 欧美日本一区二区三区四区| 欧美一二三区| 欧美v亚洲v综合v国产v仙踪林| 韩国成人福利片在线播放| 快播亚洲色图| 精品视频久久| 自拍偷拍免费精品| 国产一级在线| 久久精品国产99| 国产性猛交xxxx免费看久久| 黄黄的网站在线观看| 91在线你懂得| 色一情一乱一伦一区二区三欧美| 蜜桃精品一区二区三区| 欧美在线观看视频一区二区| 人成福利视频在线观看| 99久久免费国产| 日本成人三级| 欧美自拍偷拍| 中文字幕一区二区三区四区不卡| 久久国产精品免费一区| 日本亚洲不卡| 亚洲精品一区二区在线观看| 一级毛片国产| 在线免费观看视频一区| 伊人网在线免费观看| 国产精品久久三| 亚洲第一精品区| 日韩免费av| 美女视频久久| 老鸭窝毛片一区二区三区| 日韩免费av在线| 精品国产亚洲一区二区三区大结局| 亚洲天堂久久久久久久| 色视频www在线播放| 亚洲精品国产a久久久久久| 97超碰免费观看| 四虎成人av| 亚洲一区二区三区在线视频| 欧洲亚洲精品| 日韩av网站在线| 高清在线观看av| 99国产精品久久久久久久久久| 国产手机免费视频| 中文字幕欧美精品日韩中文字幕| 日本中文视频| 8x福利精品第一导航| 日本中文字幕视频在线| 91精品国产91热久久久做人人| 3p在线观看| 色素色在线综合| 深夜福利在线看| 日韩欧美主播在线| 在线观看免费av网| 欧美大肚乱孕交hd孕妇| 黄视频在线观看网站| 久久综合伊人77777| 亚州av日韩av| 成人av在线网址| 成人直播大秀| 国产精品国产亚洲精品看不卡| 一区二区三区在线免费视频| 免费视频二区| 欧美午夜寂寞影院| 波多野结衣精品| 色在人av网站天堂精品| 91一区二区三区四区| 在线一区高清| 国产精品国产三级国产普通话三级 | 欧美日韩亚洲国产精品| 亚洲精品成人a8198a| 91大神精品| 青草青草久热精品视频在线网站 | 黄色成人在线网站| 国产国语**毛片高清视频| 中文字幕无线精品亚洲乱码一区| 欧美国产日本| 日本久久高清视频| 午夜激情久久久| 久久夜色精品国产噜噜av小说| 超薄肉色丝袜足j调教99| 亚洲国产精品久久久久秋霞不卡| 免费在线观看一区二区三区| 日本高清不卡在线| 国产精品久久九九| 日韩成人精品在线| 无码人妻丰满熟妇区毛片| 亚洲婷婷在线视频| 不卡一本毛片| 国产精品999999| 91在线视频免费观看| 91精品国产自产观看在线| 欧美视频自拍偷拍| 免费成人av| 手机在线免费观看毛片| 欧美日韩亚洲91| 日韩国产大片| 亚洲精品一区二区三区中文字幕| 国产99久久久欧美黑人| 日产欧产美韩系列久久99| 日韩一级理论片| 亚洲丝袜av一区| 欧美影视一区| 日韩精品分区| 精品成人久久av| 日韩免费福利视频| 日韩精品久久一区| 粉嫩一区二区三区在线观看| 91av在线视频观看| 亚洲在线免费播放| 日韩国产欧美在线视频| 国产最新视频在线观看| 国产经典一区二区三区 | 香蕉一区二区| 中文字幕第88页| 97国产精品免费视频| 久久精品综合网| 综合国产在线| 欧美大片网站| 嫩草影院网站在线| 伦理中文字幕亚洲| 久久综合狠狠综合久久激情 | 国产小视频在线| 国产激情综合五月久久| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 精品久久国产一区| 涩涩漫画在线观看| 亚洲第一在线综合在线| 国产精品久久久久久久久| 亚洲成人动漫av| 欧美 亚欧 日韩视频在线 | 免费a在线看| 亚洲人一区二区| 成人在线视频网| 久久国产精品久久久久久久久久| 中文字幕一区二区三| 精品一区二区综合| 欧洲福利电影| 国产不卡精品在线| 日本欧美韩国| 日韩福利视频| 国产精品宾馆| 国产在线观看91精品一区| 久久九九国产精品怡红院| 在线免费不卡电影| 国产欧美日韩另类视频免费观看| 秋霞电影网一区二区| 日韩激情毛片| 久久国产精品色av免费看| 91九色国产在线播放| 中文字幕国产在线 | 韩国国内大量揄拍精品视频| 亚洲最色的网站| 久久亚洲精品国产精品紫薇| 国内成人精品2018免费看| 中文字幕乱码亚洲无线精品一区| 久久亚州av| 久久男人av| 国产精品久久国产愉拍| 婷婷综合亚洲| 琪琪久久久久日韩精品| 中文字幕系列一区| 国产一区二区色噜噜| 欧美女王vk| 91精品国产自产在线丝袜啪| 澳门av一区二区三区| 成人天堂yy6080亚洲高清| 日韩伦理在线一区| 日韩国产欧美| 成人bbav| caoporm免费视频在线| 国产一线二线在线观看| 七七成人影院| free性欧美16hd| 欧美裸体视频| 天天色天天射天天综合网| 成人爽a毛片免费啪啪动漫| heyzo在线播放| 在线观看网站免费入口在线观看国内 | 高清av影院| 最色在线观看| 色吊丝在线永久观看最新版本| 国产精品va视频| 岛国精品一区| 久久99国产成人小视频| 亚洲人体大胆视频| 久久99国产精品尤物| 91亚洲精华国产精华精华液|