国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

從GPT-5看AI:OpenAI再領潮流

發布于 2025-8-12 06:42
瀏覽
0收藏

OpenAI 正式發布 GPT-5 了。

從GPT-5看AI:OpenAI再領潮流-AI.x社區


公司稱這是一個統一的系統,能自己決定回答問題前需要思考多久。Sam Altman 說,GPT-5 就像是你可以“向一個真正的專家、博士級別的專家提問任何問題”,然后得到靠譜的回答。

新模型正逐步向全部 7 億 ChatGPT 用戶開放——是的,哪怕你沒花錢買訂閱也能用。

看完一小時的發布會后,問題很簡單:GPT-5 真有比之前模型大進步,還是被炒過頭了?

在這篇文章里,我會詳細聊聊 GPT-5 是什么、新功能有哪些、性能數據如何,以及今天起你怎么能用上它。

GPT-5 是什么?

GPT-5 是 OpenAI 取代 GPT-4o 的最新模型。

它被描述為一個統一系統,意思是用戶不用手動在“快速”模型和“思考”模型間選來選去。

其實你會發現,在 ChatGPT 里,他們把其他模型都去掉了,只留了 ChatGPT 5。

GPT-5 在 ChatGPT 中:

從GPT-5看AI:OpenAI再領潮流-AI.x社區

GPT-5 用的是 OpenAI 說的 real-time router,會決定是快速回答還是對難題啟動“GPT-5 thinking”模式。如果你在輸入里寫“認真想想”,模型會明確啟動更長的推理過程。

一旦你用過了限額,一個更小的“mini”版本會接手處理剩下的問題。OpenAI 說,這種路由決定基于實時信號,比如用戶換模型?

System: 模型、評分反饋和答案修正情況。路由器會不斷學習,越來越聰明。

這個模型還被宣傳為更適合 ChatGPT 的常見任務:

? 寫作輔助和編輯。

? 編程,尤其是復雜的前端工作和大項目調試。

? 健康相關查詢,準確性和語境理解比之前模型更強。

理論上,這個模型能應對大多數常見任務,比如快速回答、復雜研究、創意寫作、編程項目,甚至醫療信息(當然有常規免責聲明)。

GPT-5 的新功能

GPT-5 比之前模型有幾大核心升級。有些是底層技術改進,有些是用戶能直接感受到的變化。

更智能的路由和推理:模型現在能自己決定啥時候多想想。這種“test-time compute”方法讓它能在難題上花更多算力。思考模式可以自動或手動啟動。這是普通用戶第一次能用上這種能力——之前這種長推理功能只在研究或企業實驗中出現過。

更擅長現實任務:據 OpenAI 說,GPT-5 更不容易出現 hallucination,語境理解更強,尤其是在編程、數學、健康和 multimodal reasoning 領域。他們稱普通模式的 hallucination 率比 GPT-4o 低了約 45%,思考模式下比 OpenAI o3 低了約 80%。

更強的編程能力:這個功能被大力宣傳。GPT-5 據說能從單一提示生成更美觀、更實用的網站、應用和游戲,還能更好地調試大代碼庫。公司甚至展示了一個一次性生成完整功能游戲“Jumping Ball Runner”的演示。

改進的寫作:OpenAI 說 GPT-5 的寫作更“resonant”、結構更清晰,處理復雜文學形式的能力更強。這聽起來可能有點小眾,但對用 ChatGPT 做內容創作的人來說,這意味著初稿質量更高,機械化措辭更少。

健康和專家領域:GPT-5 在 HealthBench 上的得分顯著提高,能提供更準確、語境更強的健康回答。OpenAI 還是強調這不能代替醫生,但模型現在會主動問澄清問題,標記潛在問題。

個性化風格:你現在可以設置 ChatGPT 以四種預設“個性”回應:Cynic、Robot、Listener 和 Nerd。這樣互動更自然,不用老是重寫自定義指令。

更安全的回答:對于有風險的問題,GPT-5 不再直接拒絕,而是盡量給部分或高層次的回答。OpenAI 稱之為“safe completions”,讓模型在灰色地帶的回答更細膩,減少用戶挫敗感。

GPT-5 性能與基準測試

OpenAI 在發布會上提供了不少基準測試數據來支持他們的說法。以下是一些關鍵數字。

在 SWE-bench Verified(現實世界編程測試)中,GPT-5 的思考模式下 pass@1 達到 74.9%,相比 OpenAI o3 的 69.1% 和 GPT-4o 的 30.8%。

GPT-5 SWE 基準測試。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

圖片來源:OpenAI

如果你是前端工程師,你會喜歡 GPT-5 更注重美學、更有野心、更準確。

看看這個用以下提示生成的樣本用戶界面:

提示:創建一個單頁應用,寫在一個 HTML 文件里,要求如下:

? 名稱:Audio Step Sequencer

? 技術棧:WebAudio API

? 目標:16 步鼓點網格

? 功能:節奏、swing、模式保存/加載、導出 WAV(簡單緩沖渲染)

? UI 要未來感,玩起來要好玩!

GPT-5 樣本 UI 結果。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

圖片來源:Jim Clyde Monge

想了解更多 GPT-5 的編程能力,可以看看 OpenAI 的博客文章。我已經迫不及待想用這個模型寫 web 應用了。

說到 web 開發,Cursor 的聯合創始人兼 CEO Michael Truell 說,這是他們用過的最聰明的編程模型。

“GPT-5 是我們用過的最聰明的編程模型。我們團隊發現 GPT-5 非常智能,易于引導,甚至有種其他模型沒有的個性。它不僅能發現深藏的 bug,還能運行長時間、多輪的后臺代理,完成復雜的任務——這種問題以前的模型都會卡住。從規劃 PR 到完成端到端構建,它都成了我們的日常主力?!?—— Michael Truell

是的,GPT-5 現已在 Cursor 上可用。你只需要更新 IDE,然后在模型下拉列表中選 GPT-5。

GPT-5 在 Cursor 上。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

圖片來源:Jim Clyde Monge

我還沒來得及深入體驗這個新模型,但我會在另一篇文章里分享我的想法和感受。

在數學方面,GPT-5 Pro 在 AIME 2025 競賽基準測試中創下 94.6% 的新紀錄,沒用任何工具。這比 OpenAI 之前任何模型都高,展現了其長推理模式的效果。

GPT-5 AIME 2025 基準測試。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

圖片來源:OpenAI

在其他數學重度測試如 Harvard-MIT Mathematics Tournament (HMMT) 中,它的準確率保持在 90% 以上,對于競賽級問題來說很強。

在健康領域,GPT-5 的思考模式在 HealthBench Hard 上得分 46.2%,相比 OpenAI o3 的 25.5%。

GPT-5 HealthBench。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

圖片來源:OpenAI

這些是高風險的健康對話,事實準確性至關重要。模型在這里的 hallucination 率更低,意味著回答更可靠,但并非完全無誤。

在 multimodal reasoning(涉及圖像、圖表和空間信息的推理)方面,GPT-5 表現也很出色。

GPT-5 MMMU 基準測試。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

圖片來源:OpenAI

在研究生級視覺問題解決的 MMMU Pro 基準測試中,思考模式下達到 84.6%,比 GPT-4o 的 83.3% 略有提升。在 VideoMMMU 和 CharXiv-Reasoning 等相關測試中也有更高得分,表明它在文本和視覺輸入結合時的表現更強。

想了解更多 GPT-5 與其他模型的評估結果,可以看看 OpenAI 的官方博客文章。

我的個人觀察

在結束這部分之前,我想提一下發布會上的一些尷尬說法和柱狀圖的不一致。

比如,表示 69.1% 的柱子跟 30.8% 的柱子一樣高,但它應該高一倍多。而 52.8% 的柱子看起來比 69.1% 的還高。

GPT-5 學術基準測試。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

這看起來太離譜了,不知道是我眼花還是他們真搞錯了。

還有,在 Deception Evals 的柱狀圖上,50.0 的柱子比 47.4 的短很多。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

GPT-5 Deception 評估。

他們沒說這些圖表是不是用 ChatGPT 做的,但在推廣一個強調準確性的工具時,展示有問題的視覺效果可不太好看。

我還注意到這個圖表。

GPT-5 GPQA Diamond 基準測試。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

圖片來源:OpenAI

如果你說“巨大飛躍”或“全面更聰明”,但新模型的性能只是略超前代,那可不算啥。

Sam Altman 本人在 X 上展示了 GPT-5 的新 UI/UX 生成能力:

當你用上 GPT-5,試試像“用 beatbot 做一個慶祝 GPT-5 的酷炫節拍”這樣的指令。這是一個很棒的預覽,展示了 AI 開始生成自己的 UX 和更動態的界面。你可以直接與合成器互動,或讓 ChatGPT 做調整,太酷了!

從GPT-5看AI:OpenAI再領潮流-AI.x社區

但用戶試了這個指令,根本不行,哈哈。

GPT-5 在 ChatGPT 中的失敗演示。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

就我而言,它只是把我引導到 App Store 的一個應用列表,挺諷刺的,因為他們還在吹噓大幅改進的指令遵循和前端生成能力。

最后,我注意到 GPT-5 在 Humanity’s Last Exam 評估中得分低于 Grok 4 Heavy。如下圖所示,Grok 4 Heavy 得 44.4%,而 GPT-5 只有 42%。

GPT-5 Humanity’s Last Exam。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

從GPT-5看AI:OpenAI再領潮流-AI.x社區

Grok 4 在 ARC-AGI-2 性能評估中也比 GPT-5 得分高。

GPT-5 vs Grok 4 ARC AGI。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

圖片來源:X

這種小細節會影響發布會的可信度。這些細節看似小,但大家都會注意到。

GPT-5 可用性和訪問

OpenAI 今天開始向 Free、Plus、Pro 和 Team 用戶推出 GPT-5。

?Free 用戶:能用 GPT-5,但限額較低,之后會切換到 GPT-5 mini。全面推出可能需要幾天。

?Plus 用戶(每月 20 美元):限額更高,默認用 GPT-5。

?Pro 用戶(每月 200 美元):無限制使用 GPT-5,并可訪問 GPT-5 Pro 以獲得更長的推理。

?Team/Enterprise/Edu:一周內推出,組織范圍內的使用限額很寬松。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

它已經在各大平臺上出現了。我的新聞推送里滿是 Cursor、Lovable 和 Microsoft Copilot 等工具在發布幾小時后切換到 GPT-5 的消息。

對于開發者,GPT-5 的 API 現已可用。有三種變體:GPT-5、GPT-5 mini 和 GPT-5 nano,分別針對不同的成本和延遲需求。

GPT-5 模型。圖片來源:OpenAI 官網

API 用法很簡單,舉個例子:

import OpenAI from "openai";
const client = new OpenAI();

const response = await client.responses.create({
  model: "gpt-5",
  input: "Write a short bedtime story about a unicorn.",
});

console.log(response.output_text);

這些模型現已在 OpenAI playground 上可用,你可以測試所有模型。

GPT-5 在 OpenAI Playground 上。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

價格方面,標準層 GPT-5 模型的費率是每百萬輸入 token 1.25 美元,每百萬輸出 token 10 美元。如果使用緩存輸入,價格大幅降至每百萬 token 0.125 美元。

較小的版本便宜得多:

? GPT-5 Mini:每百萬輸入 token 0.25 美元,輸出 token 2 美元(緩存輸入 0.025 美元)。

? GPT-5 Nano:最便宜,每百萬輸入 token 0.05 美元,輸出 token 0.40 美元(緩存輸入 0.005 美元)。

還有一個 gpt-5-chat-latest,價格與主 GPT-5 模型相同,專為想要最新調優版本的對話用例的開發者設計。

GPT-5 文本 token。

從GPT-5看AI:OpenAI再領潮流-AI.x社區

其他模態的價格可以在這頁查看。

總結

看完功能、基準測試和早期反饋后,我不得不說,過去幾個月的炒作把期待值拉得太高了。

還有,那些柱狀圖上的小細節錯誤讓我有點煩。

這些小細節會削弱發布會的可信度。當你推出一個號稱更準確、更可信的模型時,柱狀圖高度不匹配和基準測試視覺效果的不一致顯得有點馬虎。

總的來說,GPT-5 是個不錯的增量升級,但整體……有點讓人失望。

總之,接下來的幾天我會用 GPT-5 跑一些真實的寫作和編程場景,看看它在基準測試幻燈片之外的實際表現?,F在,如果你有 Plus 或 Pro 訂閱,不妨試試看。

本文轉載自??PyTorch研習社??,作者:AI研究生

已于2025-8-12 09:53:42修改
收藏
回復
舉報
回復
相關推薦
亚洲一区二区三区免费视频| 999国产精品视频| 久久久不卡网国产精品一区| 精品国产免费久久久久久尖叫 | 国产精品www网站| 91久久精品国产性色| 亚洲欧美视频| 国产精品第七影院| 网站一区二区| 中文字幕成人精品久久不卡| 午夜成年人在线免费视频| 欧美日韩激情网| 电影天堂爱爱爱爱| 国产欧美一区二区在线| 国产乱人伦精品一区二区三区| 欧美三级免费| 91久久夜色精品国产网站| 亚洲国产网址| 高清欧美一区二区三区| 日韩精品中文字幕吗一区二区| 亚洲美女性生活视频| 波多野结衣久久| 精品国产欧美一区二区| av在线电影观看| 91久久国产综合久久| 九草视频在线观看| 亚洲第一主播视频| 中文字幕一二三区在线观看| 亚洲激情中文1区| 波多野结衣在线中文| 18成人在线观看| 波多野吉衣av| 亚洲一二三四在线| 中文在线中文字幕| 色妹子一区二区| 在线视频91p| 7777女厕盗摄久久久| 欧美a在线看| 欧美一级夜夜爽| 欧美性爽视频| 亚洲男人的天堂在线播放| 精品国产第一福利网站| 在线视频中文亚洲| 一区二区在线免费播放| 91精品国产91久久| 激情五月色综合国产精品| 国产日韩欧美视频| 激情久久久久久久| 亚洲精品在线免费看| 国产精品正在播放| 欧美xxxxx在线视频| 最新不卡av在线| 在线观看av网站| 91麻豆精品国产91久久久使用方法 | 国产精品嫩草影院久久久| 深爱激情综合网| 91久久久在线| 视频一区二区三区在线| 裸体大乳女做爰69| www一区二区| 高清视频在线www色| 欧美日韩国产精选| 性高爱久久久久久久久| 国外视频精品毛片| 欧美日韩精选| 国产一区 在线播放| 中文字幕一区视频| jizz在线观看中文| 亚洲欧美日韩另类| 亚洲人成网77777色在线播放| 5566av亚洲| 国产在线看一区| 成人eeuss影院在线观看| 91久久香蕉国产日韩欧美9色| 黄色成人在线网| 韩国福利视频一区| 亚洲清纯自拍| 18岁网站在线观看| 五月天欧美精品| 欧美13videosex性极品| 97高清免费视频| 久久久久国产一区二区| 国产精品天天av精麻传媒| 欧美日韩在线视频首页| 蜜臀久久精品| 国产精品人成电影| 精品一区二区三区免费毛片爱| www.久久久精品| 91麻豆精品国产自产在线观看一区| 色综合视频一区二区三区44| 亚洲字幕在线观看| 97se狠狠狠综合亚洲狠狠| 中文字幕在线网| 国产亚洲精品久久久| 日韩午夜电影网| 大胆欧美熟妇xx| 欧洲生活片亚洲生活在线观看| 国产精品久久乐| 精品乱子伦一区二区三区| 国产欧美一区二区三区网站| 久久久久久久久免费视频| 久久成人这里只有精品| 另类国产ts人妖高潮视频| 国产青青视频| 亚洲精品在线不卡| 无码一区二区三区视频| www黄色日本| 欧美va亚洲va香蕉在线| 欧美系列电影免费观看| 无罩大乳的熟妇正在播放| 欧美精品在欧美一区二区少妇| 女同一区二区三区| 17c丨国产丨精品视频| 在线精品视频免费观看| 欧美综合自拍| www.国产在线视频| 欧美成人免费网站| 欧美黄在线观看| 1024亚洲| 美女性感视频久久久| 精久久久久久久久久久| av电影在线观看| 91精品久久久久久久久久| 国产视频一区二区在线| 国产精品av一区二区三区| 久久久久久九九九九| 精品福利樱桃av导航| 麻豆成人入口| 免费高清在线观看免费| 亚洲美女喷白浆| 日韩成人免费在线| 欧美伦理影视网| 国产精品久久久久久久久久久新郎 | 亚洲午夜精品视频| 水野朝阳av一区二区三区| 在线黄色av| 国产成人涩涩涩视频在线观看| 久久久久久**毛片大全| 中韩乱幕日产无线码一区| 图片区小说区区亚洲五月| 777奇米四色成人影色区| 综合亚洲视频| 污视频免费在线看| 国产精品一区二区电影| 亚洲日本丝袜连裤袜办公室| 一区二区亚洲视频| 国产综合免费视频| 蜜臀久久99精品久久久久久宅男| 国产精品资源站在线| 在线看的毛片| 超级碰在线观看| 尤物99国产成人精品视频| 国产一区二区福利视频| 欧美成人黑人| 成年人网站免费视频| 中文字幕不卡在线视频极品| av福利精品导航| 黑人一区二区三区| 精品久久久久久无码国产| 欧美激情高清视频| 亚洲欧美在线视频观看| 亚洲三级性片| 中文字幕不卡| 国产一区在线免费观看| 欧美一级二级三级蜜桃| 久久国产精品无码网站| 国产精品成人国产| 成人动漫h在线观看| 成人欧美一区二区三区黑人孕妇| 欧美午夜视频一区二区| 国产精品亚洲产品| 伊人色综合一区二区三区影院视频| 亚洲国产一二三精品无码| 欧美成人中文字幕在线| 一二三四社区欧美黄| 极品日韩av| 日韩成人动漫| 1234区在线观看视频免费| 99精彩视频在线观看免费| 日韩精品一区二区在线| a亚洲天堂av| 精品国产午夜| av在线天堂| 久久这里只有精品23| 91高清视频在线免费观看| 色88888久久久久久影院按摩| 天堂在线亚洲视频| 精品国产乱码一区二区三区| 色婷婷av金发美女在线播放| 成人黄色在线免费观看| 亚洲精品wwww| **网站欧美大片在线观看| 欧美日本精品| 欧美成人app| 亚洲成人精品一区二区三区| 最近中文字幕免费mv| 国产91精品视频在线观看| 欧美绝品在线观看成人午夜影视| 成人免费不卡视频| 91九色精品国产一区二区|