GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位

Crystalcxt

發(fā)布于 2024-4-15 09:51

瀏覽

0收藏

啥？

新版GPT-4是在Q*的輸出上微調(diào)的？

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

在競技場重回榜一的新版GPT-4 Turbo，成功再次踩中大家嗨點(diǎn)。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

它此次的性能提升體現(xiàn)在數(shù)學(xué)、推理、代碼上，而且輸出內(nèi)容廢話更少。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

最讓大家感到興奮的是其數(shù)學(xué)/推理能力，現(xiàn)在可以在一些問題上完勝其他大模型。

比如“求y=x^4-5x^2-x+4和y=x^2-3x交點(diǎn)的y坐標(biāo)之和。”只有最新版GPT-4 Turbo能測出來。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

這條推特被公開承認(rèn)自己參與過Q*的Lukasz Kaiser轉(zhuǎn)發(fā)。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

Noam Brown也發(fā)推表示新版GPT-4 Turbo在推理能力上大幅提升——要知道，這位OpenAI科學(xué)家一直被外界認(rèn)為正在研究Q*。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

各方信息匯總后，網(wǎng)友們一拍腦袋反應(yīng)過來，這其中會不會就引入了Q*啊？

數(shù)學(xué)方面的提升意味著其中可能包含了一個數(shù)學(xué)模型，可能是Q*。

（以及他的數(shù)學(xué)題測試推特被OpenAI的人轉(zhuǎn)發(fā)了）

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

好家伙，難道OpenAI在悄悄搞大事？

新GPT-4的“新馬腳”？

OpenAI官方公告表示，最新版本的GPT-4 Turbo全方位大提升，現(xiàn)在ChatGPT用戶可直接體驗(yàn)。

網(wǎng)友立馬沖去實(shí)測，有人給出評估結(jié)果，特別是數(shù)學(xué)/推理能力有了重大提升。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

實(shí)際問題測試中，在多個數(shù)學(xué)推理題上，GPT-4 Turbo都沒有翻車，但是如Command-R plus、Clauede-3 Opus等都有失誤。

比如一道乘電梯的推理題。陷阱在于這部神奇電梯無論坐幾層，最后都會停在一層。GPT-4 Turbo理解了這層邏輯，最后給出了正確答案。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

還有在修改二叉樹問題上，GPT-4 Turbo不僅回答正確，而且過程清晰完整。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

同時在“大海撈針”能力上，與之前版本對比，最新GPT-4 Turbo已經(jīng)是出版GPT-4能力的4.3倍。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

競技場的結(jié)果表明，在代碼能力方面，GPT-4 Turbo也更強(qiáng)了。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

文本輸出方面變得更加簡潔。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

生成代碼也少了很多廢話（下圖右側(cè)為新版本）。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

有人補(bǔ)充說，生成速度上也更快了。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

神秘Q*：OpenAI的最大秘密？

現(xiàn)在Q*已經(jīng)成了OpenAI的流量密碼了，只要出現(xiàn)這個關(guān)鍵字，網(wǎng)友們都會興奮不已。

畢竟當(dāng)初奧特曼宮斗大戲就和它有關(guān)聯(lián)，還有人發(fā)出警告，Q*預(yù)示著AGI即將出現(xiàn)。

不過官方一直沒有公開承認(rèn)過這個項(xiàng)目的存在，奧特曼拒絕回答，Transformer作者公開承認(rèn)參與Q*也被OpenAI公關(guān)跳起來捂嘴。

從目前各方透露的信息來看，Q*專注于邏輯和數(shù)學(xué)推理能力，數(shù)學(xué)能力突出。

Transformer作者之一Lukasz Kaiser承認(rèn)自己參與了這個項(xiàng)目。

德?lián)銩I之父、前FAIR（Meta）研究科學(xué)家Noam Brown也被視為是Q*項(xiàng)目的重要成員（推測來自LeCun）。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

他加入OpenAI的動作也被外界視為分析Q*的一個線索，“有理由懷疑Q是將LLM和AlphaGo結(jié)合起來，并用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練”。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

Noam Brown開發(fā)出了第一個在打撲克牌上超越人類的AI，后來加入Meta致力于讓AI學(xué)會玩Diplomacy（外交游戲）。

目前，關(guān)于Q*的準(zhǔn)確信息還是非常少。

可能奧特曼還在等一個合適的時機(jī)來回應(yīng)外界。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

One More Thing

btw，網(wǎng)友們意外捉到總裁Brockman轉(zhuǎn)發(fā)的一個視頻演示里的提示詞是：

創(chuàng)建一個python腳本，使用pytube庫從YouTube下載視頻。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

看來大家拿GPT-4干的事也都差不多嘛（doge）。

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位-AI.x社區(qū)

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/THsEr_Lhd_gFE0G-KiYFeA??

標(biāo)簽

GPT-4

推理

贊

回復(fù)

舉報

回復(fù)

相關(guān)推薦

華人又來炸場！一個命令工具讓GPT-4干掉Devin和RAG！Jim Fan：提示工程2.0沒必要了！

51CTO技術(shù)棧 ? 4551瀏覽 ? 0回復(fù)
開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單

Crystalcxt ? 3364瀏覽 ? 0回復(fù)
甲骨文寵兒力壓GPT-4斬獲競技場首勝，不綁定廠商，不做聊天機(jī)器人，Transformer最年輕作者帶飛大模型創(chuàng)業(yè)新

51CTO技術(shù)棧 ? 3943瀏覽 ? 0回復(fù)
大模型競技場全面測評結(jié)果出爐：Llama3 70B成開源模型中最強(qiáng)王者！

AIGC最前線 ? 7841瀏覽 ? 0回復(fù)
OpenAI神秘搞事，GPT-4.5默默上線？推理碾壓GPT-4網(wǎng)友震驚，奧特曼笑而不語

duhorse ? 4576瀏覽 ? 1回復(fù)
AlphaGo核心算法增強(qiáng)，7B模型數(shù)學(xué)能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt ? 4385瀏覽 ? 0回復(fù)
拯救被「掰彎」的GPT-4！西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」

duhorse ? 3609瀏覽 ? 0回復(fù)
3D生成競技場來了！比拼360°環(huán)繞視頻，最強(qiáng)模型由你pick

Crystalcxt ? 4207瀏覽 ? 0回復(fù)
谷歌DeepMind：GPT-4高階心智理論徹底擊敗人類！第6階推理諷刺暗示全懂了

duhorse ? 3490瀏覽 ? 0回復(fù)
GPT-4欺騙人類高達(dá)99.16%驚人率！PNAS重磅研究曝出，LLM推理越強(qiáng)欺騙值越高

duhorse ? 3819瀏覽 ? 0回復(fù)
首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次

duhorse ? 4132瀏覽 ? 0回復(fù)
8B尺寸達(dá)到GPT-4級性能！北大等提出醫(yī)療專家模型訓(xùn)練方法

duhorse ? 3392瀏覽 ? 0回復(fù)
如何通過壓縮提示降低GPT-4的成本

51CTO內(nèi)容精選 ? 4243瀏覽 ? 0回復(fù)
ECCV 2024 | 引入DiT的原生3D通用框架，適用任意神經(jīng)場、秒級生成

輕薄滴假象 ? 4135瀏覽 ? 0回復(fù)
GPT-4和GPT-4V能否像人類一樣進(jìn)行抽象推理

lintoms ? 3546瀏覽 ? 0回復(fù)
清華團(tuán)隊(duì)靠強(qiáng)化學(xué)習(xí)讓 7B 模型打敗 GPT-4o 數(shù)學(xué)推理

Aceryt ? 4274瀏覽 ? 0回復(fù)
Anthropic秘密「混合模型」 Claude 4首曝細(xì)節(jié)，硬剛GPT-5！深度推理模型來了

duhorse ? 4042瀏覽 ? 0回復(fù)
Claude 4被曝發(fā)布在即！DeepSeek把大招都給逼出來了

Crystalcxt ? 3217瀏覽 ? 0回復(fù)
不用魔法，直接訪問微軟 Copilot GPT-4

丟翅膀的魚 ? 3356瀏覽 ? 0回復(fù)

Crystalcxt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

51CTO

51CTO博客

51CTO學(xué)堂

GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強(qiáng)廢話更少，競技場重奪王位

新GPT-4的“新馬腳”？

神秘Q*：OpenAI的最大秘密？

One More Thing

目錄