馬斯克悄然發(fā)布Grok 4.1,霸榜大模型競技場所有排行榜
剛剛,馬斯克發(fā)布Grok 4.1,同時霸榜大模型競技場的第一和第二。
怎么做到的?

Grok 4.1思考模式以1483的Elo分?jǐn)?shù)穩(wěn)居榜首,領(lǐng)先非xAI模型中的最高分整整31分。
Grok 4.1非思考模式以1465分拿下第二名,超越了公開排行榜上所有其他模型的完整推理模式。

之前的Grok 4在排行榜上僅排第33位。不到半年時間,xAI就實現(xiàn)了巨大飛躍。
在大模型競技場新推出的專家榜和職業(yè)榜上,Grok 4.1思考模式同樣霸榜。

專家榜中的題目預(yù)計只有各自領(lǐng)域的頂尖專家才會提出,職業(yè)榜分為八個細(xì)分:
軟件和IT服務(wù),寫作、文學(xué)和語言,生命科學(xué)、物理科學(xué)和社會科學(xué),娛樂、體育和媒體,商業(yè)、管理和財務(wù)運營,數(shù)學(xué)、法律與政府,醫(yī)療保健
Grok4.1目前只在文學(xué)榜上輸給Gemini2.5,數(shù)學(xué)榜輸給Claude4.5和o3,其他六個榜單均拿下第一。

不過由于模型剛發(fā)布,投票數(shù)還很少,等“Preliminary”標(biāo)記消失(超過一定票數(shù))后的成績更有參考價值。
在非用戶投票的EQ-Bench情商測試中,Grok 4.1的表現(xiàn)同樣出色,超過剛發(fā)布不久的Kimi K2(但不是Thinking版本)。
EQ-Bench是一個由大語言模型評判的測試,評估主動情商能力、理解力、洞察力、同理心和人際交往技能。

將RLHF推向前所未有的高度
Grok 4.1原來早就暗中測試了。
從11月1日起,新版模型被逐步推送越來越多的用戶,期間持續(xù)進(jìn)行盲測對比評估,64.78%的用戶更喜歡新版。

xAI官網(wǎng)給出了Grok4.1與之前版本在各個方面的回答對比。
響應(yīng)情感問題:

創(chuàng)意寫作:

xAI在技術(shù)報告中特別強調(diào),Grok 4.1在創(chuàng)造性、情感性和協(xié)作性互動方面帶來了顯著改進(jìn)。模型變得更加善于捕捉細(xì)微的意圖,對話更有吸引力,個性表現(xiàn)更加連貫,同時完全保留了前代產(chǎn)品的敏銳智能和可靠性。
為了實現(xiàn)這些提升,團(tuán)隊使用了支撐Grok 4的大規(guī)模強化學(xué)習(xí)基礎(chǔ)設(shè)施,并將其應(yīng)用于優(yōu)化模型的風(fēng)格、個性、有用性和對齊性。他們開發(fā)的新方法讓前沿智能推理模型作為獎勵模型,能夠自主評估和迭代響應(yīng)。
xAI負(fù)責(zé)后訓(xùn)練的Dust Tran分享了更多細(xì)節(jié),主要改進(jìn)在強化學(xué)習(xí)上,將 RLHF推向前所未有的高度。
在過去的幾個月里,我們這個由十幾人組成的團(tuán)隊利用用戶在真實對話中的偏好,以及基于強大推理能力進(jìn)行評分的智能體獎勵模型,對強化學(xué)習(xí) (RL) 的算法進(jìn)行了全面改進(jìn).
此外,我們還將RL的規(guī)模擴大了一個數(shù)量級,遠(yuǎn)超Grok 4中現(xiàn)有的類似預(yù)訓(xùn)練的規(guī)模。
Grok 4.1對不需要思維鏈推理的快速回復(fù)模式做了特別加強。關(guān)閉推理功能后,輸出標(biāo)記數(shù)從約2300個減少到850個。
此外Grok 4.1還重點改善了幻覺問題。
配備搜索工具的非推理模型可以快速給出答案,但由于推理深度受限和工具調(diào)用預(yù)算有限,很容易出現(xiàn)事實錯誤。
在Grok 4.1的后訓(xùn)練階段,專注于減少信息檢索提示中出現(xiàn)的事實性幻覺。隨后觀察到,對于抽樣生成的信息檢索提示,幻覺發(fā)生率顯著降低。
在包含500個個人傳記問題的FActScore測試中,Grok 4.1非推理模式的成績也比前一代有明顯改善。

在更多示例中,Grok 4.1還展示出可以輸出圖文并茂的回答。

目前,Grok 4.1已經(jīng)在grok.com、X平臺以及iOS和Android應(yīng)用上向所有用戶開放,默認(rèn)以自動模式推出,用戶也可以在模型選擇器中明確選擇Grok 4.1。
參考鏈接:
[1]https://x.ai/news/grok-4-1
[2]https://x.com/arena/status/1990530984014676155
[3]https://x.com/dustinvtran/status/1990532663258853720


































