国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

馬斯克悄然發(fā)布Grok 4.1,霸榜大模型競技場所有排行榜

人工智能
Grok 4.1思考模式以1483的Elo分?jǐn)?shù)穩(wěn)居榜首,領(lǐng)先非xAI模型中的最高分整整31分。Grok 4.1非思考模式以1465分拿下第二名,超越了公開排行榜上所有其他模型的完整推理模式。

剛剛,馬斯克發(fā)布Grok 4.1,同時霸榜大模型競技場的第一和第二。

怎么做到的?

圖片

Grok 4.1思考模式以1483的Elo分?jǐn)?shù)穩(wěn)居榜首,領(lǐng)先非xAI模型中的最高分整整31分。

Grok 4.1非思考模式以1465分拿下第二名,超越了公開排行榜上所有其他模型的完整推理模式。

圖片

之前的Grok 4在排行榜上僅排第33位。不到半年時間,xAI就實現(xiàn)了巨大飛躍。

在大模型競技場新推出的專家榜和職業(yè)榜上,Grok 4.1思考模式同樣霸榜。

圖片

專家榜中的題目預(yù)計只有各自領(lǐng)域的頂尖專家才會提出,職業(yè)榜分為八個細(xì)分:

軟件和IT服務(wù),寫作、文學(xué)和語言,生命科學(xué)、物理科學(xué)和社會科學(xué),娛樂、體育和媒體,商業(yè)、管理和財務(wù)運營,數(shù)學(xué)、法律與政府,醫(yī)療保健

Grok4.1目前只在文學(xué)榜上輸給Gemini2.5,數(shù)學(xué)榜輸給Claude4.5和o3,其他六個榜單均拿下第一。

圖片

不過由于模型剛發(fā)布,投票數(shù)還很少,等“Preliminary”標(biāo)記消失(超過一定票數(shù))后的成績更有參考價值。

在非用戶投票的EQ-Bench情商測試中,Grok 4.1的表現(xiàn)同樣出色,超過剛發(fā)布不久的Kimi K2(但不是Thinking版本)。

EQ-Bench是一個由大語言模型評判的測試,評估主動情商能力、理解力、洞察力、同理心和人際交往技能。

圖片

將RLHF推向前所未有的高度

Grok 4.1原來早就暗中測試了。

從11月1日起,新版模型被逐步推送越來越多的用戶,期間持續(xù)進(jìn)行盲測對比評估,64.78%的用戶更喜歡新版。

圖片

xAI官網(wǎng)給出了Grok4.1與之前版本在各個方面的回答對比。

響應(yīng)情感問題:

圖片

創(chuàng)意寫作:

圖片

xAI在技術(shù)報告中特別強調(diào),Grok 4.1在創(chuàng)造性、情感性和協(xié)作性互動方面帶來了顯著改進(jìn)。模型變得更加善于捕捉細(xì)微的意圖,對話更有吸引力,個性表現(xiàn)更加連貫,同時完全保留了前代產(chǎn)品的敏銳智能和可靠性。

為了實現(xiàn)這些提升,團(tuán)隊使用了支撐Grok 4的大規(guī)模強化學(xué)習(xí)基礎(chǔ)設(shè)施,并將其應(yīng)用于優(yōu)化模型的風(fēng)格、個性、有用性和對齊性。他們開發(fā)的新方法讓前沿智能推理模型作為獎勵模型,能夠自主評估和迭代響應(yīng)。

xAI負(fù)責(zé)后訓(xùn)練的Dust Tran分享了更多細(xì)節(jié),主要改進(jìn)在強化學(xué)習(xí)上,將 RLHF推向前所未有的高度。

在過去的幾個月里,我們這個由十幾人組成的團(tuán)隊利用用戶在真實對話中的偏好,以及基于強大推理能力進(jìn)行評分的智能體獎勵模型,對強化學(xué)習(xí) (RL) 的算法進(jìn)行了全面改進(jìn).

此外,我們還將RL的規(guī)模擴大了一個數(shù)量級,遠(yuǎn)超Grok 4中現(xiàn)有的類似預(yù)訓(xùn)練的規(guī)模。

Grok 4.1對不需要思維鏈推理的快速回復(fù)模式做了特別加強。關(guān)閉推理功能后,輸出標(biāo)記數(shù)從約2300個減少到850個。

此外Grok 4.1還重點改善了幻覺問題。

配備搜索工具的非推理模型可以快速給出答案,但由于推理深度受限和工具調(diào)用預(yù)算有限,很容易出現(xiàn)事實錯誤。

在Grok 4.1的后訓(xùn)練階段,專注于減少信息檢索提示中出現(xiàn)的事實性幻覺。隨后觀察到,對于抽樣生成的信息檢索提示,幻覺發(fā)生率顯著降低。

在包含500個個人傳記問題的FActScore測試中,Grok 4.1非推理模式的成績也比前一代有明顯改善。

圖片

在更多示例中,Grok 4.1還展示出可以輸出圖文并茂的回答。

圖片

目前,Grok 4.1已經(jīng)在grok.com、X平臺以及iOS和Android應(yīng)用上向所有用戶開放,默認(rèn)以自動模式推出,用戶也可以在模型選擇器中明確選擇Grok 4.1。

參考鏈接:
[1]https://x.ai/news/grok-4-1
[2]https://x.com/arena/status/1990530984014676155
[3]https://x.com/dustinvtran/status/1990532663258853720

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-03-05 08:50:00

模型AI數(shù)據(jù)

2025-02-18 14:59:16

2025-03-03 12:59:39

2025-02-18 15:09:07

2025-07-10 16:58:04

2025-11-18 09:11:48

2025-02-11 09:20:00

LLM模型AI

2024-03-18 14:17:06

大模型開源人工智能

2013-08-23 09:41:19

2025-09-22 09:06:00

AI智能模型

2023-06-07 14:08:00

計算機代碼

2022-08-24 14:41:58

馬斯克薪資

2025-07-15 09:07:00

2010-10-27 16:35:43

2016-10-26 10:14:25

2023-09-21 10:30:05

AI開源

2025-06-06 14:23:48

谷歌模型AI

2025-03-10 12:10:00

RedisJava排行榜

2022-06-17 12:10:07

RPA機器人流程自動化

2014-11-26 10:49:32

編程語言
點贊
收藏

51CTO技術(shù)棧公眾號

色综合中文综合网| 久久久久久久网站| 欧美另类videosbestsex日本| 日韩精品免费一区二区夜夜嗨| 色综合久久综合网欧美综合网 | 久久免费av| 亚洲欧洲一区二区三区久久| 中文字幕在线第一页| 久久综合久久综合九色| 美女被啪啪一区二区| 蜜桃视频欧美| 欧美日产国产成人免费图片| 日韩精品美女| 欧美日韩国产a| 天天av综合网| 亚洲综合清纯丝袜自拍| 99免费视频观看| 国产91在线看| 最新精品视频| 午夜在线一区二区| www 成人av com| 日韩美女一区二区三区在线观看| 欧美韩国理论所午夜片917电影| 国产三级电影在线播放| 欧美日韩aaa| 黄色在线视频观看网站| 亚洲高清视频在线| 超清福利视频| 国产精品久久久久三级| 狠狠操精品视频| 成人动漫在线一区| 91免费版看片| 国产高清久久久久| 国产乱子伦精品视频| 国内精品国产三级国产a久久| 欧美日韩在线播放一区二区| 在线日本成人| 免费日韩电影在线观看| 性高湖久久久久久久久| 久久久久久久久久久一区| 在线观看日韩av电影| 91传媒视频免费| 综合精品久久| 国产一区二区免费在线观看| 亚洲福利免费| 日韩成人在线资源| 美腿丝袜在线亚洲一区| 在线看成人av电影| 国产精品一区二区在线观看不卡| 18视频在线观看娇喘| 国产91高潮流白浆在线麻豆| 日本wwwcom| 国产日韩欧美一区二区三区乱码| 黄色一级大片在线观看| 中文字幕在线不卡国产视频| 男人天堂2020| 91国产免费看| 日韩激情美女| 中文日韩在线观看| 成人av动漫| 成人午夜激情免费视频| 亚洲综合电影一区二区三区| 日本一区二区免费高清视频| 99这里只有精品| 黄色一级视频网站| 欧美日韩在线一区二区| av日韩中文| 欧美成人网在线| 欧美黑人巨大videos精品| 成人h猎奇视频网站| 久久久www| 国产精品裸体瑜伽视频| 亚洲柠檬福利资源导航| 青青草超碰在线| 亚洲电影成人av99爱色| 色综合久久久| 91精品久久久久久久久久| 亚洲欧美日韩精品一区二区| 日韩一级性生活片| 亚洲精品国产一区二区三区四区在线 | 亚洲福利视频二区| avtt久久| 国产极品精品在线观看| 亚洲欧美卡通另类91av| 久久99久久99精品| 亚洲一区二区三区四区五区黄| 麻豆传媒在线免费看| 欧美一区二区美女| 亚洲成人黄色| 国产欧美综合精品一区二区| 成a人片国产精品| 完全免费av在线播放| 亚洲欧美综合v| 国产欧美日韩视频在线| 亚洲精品在线视频观看| 亚洲伦理在线精品| av岛国在线| 国产一区二区香蕉| 成人午夜av电影| 国产精品一区二区婷婷| 欧美成人高清视频| 小嫩嫩精品导航| 国产网站观看9久| 亚洲免费av片| 亚洲精品视频在线观看视频| 一区二区三区自拍视频| 国产精品免费一区二区三区观看| 91色porny| 国产区在线观看| 日韩暖暖在线视频| 国产伦理精品不卡| 国产三级电影在线| 97成人超碰免| 国产v综合v亚洲欧| 黄色网址在线免费观看| 国产成人精品免高潮在线观看| 国产一区二区三区在线观看免费 | 天堂社区 天堂综合网 天堂资源最新版 | 国产有码一区二区| 成人动漫在线一区| 97在线视频免费观看完整版| 成人在线视频网| 日本一区二区综合亚洲| 国产精品伦理| 欧美性天天影院| 一本色道亚洲精品aⅴ| 欧美18免费视频| 成年人午夜视频在线观看| 日韩精品一区二| 欧美午夜一区| 成人网址大全| 欧美成人精品一区二区三区| 国产中文字幕精品| 国产黄色小视频在线| www国产亚洲精品| 亚洲综合色区另类av| 日韩有码av| a在线观看免费视频| 色噜噜狠狠色综合网图区| 美腿丝袜亚洲一区| 狂野欧美激情性xxxx欧美| 国产女人水真多18毛片18精品 | 韩国三级在线一区| 国产在线一区二区视频| 99国产精品久久久久老师| 亚洲午夜久久久久中文字幕久| 哺乳一区二区三区中文视频| 国产不卡一区二区视频| 国产一区二区三区在线看 | 国产精品极品美女粉嫩高清在线| 国产日韩精品一区二区浪潮av | 国产成人免费91av在线| 中文乱码免费一区二区| 日日夜夜综合| 国产熟女高潮视频| 不卡av日日日| 2020国产精品久久精品美国| www.欧美视频| 精品少妇无遮挡毛片| 久久久久久久999| 欧美国产日韩精品免费观看| 豆花视频一区二区| 黄页在线播放| 国产精品久久久久久久9999 | 日本一区影院| 日韩精品无码一区二区三区免费| 欧美成人黑人xx视频免费观看| 国产亚洲欧美激情| 天堂网av成人| 欧美精品少妇| 欧美日韩精品不卡| 日韩成人中文电影| 99国产精品久久久久久久久久久 | 欧美一卡2卡3卡4卡| 美女免费视频一区二区| 欧美大片高清| 免费看a级黄色片| 国产精国产精品| 色视频欧美一区二区三区| 国产亚洲综合精品| 悠悠资源网亚洲青| 91视频最新入口| 91精品国产色综合久久不卡98口 | 白白色在线观看| 日韩a级黄色片| 欧美激情一区二区三区成人| 亚洲欧美日本韩国| 一区二区三区在线电影| 1stkiss在线漫画| 无码专区aaaaaa免费视频| 91精品国产99| 精品视频999| 成人午夜免费av| 国产一区国产二区国产三区| 91caoporn在线| 男人插女人视频在线观看| 国产精品av网站| 欧美r级电影在线观看| 91视视频在线观看入口直接观看www | 欧美人与牲禽动交com |