国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

馬斯克又大嘴了!Grok 4 真實水平曝光,多項實測翻車,連前端都搞不定,還談什么AGI?網友怒評:上當了,花大價錢買了個笑話!

原創 精選
人工智能
小編近幾天發現了一位寶藏 Youtube 博主,最近對 Grok 4 的實際體驗做出了非常全面的反饋。事實證明:馬斯克又一次大嘴了!

編輯 | 云昭

出品 | 51CTO技術棧(微信號:blog51cto)

上周,Grok 4 的發布給這個盛夏帶來了一片狂熱。

但太陽底下無新事,宣傳往往大于實際。

在發布直播中,馬斯克宣稱這是“目前地表最強的 AI”,不僅全面超越了所有競爭對手,還在多個測試中打敗了人類,比如所謂的 “人類終極考試”(Humanity’s Last Exam)、ARC-AGI 測試、Vending Bench 等。

不過,這些基準測試本身就非常局限,無法真正反映 AI 在日常使用、安全性或通用推理能力方面的表現。

小編近幾天發現了一位寶藏 Youtube 博主,最近對 Grok 4 的實際體驗做出了非常全面的反饋。事實證明:馬斯克又一次大嘴了!

“在過去幾天里,我發現,Grok 4 在多個真實場景測試中表現平平,甚至在關鍵領域排名靠后”。

更令人擔憂的是,它在價值觀、內容控制上出現了嚴重問題。

以下,是一份“可能會被馬斯克剪掉的”真實評價清單。

1、真正的測試場,Grok 4 沒“考好”

1. LiveBench:算不上頂尖

有網友認為,LiveBench 是最能檢驗 AI 是否真正“聰明”的評測平臺,涵蓋數學、編程、推理、語言、指令執行、數據分析六大方向。

這里科普一下。

LiveBench 是一個高度動態且無污染的測試平臺,專門評估大語言模型在真實世界任務中的表現。它不同于傳統靜態測試——模型可能在訓練中“見過”的題目——LiveBench 每月都會從 arXiv、新聞文章、編程比賽等來源發布全新、模型從未見過的測試任務。

具體可以看下這六大方向的測試題目:

  • 數學(如 AMC、AIME、IMO 級別題目)
  • 編程(如 LeetCode、AtCoder、代碼補全)
  • 推理(邏輯題、BigBench 變體)
  • 語言(如糾錯、語序調整)
  • 指令執行(如總結、改寫)
  • 數據分析(類似 Kaggle 表格任務)

所以,用 LiveBench 可以檢測出模型“究竟是真聰明,還是只是背得多”。

可以看出,Grok 4 其實在編程和 Agentic 編程方面并沒有很優秀,甚至在o3、Claude4 等多款模型的對比中敗下陣來,推理方面取得了最高分。

可以說,Groke 4 雖然不差,但算不上頂尖。

2. 創意寫作測試

這個測試重點評估語言模型創作原始內容(如小說、詩歌、對話)的能力,看它是否能生成富有情感、風格統一的文本。

難點在于:

  • 沒有“標準答案”,完全靠創造力;
  • 需要情緒表達,而不僅僅是語法正確;
  • 對長文本的風格控制要求極高。

在這一維度上,Grok 4 表現中規中矩,遠遠不是“最強 AI”,大致處于“平均水平”。

3. DesignArena(設計任務)

盡管馬斯克吹噓 Grok 4 是個“編程怪獸”,但它在前端開發任務上表現并不理想,遠不如 Claude 4。

在這個評測中,Grok 4 連前五名都沒進,特別是在 UI 和前端生成上,表現平庸。

4. SVG 圖像生成

在 SVG 圖形生成任務中,Grok 4 表現尚可,但依舊稱不上出色。從數據來看,OpenAI 的 o3 模型和 Google 的 Gemini-Pro 2.5 表現更優

所以,不管是 Vibe Coding,還是前端設計,又或者是創意寫作,Grok 4 都在基準測試中表現平平,更不用說是“地表最強”了。

02、不止是測試平平,Grok 4 在多個層面都出問題了

眾所周知,Grok 近期一直被推友們詬病,說它存在嚴重的倫理偏見和內容失控的現象。還記得系統提示詞修改錯誤導致的“白人種族滅絕”的烏龍事件嗎?

在這次的新版本的 Grok 4 模型中,這些問題依舊沒有得到解決。

從一些用戶上傳的截圖來看,Grok 4 出現了嚴重的倫理與價值觀問題,甚至令人震驚:

1.馬斯克個人偏見

面對烏俄戰爭這類嚴肅問題,Grok 4 居然轉向宣傳馬斯克的個人觀點,而非給出中立分析。

2.納粹式言論

模型在沒有任何諷刺或批判語氣的前提下,美化一個叫“機甲希特勒(MechaHitler)”的角色,使用極端右翼語言,令人不安。

甚至,今天剛剛的消息,馬斯克的 xAI 因 Grok 的“恐怖”反猶太主義帖子都要面臨歐洲的審查。

3.性騷擾對話

Grok 4 在一次用戶測試中,參與了一段種族歧視意味明顯的性暗示對話,涉及對象居然是其“CEO”(即馬斯克本人),且沒有任何屏蔽或阻止機制。

03、用戶怒評:“我花錢買的是個笑話”

正如 Reddit 上一篇爆紅的熱帖所說,很多用戶覺得自己被 Grok 4“忽悠了”,花錢買了個表現遠遜預期的模型。

具體反饋包括:

  • 無法從復雜 PDF 中提取結構化數據(OCR 失敗)
  • 圖像識別錯誤:看不出名勝古跡的位置(誤差高達 200 公里)
  • 車牌國別識別失敗(將根西島車牌誤判為意大利)
  • 非洲語方言寫作質量差(語法錯誤多,流暢性差)
  • 網站生成能力弱(WhatsApp 插件無法使用、頁面布局錯誤、整體設計質量低)

04、AGI 還遠,Grok 4 言過其實

Grok 4 不是 AGI,也不是什么“革命性”的產品。 它不是最聰明的 AI,甚至可能不是這個季度最聰明的聊天機器人。它是一個中等水平的語言模型,被營銷、粉絲濾鏡和馬斯克的 X 平臺宣傳所推高。

在真正重要的任務中,Grok 4 不是最好,也不是“能用即用”的安全模型。如果你認為它代表 AI 的未來,你相信的是宣傳,不是技術。

“比人類還聰明”?別開玩笑了。

Grok 4 連最聰明的聊天機器人都算不上。

好了,今天這篇文章就到此結束了。其實但凡新品發布會,發布者很難不用一些夸張的詞語,這一點屢見不鮮。“大嘴”式發言,大家聽歸聽,還是得上手試一下,才能見分曉。

問一嘴,你有見過哪些不錯的發布會,算是名副其實的發布呢?可以評論區交流。

參考鏈接:

https://www.youtube.com/channel/UCQoNosQTIxiMTL9C-gvFdjA

https://medium.com/data-science-in-your-pocket/grok-4-failed-these-benchmarks-elon-lied-again-412a78fcabf9

責任編輯:龐桂玉 來源: 51CTO技術棧
相關推薦

2023-04-20 17:51:41

馬斯克微軟

2025-01-03 15:42:59

AI模型數據

2023-04-07 09:49:49

2025-09-19 09:10:00

2023-12-13 08:46:33

人工智能ChatGPT機器人

2023-05-04 10:12:00

模型馬斯克

2023-12-08 12:58:26

2018-05-18 11:08:34

曲面顯示器消費者

2025-02-18 15:16:25

2025-11-25 15:59:52

2023-10-25 11:05:54

深度偽造AI

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能

2025-09-23 09:18:40

2020-02-17 15:14:43

計算機十進制二進制

2025-07-03 08:50:20

2023-12-12 17:53:27

馬斯克AIChatGPT

2025-11-17 02:00:00

馬斯克Grok 5AGI

2025-07-10 16:58:04

2025-06-30 01:00:00

2024-03-04 08:42:00

馬斯克微軟
點贊
收藏

51CTO技術棧公眾號

午夜精品一区二区三区在线| 国产在线高清理伦片a| 一区在线影院| 久久精品视频在线免费观看| 美女免费免费看网站| 久久激情婷婷| aaa大片在线观看| 国产精品卡一卡二卡三| 亚洲一区综合| 国产精品多人| 韩国精品久久久999| 理论不卡电影大全神| 一二三区精品福利视频| 欧美黑人经典片免费观看| 老牛影视一区二区三区| 国产精品久久久久久久久晋中 | 狠狠干夜夜操| 成人国产在线观看| 日韩理论片在线观看| 97精品视频| 8x拔播拔播x8国产精品| 精品久久久久久久久久岛国gif| 精品久久一区二区| 98在线视频| 色激情天天射综合网| igao视频网在线视频| 中文字幕欧美一| 中文字幕永久视频| 不卡的看片网站| 久久艹国产精品| 老司机精品视频一区二区三区| 欧美日韩亚洲免费| 宅男在线精品国产免费观看| 视频在线国产| 亚洲黄色尤物视频| 人人澡人人爽人人揉| 国产精品美女久久久久av爽李琼 | 日韩中字在线| 欧美在线一级视频| 成人性生交大片免费看中文视频| 久久综合88中文色鬼| aaaa欧美| 最近2019年日本中文免费字幕| 欧美舌奴丨vk视频| 国产一区二区三区在线观看视频| 欧美巨大丰满猛性社交| 亚洲精品一区二区三区蜜桃下载 | 色老汉av一区二区三区| 色网站在线免费观看| 午夜激情一区| 成人免费午夜电影| 五月激情久久久| 99在线影院| 日韩高清在线一区| 欧洲金发美女大战黑人| 国产精品一区二区男女羞羞无遮挡 | 国产欧美一区二区精品秋霞影院| 免费在线激情视频| 国产不卡视频一区二区三区| 伊人影院在线视频| 波多野结衣一区二区三区 | 久草热久草热线频97精品| 精久久久久久| 久久婷婷开心| 狠狠色丁香久久婷婷综合_中| 看一级黄色录像| 久久一二三国产| 免费高清视频日韩| 亚洲一区在线直播| 972aa.com艺术欧美| www.欧美日本| 亚洲va国产天堂va久久en| seseavlu视频在线| 日韩av一区二区在线观看| 国产高清精品二区| 国产精品揄拍一区二区| 日韩午夜电影| 女人帮男人橹视频播放| 亚洲日本在线观看| 麻豆视频在线免费观看| 欧美艳星brazzers| 久久精品卡一| 青青国产在线| 日韩一区二区在线观看视频播放| 国产精品二三区| 羞羞小视频在线观看| 亚洲国产毛片aaaaa无费看| 亚洲精品传媒| 日韩在线一区二区三区免费视频| 日韩aaa久久蜜桃av| 国新精品乱码一区二区三区18| 国产一二精品视频| 无限国产资源| 精品国产亚洲一区二区三区在线观看| 豆花视频一区| 看欧美日韩国产| 国产精品网友自拍| 波多野结依一区| 国产成人精品免费久久久久 | 亚洲成人999| 福利片在线一区二区| 国产乱码一区| 91色九色蝌蚪| 在线观看黄av| 国产91精品久| 美女精品一区二区| 另类av导航| 在线成人一区二区| 午夜日韩激情| 成人亚洲精品777777大片| 日韩一卡二卡三卡国产欧美| 校园春色另类视频| 亚洲大胆人体在线| 日本欧美三级| 91亚洲精华国产精华精华液| 国产91亚洲精品一区二区三区| 成人综合婷婷国产精品久久免费| 一级网站免费观看| 伊人久久久久久久久久久久久| 欧美激情在线| 九色在线91| 最近2019中文字幕在线高清| 亚洲综合日本| 色吊丝在线永久观看最新版本| 欧美国产精品人人做人人爱| 奇米一区二区三区av| 欧美成熟毛茸茸| 国产91精品久| 久久久精品综合| 88xx成人免费观看视频库| 欧美视频1区| 欧美写真视频网站| 日韩理论在线| 独立日3在线观看完整版| www.久久久久久.com| 麻豆成人久久精品二区三区红| av在线天堂| 亚洲综合一区二区不卡| 一区二区在线观看视频在线观看| 国产精选久久| 欧美视频在线观看网站| 亚洲国产成人久久综合| 亚洲九九精品| 香蕉av一区| 国产精品免费久久久久久| 欧美激情中文字幕一区二区| 成人不卡视频| 在线观看av的网址| 欧美亚洲专区| 中文字幕系列一区| 成人www视频网站免费观看| 国产精品久久久久久久久影视| 亚洲黄一区二区三区| 亚洲一区二区免费在线观看| 99精品视频在线免费播放| 成人国产亚洲精品a区天堂华泰| 国产精品一卡二卡| 在线不卡视频一区二区| 久久免费视频色| 亚洲色图图片| 97碰在线视频| 国产丝袜一区视频在线观看 | 阿v视频在线观看| 久久天天狠狠| 日韩三级视频在线看| 国产亚洲精品自拍| 午夜激情在线观看| 国产视频99| 欧美大片一区二区三区| 石原莉奈一区二区三区在线观看| 毛片网站在线免费观看| 欧美乱偷一区二区三区在线| 日韩色在线观看| 日韩电影免费一区| 18加网站在线| 免费在线小视频| 99热免费在线| 波多野结衣精品在线| 国产精品一线天粉嫩av| 青青草原av在线播放| 久久综合毛片| 国产精品电影网| 最新91在线视频| 一级特黄录像免费播放全99| 欧美高清精品3d| 免费在线观看一区二区三区| 高潮一区二区| 国产免费黄色av| 青草久久伊人| 毛片网站大全| 91成人在线视频观看| 久久人人爽亚洲精品天堂| 欧美视频国产精品| 国产蜜臀av在线一区二区三区| 轻点好疼好大好爽视频| 成人涩涩免费视频| 黄色三级电影网| 91成人免费观看| 亚洲精品国产精品乱码不99按摩| 成人黄色国产精品网站大全在线免费观看 |