国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修

原創 精選
人工智能
昨日,Llama 4收到許多網友實測后的“差評”,加之自稱內部員工的人在國內論壇上爆料Meta作弊,一時間流言四起。

編輯 | 伊風

出品 | 51CTO技術棧(微信號:blog51cto)

Meta的辟謠來了!——沒刷榜、模型穩定部署需要時間。

昨日,Llama 4收到許多網友實測后的“差評”,加之自稱內部員工的人在國內論壇上爆料Meta作弊,一時間流言四起。

這下Meta的高管們坐不住了,今天Meta 的生成式 AI 副總裁 Ahmad Al-Dahle在X平臺上表示該傳言“完全不屬實”,他先是象征性地夸了一句Llama 4,然后話鋒一轉開始辟謠:

“話雖如此,我們也收到了關于在不同服務中模型表現質量不一的反饋。由于我們在模型一準備好就立即發布了,所以我們預計各個平臺的公開實現需要幾天時間才能完全穩定下來。我們會繼續修復 bug 并幫助合作伙伴完成接入。


關于有人聲稱我們在訓練中使用了測試集——這完全不屬實,我們絕不會那樣做。我們最合理的理解是,大家目前遇到的質量差異,主要是因為模型的具體實現還需要進一步穩定。”

圖片圖片

評論區中,一些網友表示了理解,認為模型在各個平臺有些邊緣情況需要修bug很正常。

圖片圖片

也有網友對這波辟謠表示質疑,“沒見過其他模型需要搞‘穩定實施’的”。

圖片圖片

有人補充說,可能與Llama 4新引入的一些技術有關。

圖片圖片

話說回來,Llama 4“作弊”傳聞能持續發酵,Meta自身要背負很大的責任。

在報告中,Meta 使用了一個“實驗性的、未公開發布”的 Maverick 版本參加 LM Arena 基準測試,進一步助長了傳言。

在圖表中,他們甚至備注了這個Maverick是做過對話場景優化的。

圖片圖片

這無異于為Llama 4此后的各種流言和猜測埋下了一枚懷疑的種子。

傳聞開始:Meta內部員工稱,領導建議在后訓中使用benchmark測試集

討論最初由“一畝三分地”論壇(該論壇專注于留學和求職的社區平臺,在北美華人圈很有影響力)上的一篇帖子引發,發帖人自稱是參與 Llama 4 訓練的內部員工,并表示因此已辭職。

經過反復訓練,其實內部模型的表現依然未能達到開源SOTA,甚至與之相差甚遠。公司領導層建議將各個benchmark的測試集混合在post-training過程中,目的是希望能夠在各項指標上交差,拿出一個“看起來可以的結果“。

圖片圖片

原貼地址可移步:https://www.1point3acres.com/bbs/thread-1122600-1-1.html

然而,評論區出現了Meta員工,邀請“實名對線”。也有人指出“最近離職的VP根本不參與模型訓練”等細節漏洞,讓貼主爆料中的真實性受到懷疑。

圖片圖片

有人進一步指出發帖人的矛盾之處:如果deadline是網友所爆料的4月底,何必在4月初就發布摻假的結果呢?

圖片圖片

盡管如此,因為Llama 4的實測表現真的很水,這個傳言暗合了許多人的心理預期。讓Meta的這個負面消息在未證實的情況下,就廣泛的傳播開了。

Meta給出的模型效果不一致,網友實測很失望

昨日,外媒TechCrunch 也發表文章,直接指出 Meta 新 AI 模型的性能測試“有些誤導”。

“看起來,Meta 部署到 LM Arena 的 Maverick 版本,與開發者可廣泛訪問的版本并不相同。”

X上的研究人員也發現,Meta 可能為基準評測而優化了模型的“人設”,甚至不惜犧牲客觀性來博好感。他在實測分享時說“Llama 4絕對被烹飪過頭了”。

圖片圖片

他用來測試GPT 4o和Llama 4的問題很簡單:“AI領域工作的Nathan Lambert(博主自己)是誰?”

圖片圖片

GPT的回答相當中肯、理性:

目前,沒有廣為人知、在人工智能領域具有代表性的重要人物叫 Nathan Lambert,他不像 Geoffrey Hinton、Yann LeCun 或 Fei-Fei Li 那樣出名。

但確實有一位名為 Nathan Lambert, PhD 的研究者,專注于機器學習和 AI 相關領域。

而Llama 4則立即開啟了瘋狂話癆模式,在輸出冗長的簡歷后不忘強調“他是該領域最具影響力的人之一。”

一些網友甚至吐槽Llama 4要比Gemma 3 27B以及Llama系列的前代模型還差許多。

圖片圖片

不過,Llama 4能否在Meta VP許諾的“幾天后”穩定下來,并取得一個亮眼的成績,還是一個未知數。或許,我們還是可以期待,在bug修繕后,模型性能會有一個臺階的躍升。

寫在最后:刷榜容易,刷新用戶的口碑難

Meta一系列迷惑的操作,也給其他模型公司敲了個警鐘。

首先,Llama 4的確在模型性能圖表中使用了“實驗版本”有著特定優化的Maverick模型進行跑分。無疑將自己推向了“作弊”的塔西佗陷阱。

其次,Meta在模型剛出爐時就迫不及待地發布了,根本沒有在各個平臺調適到最佳性能。一位網友還建議Meta應該向阿里Qwen學習,做一個更友好的Web UI,讓大家能輕松接觸到前沿模型的能力。

最后,就是老生常談的大模型炒作與刷榜問題了。如果一個模型被特意為基準測試優化后用于評測,隨后卻向公眾發布一個“普通版本”,這會讓開發者難以預測該模型在真實場景中的實際表現。這種行為也具有相當的誤導性。

事實上,“模型無意中看過了答案”這事兒,在AI圈早已不是新聞。大模型的訓練數據來源廣泛,覆蓋了互聯網上幾乎所有能爬到的內容——而熱門基準測試集,本身就經常被引用、分享、分析。結果就是,模型可能在訓練階段就接觸過這些“考試題”,在實際測試中自然能交出一份“優等生”答卷。

因此,是時候重構我們對AI能力評估的方式了。與其再迷信分數排行榜,不如關注模型在真實任務中的表現,比如長時對話、一致性寫作、多輪推理這些“考不過但能干活”的場景。

最后,問題來了,Llama 4家族中的超大杯Llama 4 Behemoth還值得我們期待嗎?

參考鏈接:

1.https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/

2.https://www.reddit.com/r/singularity/comments/1jspmq9/users_are_not_happy_with_llama_4_models/?utm_source=chatgpt.com

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://www.sunluscious.com.cn/aigc/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2025-07-11 08:41:21

2025-04-15 08:00:00

LMArenaLlama 4大模型

2024-03-11 08:00:00

代碼視頻

2025-01-26 09:00:00

AI算力模型

2025-05-19 08:57:00

2015-01-05 10:04:25

2022-11-25 14:24:27

2020-12-07 09:22:50

量子計算機芯片超算

2023-09-11 15:57:16

人工智能模型GPT-4

2025-04-07 13:24:52

2022-07-18 10:45:18

安全

2019-06-19 09:15:00

華為禁令開發

2024-05-27 09:01:42

Llama 3大型語言模型人工智能

2021-10-27 15:57:48

機器學習人工智能計算機

2025-04-08 13:12:49

2024-01-26 11:36:30

3D游戲

2024-07-29 09:20:00

AI模型

2024-08-05 13:15:28

2021-03-12 16:36:03

數字人民幣微信支付寶
點贊
收藏

51CTO技術棧公眾號

日本www在线观看视频| 成人豆花视频| 成人午夜电影网站| 91久久久久久国产精品| 欧美xx视频| 欧美色偷偷大香| 国产一级黄色电影| 91麻豆精品一区二区三区| 免费在线观看91| 亚洲字幕久久| 国产www精品| 精品三级国产| 亚洲色图欧美制服丝袜另类第一页| 东凛在线观看| 亚洲综合精品自拍| 国产三级三级三级看三级| 日韩avvvv在线播放| 999国产视频| 精品午夜久久| 7777精品视频| 国产厕拍一区| 久久男人的天堂| 人人九九精品视频| 日韩有码在线播放| 国产成人免费精品| 在线一区二区日韩| 欧洲av一区二区| 亚洲精品天天看| 韩国成人二区| 亚洲视频精品在线| 中文在线最新版地址| 日韩网站在线看片你懂的| 北条麻妃在线| 欧美日韩国产一级二级| 欧美xxx.com| 黑人欧美xxxx| 国产视频在线看| 欧洲亚洲精品在线| 最新国产在线观看| 欧美日韩亚洲综合| 老司机福利在线视频| 91精品国模一区二区三区| av大片在线播放| 欧美精品一二三四| 宅男网站在线免费观看| 欧美日本在线视频| 欧美韩日亚洲| 亚洲精品国产精品自产a区红杏吧| 欧美黑人xx片| 国产亚洲欧美视频| 在线欧美激情| 久久久久久久久久久成人| av成人资源| 国产精品日韩在线| 亚洲福利一区| 正义之心1992免费观看全集完整版| 日本美女一区二区| 日韩精品在线视频免费观看| a级精品国产片在线观看| 茄子视频成人免费观看| 中文字幕高清不卡| 中文在线资源在线| 日韩一区二区电影| 黑人一区二区三区| 日本欧美在线视频| 中文一区一区三区免费在线观看| 国产精品欧美久久| 麻豆91小视频| 亚洲综合色在线观看| 午夜电影久久久| 中文字幕在线三区| 中文字幕日韩av| 欧美日韩一区二区三区四区不卡| 国产精品自产拍在线观看| 在线一区视频| 蜜臀精品一区二区| 亚洲精品第一国产综合野| 98在线视频| 综合136福利视频在线| 一区二区导航| 欧美日韩一区二区三区在线观看免| 国产成人综合视频| 中文字幕在线综合| 欧美久久久一区| 国产精品一区三区在线观看| 成人高h视频在线| 国产一区二区三区视频在线播放| 中文字幕在线导航| 欧美日韩一区久久| 日韩中文字幕在线一区 | 动漫av免费观看| 一区二区国产盗摄色噜噜| 精品国产丝袜高跟鞋| www.日韩.com| 欧美三区不卡| 日韩欧美在线播放视频| 色婷婷av一区二区三区大白胸| 91福利区在线观看| 亲子乱一区二区三区电影| 久久男女视频| www.91av| 精品小视频在线| 成人aaaa| 日本黄大片在线观看| 日韩欧美在线第一页| 成人免费黄色| 韩国一区二区三区美女美女秀| 99re这里只有精品6| 免费黄色网页在线观看| 午夜精品www| 国产精品一区二区男女羞羞无遮挡 | 国产不卡精品在线| 福利视频一区二区三区| 久久久久久久综合狠狠综合| 岛国成人毛片| 国产精品久久久久一区二区| 成人黄页在线观看| 小说区图片区图片区另类灬| 国语精品一区| 欧美影院三区| 欧美hd在线| 日韩福利电影在线观看| 蜜桃成人av| 午夜一区二区三区不卡视频| 精品国产乱码久久久久久樱花| 成人免费观看视频在线观看| 亚洲一区二区三区视频在线| 国产精品一区二区99| 日本高清网站| 黄a免费视频| 欧美成人国产va精品日本一级| 久久九九全国免费| 婷婷久久国产对白刺激五月99| 国产精品色婷婷在线观看| 欧美日韩大片| 深夜国产在线播放| 成人在线网站| 成人av资源电影网站| 一本色道a无线码一区v| 婷婷丁香六月天| 人妻激情另类乱人伦人妻| 91久久综合亚洲鲁鲁五月天| 色噜噜狠狠色综合网图区 | 欧美日韩一二三四| 成人福利视频| 免费毛片在线看片免费丝瓜视频 | 日本一道高清一区二区三区| 99久久婷婷国产综合精品首页 | 男女啪啪网站视频| 一区二区不卡视频| 久久免费精品日本久久中文字幕| 一本一本大道香蕉久在线精品| 欧美成人a在线| 91久久精品国产91久久性色tv | 欧美黑人孕妇孕交| 亚洲 高清 成人 动漫| 美日韩精品免费观看视频| 国产精品久久国产三级国电话系列| 日韩精品视频在线免费观看| 亚洲国产另类久久久精品极度| 色8久久精品久久久久久蜜| 国产一区二区在线视频你懂的| 动漫av网站免费观看| 精品国产拍在线观看| www.爱久久.com| 韩国三级大全久久网站| 欧美国产日韩在线播放| 欧美国产乱视频| 欧美极品另类videosde| www.久久爱.com| 手机在线免费观看毛片| 国内揄拍国内精品少妇国语| 中文字幕欧美三区| 成人一区而且| 成人18在线| 亚洲一区美女| 日韩中文字幕在线播放| 国产欧美一区二区三区网站| 欧美aaaaa级| 免费xxxxx网站中文字幕| 国产热re99久久6国产精品| 欧美午夜精品久久久久久久| 红桃视频亚洲| 99爱在线观看| www.国产区| 国产精品视频一区二区高潮| 在线观看日韩电影| 六月丁香婷婷色狠狠久久| 香蕉久久一区| 在线观看老湿视频福利| 精品国产综合久久| 国产亚洲精品久久久优势| 国产精品入口麻豆原神| 小说区亚洲自拍另类图片专区| fc2ppv国产精品久久| 北条麻妃在线视频观看| 国产精品中文字幕久久久| 精品国产一区久久| 国产精品进线69影院| 亚洲三级国产|