国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修 原創

發布于 2025-4-8 12:55
瀏覽
0收藏

編輯 | 伊風

出品 | 51CTO技術棧(微信號:blog51cto)

Meta的辟謠來了!——沒刷榜、模型穩定部署需要時間。

昨日,Llama 4收到許多網友實測后的“差評”,加之自稱內部員工的人在國內論壇上爆料Meta作弊,一時間流言四起。

這下Meta的高管們坐不住了,今天Meta 的生成式 AI 副總裁 Ahmad Al-Dahle在X平臺上表示該傳言“完全不屬實”,他先是象征性地夸了一句Llama 4,然后話鋒一轉開始辟謠:

“話雖如此,我們也收到了關于在不同服務中模型表現質量不一的反饋。由于我們在模型一準備好就立即發布了,所以我們預計各個平臺的公開實現需要幾天時間才能完全穩定下來。我們會繼續修復 bug 并幫助合作伙伴完成接入。


關于有人聲稱我們在訓練中使用了測試集——這完全不屬實,我們絕不會那樣做。我們最合理的理解是,大家目前遇到的質量差異,主要是因為模型的具體實現還需要進一步穩定?!?/p>

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修-AI.x社區圖片

評論區中,一些網友表示了理解,認為模型在各個平臺有些邊緣情況需要修bug很正常。

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修-AI.x社區圖片

也有網友對這波辟謠表示質疑,“沒見過其他模型需要搞‘穩定實施’的”。

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修-AI.x社區圖片

有人補充說,可能與Llama 4新引入的一些技術有關。

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修-AI.x社區圖片

話說回來,Llama 4“作弊”傳聞能持續發酵,Meta自身要背負很大的責任。

在報告中,Meta 使用了一個“實驗性的、未公開發布”的 Maverick 版本參加 LM Arena 基準測試,進一步助長了傳言。

在圖表中,他們甚至備注了這個Maverick是做過對話場景優化的。

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修-AI.x社區圖片

這無異于為Llama 4此后的各種流言和猜測埋下了一枚懷疑的種子。

傳聞開始:Meta內部員工稱,領導建議在后訓中使用benchmark測試集

討論最初由“一畝三分地”論壇(該論壇專注于留學和求職的社區平臺,在北美華人圈很有影響力)上的一篇帖子引發,發帖人自稱是參與 Llama 4 訓練的內部員工,并表示因此已辭職。

經過反復訓練,其實內部模型的表現依然未能達到開源SOTA,甚至與之相差甚遠。公司領導層建議將各個benchmark的測試集混合在post-training過程中,目的是希望能夠在各項指標上交差,拿出一個“看起來可以的結果“。

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修-AI.x社區圖片

原貼地址可移步:??https://www.1point3acres.com/bbs/thread-1122600-1-1.html??

然而,評論區出現了Meta員工,邀請“實名對線”。也有人指出“最近離職的VP根本不參與模型訓練”等細節漏洞,讓貼主爆料中的真實性受到懷疑。

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修-AI.x社區圖片

有人進一步指出發帖人的矛盾之處:如果deadline是網友所爆料的4月底,何必在4月初就發布摻假的結果呢?

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修-AI.x社區圖片

盡管如此,因為Llama 4的實測表現真的很水,這個傳言暗合了許多人的心理預期。讓Meta的這個負面消息在未證實的情況下,就廣泛的傳播開了。

Meta給出的模型效果不一致,網友實測很失望

昨日,外媒TechCrunch 也發表文章,直接指出 Meta 新 AI 模型的性能測試“有些誤導”。

“看起來,Meta 部署到 LM Arena 的 Maverick 版本,與開發者可廣泛訪問的版本并不相同?!?/p>

X上的研究人員也發現,Meta 可能為基準評測而優化了模型的“人設”,甚至不惜犧牲客觀性來博好感。他在實測分享時說“Llama 4絕對被烹飪過頭了”。

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修-AI.x社區圖片

他用來測試GPT 4o和Llama 4的問題很簡單:“AI領域工作的Nathan Lambert(博主自己)是誰?”

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修-AI.x社區圖片

GPT的回答相當中肯、理性:

目前,沒有廣為人知、在人工智能領域具有代表性的重要人物叫 Nathan Lambert,他不像 Geoffrey Hinton、Yann LeCun 或 Fei-Fei Li 那樣出名。

但確實有一位名為 Nathan Lambert, PhD 的研究者,專注于機器學習和 AI 相關領域。

而Llama 4則立即開啟了瘋狂話癆模式,在輸出冗長的簡歷后不忘強調“他是該領域最具影響力的人之一?!?/p>

一些網友甚至吐槽Llama 4要比Gemma 3 27B以及Llama系列的前代模型還差許多。

Meta坐不住了!高管辟謠:Llama4沒刷榜!訓練沒有使用測試集!模型穩定實現需要時間,bug正在修-AI.x社區圖片

不過,Llama 4能否在Meta VP許諾的“幾天后”穩定下來,并取得一個亮眼的成績,還是一個未知數?;蛟S,我們還是可以期待,在bug修繕后,模型性能會有一個臺階的躍升。

寫在最后:刷榜容易,刷新用戶的口碑難

Meta一系列迷惑的操作,也給其他模型公司敲了個警鐘。

首先,Llama 4的確在模型性能圖表中使用了“實驗版本”有著特定優化的Maverick模型進行跑分。無疑將自己推向了“作弊”的塔西佗陷阱。

其次,Meta在模型剛出爐時就迫不及待地發布了,根本沒有在各個平臺調適到最佳性能。一位網友還建議Meta應該向阿里Qwen學習,做一個更友好的Web UI,讓大家能輕松接觸到前沿模型的能力。

最后,就是老生常談的大模型炒作與刷榜問題了。如果一個模型被特意為基準測試優化后用于評測,隨后卻向公眾發布一個“普通版本”,這會讓開發者難以預測該模型在真實場景中的實際表現。這種行為也具有相當的誤導性。

事實上,“模型無意中看過了答案”這事兒,在AI圈早已不是新聞。大模型的訓練數據來源廣泛,覆蓋了互聯網上幾乎所有能爬到的內容——而熱門基準測試集,本身就經常被引用、分享、分析。結果就是,模型可能在訓練階段就接觸過這些“考試題”,在實際測試中自然能交出一份“優等生”答卷。

因此,是時候重構我們對AI能力評估的方式了。與其再迷信分數排行榜,不如關注模型在真實任務中的表現,比如長時對話、一致性寫作、多輪推理這些“考不過但能干活”的場景。

最后,問題來了,Llama 4家族中的超大杯Llama 4 Behemoth還值得我們期待嗎?

參考鏈接:

1.??https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/??

2.??https://www.reddit.com/r/singularity/comments/1jspmq9/users_are_not_happy_with_llama_4_models/?utm_source=chatgpt.com??

本文轉載自??51CTO技術棧??,作者:伊風

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-4-8 12:57:35修改
收藏
回復
舉報
回復
相關推薦
国产福利视频一区二区三区| 91国语精品自产拍在线观看性色| 久久亚洲精品国产亚洲老地址| 日本精品久久久久中文字幕| 久久国产精品亚洲人一区二区三区| 一区二区三区在线观看视频| 日本高清一区| av网站在线看| 综合激情成人伊人| 成人精品视频在线播放| 成人午夜在线| 91热门视频在线观看| 小草av在线播放| 国产精品美女午夜爽爽| 亚洲欧美综合网| 久久永久免费| 国产精品美女av| 一本久久青青| 国产精品678| 欧美a视频在线| 成人av在线一区二区三区| 国产福利视频一区二区| 国产精品第一| 色婷婷亚洲综合| 国产bdsm| 国产精品亚洲午夜一区二区三区| 国产精自产拍久久久久久| 久久69av| 97久久伊人激情网| 免费精品一区| 伦伦影院午夜日韩欧美限制| 国产高清不卡| 欧美精品一区二区三| 欧美3p视频在线观看| 欧美午夜视频在线观看| 亚洲欧美一区二区三区在线播放| 亚洲精品五月天| 午夜黄色一级片| 欧美午夜影院在线视频| 欧美日韩在线精品一区二区三区激情综| 亚洲国产裸拍裸体视频在线观看乱了中文 | 国产电影一区二区三区爱妃记| 日本成人中文字幕在线视频| 亚洲成人av| 性欧美在线看片a免费观看| 日韩影片中文字幕| 久久精品国产精品亚洲| 国产精久久一区二区| 国产精品第一页在线| 日韩精品永久网址| 国产精品久久久久久久久久久久久| 秋霞蜜臀av久久电影网免费 | 成人亚洲视频在线观看| 亚洲精品网站在线观看| 九色在线播放| 中文字幕亚洲激情| 爱看av在线| 91精品国产高清自在线| 怡红院精品视频在线观看极品| 国产精品video| 蜜桃免费网站一区二区三区| 日本欧美黄色片| 欧美精品久久一区二区三区 | 中文字幕乱码一区二区免费| 性视频一区二区三区| 欧美一级黄色录像| 97精品久久| 最新视频 - x88av| 亚洲天堂2014| 在线观看网站免费入口在线观看国内| 国产精品夜色7777狼人| 久久精品国产精品亚洲红杏| 中出在线观看| 日韩在线观看免费全| 视频一区二区三区中文字幕| 日本韩国福利视频| 国产视频丨精品|在线观看| sdde在线播放一区二区| 99热成人精品热久久66| 7777精品伊人久久久大香线蕉| 美女毛片在线看| 欧美精品在线看| 国产一区二区调教| 任你操这里只有精品| 亚洲精品视频免费| 国产一区二区三区探花| 奇米精品在线| 欧美国产日韩在线观看| av在线播放国产| 92福利视频午夜1000合集在线观看| 国产精品水嫩水嫩| 成人av资源网址| 国产又黄又猛又粗又爽的视频| 伦伦影院午夜日韩欧美限制| 黄色小说综合网站| 久草在线中文最新视频| 亚洲精品日韩在线观看| 欧美日韩久久久久久| 欧美视频二区| 成人av黄色| 亚洲v国产v在线观看| 日韩写真欧美这视频| 99精品免费| 成人国产激情| 在线免费视频一区| 亚洲视频播放| 毛片在线不卡| xxxxx成人.com| 26uuu精品一区二区三区四区在线| 东京久久高清| 一区二区三区视频网站| av久久久久久| 国产精品欧美风情| 伊人久久免费视频| 国产欧美一区二区三区在线老狼| 偷偷www综合久久久久久久| 亚洲天堂中文字幕在线观看| 色图在线观看| 久久精品蜜桃| 瑜伽美女视频| www.com操| 青青草综合在线| 一区二区成人国产精品 | 国产精品三级久久久久久电影| 欧美一区二区三区播放老司机| 成人性视频免费网站| 噜噜噜躁狠狠躁狠狠精品视频| 国产成人久久| 精品欧美午夜寂寞影院| 欧美成人高潮一二区在线看| 国产三区二区一区久久| 国产在线a不卡| 久久久久久久久久国产| 亚洲系列中文字幕| 欧美日韩国产高清一区二区三区 | 国模吧精品人体gogo| 成人免费毛片app| 欧美黑人粗大| 一级在线免费观看| 五月丁香综合缴情六月小说| 久久精品国产亚洲精品2020| 综合久久综合久久| 成人免费视频国产在线观看| 亚洲视频综合| eeuss影院www在线观看| 国产a级片免费观看| 午夜精品一区二区三区在线视| 亚洲成人三区| 四季av一区二区三区免费观看| 免费白浆视频| 国产主播在线看| 青青草原成人网| 国产黄色影视| 在线黄色国产视频| 激情综合网五月激情 | 在线成人直播| 亚洲热app| 日本精品免费| 夜夜嗨av色综合久久久综合网| 久久久蜜桃精品| 日韩在线不卡| 国产第一亚洲| 国模视频一区二区| 久久久国产一区二区| 欧美精品一区二区高清在线观看 | 久久影院免费观看| 亚洲国产精品人人爽夜夜爽| 欧美精品一卡两卡| 国产精品乱人伦一区二区| 亚洲国产精品嫩草影院久久av| 日本中文字幕片| 国产精品嫩草在线观看| 日韩色视频在线观看| 国产精品麻豆欧美日韩ww| 久久亚洲精品小早川怜子| 91精品国产福利在线观看麻豆| 一个人免费观看视频www在线播放| 欧美日韩国产高清视频| 欧美一区二粉嫩精品国产一线天| 日韩区在线观看| 欧美日韩激情在线| 国产女人水真多18毛片18精品视频| yw193.com尤物在线| 欧美日韩一道本| 日本久久高清视频| 91九色丨porny丨国产jk| 日韩欧美国产片| 丝袜美腿玉足3d专区一区| 欧美亚洲国产视频| 日韩女优人人人人射在线视频| 欧美一区二区成人| 亚洲免费视频中文字幕| 日韩一级视频| 成人性生活视频| av网址在线| 三妻四妾的电影电视剧在线观看| 免费在线观看黄色| 久草在线中文888| 污色网站在线观看| 蜜臀av无码一区二区三区|