国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

<strong id="l084c"><dl id="l084c"><strong id="l084c"></strong></dl></strong>

<ol id="l084c"></ol>

<source id="l084c"></source>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

力壓70B Llama 3，Gemma 2成最強(qiáng)開源模型！大佬質(zhì)疑用榜單prompt微調(diào)引全網(wǎng)熱議

作者：新智元 2024-07-02 09:20:59

人工智能開源新聞

時隔4個月上新的Gemma 2模型在LMSYS Chatbot Arena的排行上，以27B的參數(shù)擊敗了許多更大規(guī)模的模型，甚至超過了70B的Llama-3-Instruct，成為開源模型的性能第一！

谷歌出手，果然非同凡響。

Gemma 2上周剛剛發(fā)布，就在LMSYS競技場上取得了亮眼的成績。

在整體評分上Gemma 2拿到了開源模型最高分，而且用27B的參數(shù)「以小搏大」，超過了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量級的知名模型。

開源模型的頭把交椅真的要易主Gemma了？

對于這個成績，谷歌研究院首席科學(xué)家Jeff Dean也發(fā)文慶祝。

很高興看到新版Gemma-2-27B模型成為LMSYS上最好的開源模型（擊敗了一些相當(dāng)大的模型）。
我們認(rèn)為，27B對于很多場景來說確實是一個非常好的規(guī)模，而Gemma-2-27B也是一個非常好的模型！

不僅是總體評分，在LMSYS昨天剛發(fā)布的「多輪對話」排行榜上，Gemma 2的表現(xiàn)依舊強(qiáng)勁。

LMSYS表示，LLM的多輪對話在當(dāng)今許多應(yīng)用場景中非常重要。

在競技場的投票中，多輪對話的占比為14%，占到了不可忽視的比例。

因此他們推出了新的排行類別「多輪對話」，其中包括兩輪或多輪的測試，以衡量模型在更長時間內(nèi)交互的能力。

在這個全新的排行榜中，Claude家族的排名顯著提升。

總分屈居亞軍的Claude 3.5 Sonnet，成功地與GPT-4o并列第一；Claude 3 Opus也從原來的第8名躍居第三。

我們本次的主角Gemma 2也實現(xiàn)了2個名次的進(jìn)步，進(jìn)入前十行列，而且壓了Llama 3-70B-Instruct一頭。

在Gemma 2放出9B和27B兩個版本的同時，DeepMind研究員Clement在推特上透露，接下來還會有2B版本和大家見面！

曾經(jīng)只靠開源「一招鮮」的Meta終于迎來了強(qiáng)勁對手。Gemma 2和Llama 3的競爭想必會在未來一段時間內(nèi)持續(xù)下去。

Gemma為什么這么強(qiáng)？

為什么27B的Gemma 2能打敗70B的Llama 3？谷歌究竟用了什么技術(shù)實現(xiàn)如此高的參數(shù)效率？

或許我們可以從官方發(fā)布的技術(shù)報告中找到蛛絲馬跡。

報告地址：https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/

訓(xùn)練數(shù)據(jù)方面，可想而知，并沒有具體的數(shù)據(jù)來源和組成，只有數(shù)據(jù)量。

由于Gemma既沒有多模態(tài)又不針對多語言任務(wù)，因此訓(xùn)練語料只包含各種類型的文本和代碼，且主要語言為英語。

27B模型的訓(xùn)練數(shù)據(jù)有13萬億token，9B模型和2.6B模型則分別為8萬億、2萬億token。

架構(gòu)上，Gemma 2從Gemini團(tuán)隊和Gemma 1沿用了很多方面，包括旋轉(zhuǎn)位置編碼（RoPE）、SentencePiece分詞器、Logit軟上限、GeGLU激活函數(shù)等等。

相比Gemma 1，Gemma 2采用了更深的網(wǎng)絡(luò)，且在某些部分做了更新——

局部滑動窗口和全局注意力

Gemma 2交替使用局部滑動窗口和全局注意力，滑動窗口大小設(shè)置為4096 token，而全局注意力層的設(shè)置為8192 token。

這種方法在正確捕捉文本細(xì)節(jié)的同時，又能保持對上下文和全局的正確理解。

知識蒸餾

能夠訓(xùn)練出有競爭力性能的9B和27B模型，成功的知識蒸餾過程估計是最為重要的環(huán)節(jié)。

傳統(tǒng)訓(xùn)練大語言模型的方法主要是根據(jù)之前的token，預(yù)測下一個token，需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。

但是，人類的學(xué)習(xí)過程并不依賴走量的知識輸入。比如，一位學(xué)生由于閱讀原著的需要學(xué)習(xí)一門外語，他并不需要看遍所有的書籍，只需要以一本書為綱，通過理解后融會貫通。

而知識蒸餾法與人的學(xué)習(xí)過程更加類似。一個小模型向另一個已經(jīng)進(jìn)行過預(yù)訓(xùn)練的大模型學(xué)習(xí)，通過這種方式助產(chǎn)小模型對于token的預(yù)測。

站在老師模型的肩膀上，學(xué)生模型能用較少的訓(xùn)練數(shù)據(jù)、更少的參數(shù)量提升性能。

用LMSYS數(shù)據(jù)微調(diào)，引AI2研究員質(zhì)疑

開源模型界終于在Llama之后迎來了Gemma 2這個最新的扛把子選手，就在大家忙著興奮的同時，Allen AI的研究員Nathan Lambert冷靜地在技術(shù)報告中發(fā)現(xiàn)了華點：

微調(diào)數(shù)據(jù)的來源包括LMSYS的聊天數(shù)據(jù)集！

似乎是預(yù)想到了可能的質(zhì)疑，論文中特意強(qiáng)調(diào)只使用了prompt，把答案剔出去了。

Lambert依舊不認(rèn)可這種行為。他發(fā)了一篇推特，疑惑的語氣中帶著一絲嘲諷：為了在競技場上刷分?jǐn)?shù)，你們谷歌團(tuán)隊挺有想象力的。

這位Nathan Lambert其實算是LLM領(lǐng)域比較資深的專業(yè)人士，他博士畢業(yè)于UC伯克利大學(xué)，在DeepMind和FAIR都有實習(xí)經(jīng)歷。

針對Lambert的質(zhì)疑，LMSYS隨后回復(fù)了一篇意義不明的超長推特，似乎透露出了為谷歌辯護(hù)的隱晦立場。

推特全文如下：

從一開始，Chatbot Arena的使命就是通過人類偏好來解決LLM的評估問題。
通過開放我們的數(shù)據(jù)集和論文，我們希望社區(qū)能研究真實世界的prompt，并利用這些數(shù)據(jù)改進(jìn)模型（就像ImageNet的訓(xùn)練集一樣）。
我們相信，通過實時和新鮮的用戶投票，Arena比靜態(tài)基準(zhǔn)測試如MMLU更不容易過擬合。
現(xiàn)在，有些人可能對以下兩個方面存在質(zhì)疑——（1）prompt重復(fù)的程度和（ 2）數(shù)據(jù)分布。這正是我們開放數(shù)據(jù)和論文研究的原因。
我們的Llama-3博客文章顯示，經(jīng)過去重之后，大約10%的重復(fù)對結(jié)果的影響很小。此外，論文還包括對prompt分布的主題建模，展現(xiàn)了跨語言的多樣化使用案例。
展望未來，我們計劃深入了解數(shù)據(jù)的新鮮度和分布。也歡迎大家用新任務(wù)來挑戰(zhàn)模型，研究我們的100萬prompt和偏好數(shù)據(jù)，或者加入我們的Kaggle挑戰(zhàn)。

這有些讓人摸不著頭腦，既說「用數(shù)據(jù)改進(jìn)模型是受歡迎的」，又說「我們開放數(shù)據(jù)和論文是為了回應(yīng)質(zhì)疑」。

發(fā)帖的Lambert也同樣被搞糊涂了，他進(jìn)一步闡明了自己的立場。

「感覺我們討論的不是同一件事，我的觀點依舊成立。很可能有更多的人也在這樣做，但我們并不知道?！?/span>

LMSYS最新回復(fù)的內(nèi)容更加讓人內(nèi)心復(fù)雜——

「對不起，雖然我貼上了你的推特，但不是在特意回復(fù)你?！?/span>

對于微調(diào)應(yīng)不應(yīng)該使用LMSYS數(shù)據(jù)這個問題，評論區(qū)的網(wǎng)友也吵得熱火朝天。

有些人覺得Lambert的質(zhì)疑毫無道理。畢竟LMSYS公開了數(shù)據(jù)集，用來做微調(diào)有什么不可以的？而且只使用了prompt，答案是教師模型生成的。

畢竟大家都在看LMSYS的聊天機(jī)器人Arena的分?jǐn)?shù)，如果大家都不用這個數(shù)據(jù)才比較出乎意料。

這個立場得到了大部分人的認(rèn)同。雖然谷歌是為數(shù)不多的坦誠，敢把用了LMSYS數(shù)據(jù)這件事寫進(jìn)論文，但他們絕對不是第一個使用這些數(shù)據(jù)的人。

「我打賭GPT-4o和Llama 3也這么干了?！?/span>

畢竟在一段時間內(nèi)，LMSYS競技場曾經(jīng)是唯一可信的基準(zhǔn)測試。

而這也正是Lambert所擔(dān)心的——LMSYS是業(yè)界為數(shù)不多的得到大多數(shù)人認(rèn)可的基準(zhǔn)測試，如果大家再用它的數(shù)據(jù)微調(diào)甚至訓(xùn)練，豈不很快又會失去公信力？

更糟糕的情況是，不是每一個模型都像Gemma 2這樣會承認(rèn)這件事。

不少觀點比較中肯的網(wǎng)友也點出了這一點。

「我相信這會降低Arena的信噪比。」

看來在基準(zhǔn)測試領(lǐng)域，重復(fù)的歷史總在不斷上演，而那個金句也總是適用——

「當(dāng)一個衡量標(biāo)準(zhǔn)成為目標(biāo)時，它就不再是一個好的衡量標(biāo)準(zhǔn)了。」

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

91伊人久久| 噜噜噜91成人网| 亚洲欧洲av色图| 国产精品一区视频| 免费高潮视频95在线观看网站| 国产香蕉久久精品综合网| 国产精品国产精品国产专区不卡| 成人免费视频观看| 欧美日韩综合一区| 三级短视频在线| 久久精品国产秦先生| 国产在线不卡精品| 国产精品亚洲综合在线观看 | 欧美日韩一卡二卡三卡 | 欧美猛交ⅹxxx乱大交视频| 天天综合视频在线观看| 亚洲国产精品传媒在线观看| 亚洲国产欧美一区| 99国产精品一区二区| 久99九色视频在线观看| 97人澡人人添人人爽欧美| 狠狠色噜噜狠狠狠狠97| 99re免费99re在线视频手机版| 激情国产一区二区| 欧美一区二区高清在线观看| 久久一级电影| 欧美极品少妇xxxxⅹ裸体艺术| 欧美特大特白屁股xxxx| 日韩欧美在线一区二区三区| 国产区在线视频| 亚洲成人综合视频| 中文字幕第5页| 亚洲一区二区三区在线看| 成人毛片高清视频观看| 国产三级欧美三级日产三级99| 国产在线视频综合| 国产主播一区二区三区| 杨幂一区欧美专区| 久88久久88久久久| av不卡在线免费观看| 丝袜诱惑制服诱惑色一区在线观看 | 日本少妇精品亚洲第一区| 亚洲精品动漫100p| 免费av毛片在线看| 91精选在线观看| 香蕉久久aⅴ一区二区三区| 欧美在线一二三| 加勒比一区二区三区在线| 精品福利免费观看| 久久精品a一级国产免视看成人| 天天影视涩香欲综合网| 免费看成年人视频在线观看| 亚洲国产日韩一级| 免费黄色av电影| 精品电影在线观看| 69视频在线| 亚洲成人av片| 日本在线中文字幕一区二区三区| 亚洲夜晚福利在线观看| 成人国产精品| 欧美贵妇videos办公室| 国产精品极品国产中出| 日韩av电影在线网| 自拍视频亚洲| 欧美精品久久久| 免费不卡在线视频| 免费看又黄又无码的网站| 国产欧美综合在线| 在线黄色国产视频| 日韩欧美一区二区视频| 成人在线中文| 国产精品黄色av| 久久精品系列| 欧美牲交a欧美牲交| 国产精品女主播av| 日本大片在线观看| 日韩精品视频在线观看网址| www.91精品| 成人黄色在线免费| 99亚洲一区二区| 97超碰国产精品| 一级日本不卡的影视| 在线观看免费版| 在线观看国产成人av片| 欧美黑人巨大videos精品| 99视频在线免费观看| 精品一区二区三区免费毛片爱| 欧美成人黑人猛交| 狠狠色噜噜狠狠狠狠97| 里番在线播放| 97在线视频免费播放| 伊人成年综合电影网| 中文字幕日韩精品无码内射| 亚洲乱码精品一二三四区日韩在线 | 成年人视频免费在线播放| xxxx性欧美| 午夜精品久久久久99热蜜桃导演| 日韩欧美精品在线不卡| 国产精品污污网站在线观看| jzzjzzjzz亚洲成熟少妇| 最新中文字幕亚洲| 欧美jizz| 秋霞在线一区二区| 五月天激情小说综合| 成人国产二区| 成人黄色片在线| 9色porny自拍视频一区二区| 依依成人在线| 大胆人体色综合| 亚洲综合另类| 中文字幕第12页| 中文字幕国产日韩| 99热精品在线观看| 特黄aaaaaaaaa毛片免费视频| 日韩精品福利网站| 午夜精品婷婷| 欧美艹逼视频| 在线观看免费高清视频97| 欧美精品aa| 久久.com| 不用播放器成人网| 国内精品伊人久久久久av影院| 欧美精品少妇| 日韩av不卡在线| 91免费看`日韩一区二区| 欧美1234区| 高清免费日韩| 午夜伦欧美伦电影理论片| 一区二区三区免费在线看| 日本女人高潮视频| 欧美精品日韩精品| 亚洲女同一区| 日韩av电影免费| 久久久久国产精品免费网站| 卡一卡二国产精品| 黄网站在线免费| 成人精品久久一区二区三区| 久久久久久夜精品精品免费| 成人美女黄网站| 亚洲精品一区二区毛豆| 色欧美乱欧美15图片| 日韩av三区| av免费网站观看| 久久精品久久久久| 国产精品资源在线观看| 金瓶狂野欧美性猛交xxxx| 99re国产视频| 色爱区综合激月婷婷| 成人精品中文字幕| 2020中文字字幕在线不卡| 久久国产精品偷| www.亚洲在线| 日韩制服一区| 亚洲小说欧美另类激情| 欧美精品一区二区三区视频| 久久精品男女| 亚洲精品白浆| 亚洲一卡二卡区| 亚洲国产女人aaa毛片在线| 久久久久久久尹人综合网亚洲| 欧美性videos| 色中色综合成人| 日韩av网站在线| 国产福利一区二区三区| 日本肉肉一区 | 在线影视一区二区三区| 久久高清精品| 在线免费视频你懂得| 国产精品专区h在线观看| 偷拍日韩校园综合在线| 一区二区中文| 幼a在线观看| 日韩福利视频| 精品视频—区二区三区免费| 国产精品自在欧美一区| 国产精品成人3p一区二区三区| 激情六月丁香婷婷| 性色av一区二区三区红粉影视| 国产精品成人网| 亚洲精品一区二区妖精| 免费在线看a| 亚洲一区三区| 久久天堂电影网| 一区二区三区在线高清| 精品国产一区二区三区久久久蜜臀| 在线人体午夜视频| 久久综合九九| 国产一区二区三区中文| 久久久影院官网| 国产影视一区| 黄色网在线免费看| 男人添女荫道口图片| 久久久久久久影院| 日韩欧美国产成人| 日韩激情中文字幕| 国产区一区二| 免费资源在线观看| 99视频精品全部免费看| 欧美一区二区三区四区在线 | 日韩欧美精品在线不卡|

<td id="w6nwr"></td>