国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

UC伯克利發(fā)布大語(yǔ)言模型排行榜!Vicuna奪冠,清華ChatGLM進(jìn)前5

人工智能 新聞
萬(wàn)萬(wàn)沒(méi)想到,現(xiàn)在大語(yǔ)言模型們也要像王者榮耀/LoL/Dota這些游戲里的玩家一樣打排位賽了!據(jù)說(shuō),那些閉源模型們很快也會(huì)被拉出來(lái)溜溜。

最近,來(lái)自L(fǎng)MSYS Org(UC伯克利主導(dǎo))的研究人員又搞了個(gè)大新聞——大語(yǔ)言模型版排位賽!

顧名思義,「LLM排位賽」就是讓一群大語(yǔ)言模型隨機(jī)進(jìn)行battle,并根據(jù)它們的Elo得分進(jìn)行排名。

然后,我們就能一眼看出,某個(gè)聊天機(jī)器人到底是「嘴強(qiáng)王者」還是「最強(qiáng)王者」。

劃重點(diǎn):團(tuán)隊(duì)還計(jì)劃把國(guó)內(nèi)和國(guó)外的這些「閉源」模型都搞進(jìn)來(lái),是騾子是馬溜溜就知道了!(GPT-3.5現(xiàn)在就已經(jīng)在匿名競(jìng)技場(chǎng)里了)

圖片

匿名聊天機(jī)器人競(jìng)技場(chǎng)長(zhǎng)下面這樣:

很明顯,模型B回答正確,拿下這局;而模型A連題都沒(méi)讀懂……

圖片

項(xiàng)目地址:https://arena.lmsys.org/

在當(dāng)前的排行榜中,130億參數(shù)的Vicuna以1169分穩(wěn)居第一,同樣130億參數(shù)的Koala位列第二,LAION的Open Assistant排在第三。

清華提出的ChatGLM,雖然只有60億參數(shù),但依然沖進(jìn)了前五,只比130億參數(shù)的Alpaca落后了23分。

相比之下,Meta原版的LLaMa只排到了第八(倒數(shù)第二),而Stability AI的StableLM則獲得了唯一的800+分,排名倒數(shù)第一。

團(tuán)隊(duì)表示,之后不僅會(huì)定期更新排位賽榜單,而且還會(huì)優(yōu)化算法和機(jī)制,并根據(jù)不同的任務(wù)類(lèi)型提供更加細(xì)化的排名。

圖片

目前,所有的評(píng)估代碼以及數(shù)據(jù)分析均已公布。

拉著LLM打排位

在這次的評(píng)估中,團(tuán)隊(duì)選擇了目前比較出名的9個(gè)開(kāi)源聊天機(jī)器人。

每次1v1對(duì)戰(zhàn),系統(tǒng)都會(huì)隨機(jī)拉兩個(gè)上場(chǎng)PK。用戶(hù)則需要同時(shí)和這兩個(gè)機(jī)器人聊天,然后決定哪個(gè)聊天機(jī)器人聊的更好。

可以看到,頁(yè)面下面有4個(gè)選項(xiàng),左邊(A)更好,右邊(B)更好,一樣好,或者都很差。

當(dāng)用戶(hù)提交投票之后,系統(tǒng)就會(huì)顯示模型的名稱(chēng)。這時(shí),用戶(hù)可以繼續(xù)聊天,或者選擇新的模型重新開(kāi)啟一輪對(duì)戰(zhàn)。

不過(guò),團(tuán)隊(duì)在分析時(shí),只會(huì)采用模型是匿名時(shí)的投票結(jié)果。在經(jīng)過(guò)差不多一周的數(shù)據(jù)收集之后,團(tuán)隊(duì)共收獲了4.7k個(gè)有效的匿名投票。

圖片

在開(kāi)始之前,團(tuán)隊(duì)先根據(jù)基準(zhǔn)測(cè)試的結(jié)果,掌握了各個(gè)模型可能的排名。

根據(jù)這個(gè)排名,團(tuán)隊(duì)會(huì)讓模型去優(yōu)先選擇更合適的對(duì)手。

然后,再通過(guò)均勻采樣,來(lái)獲得對(duì)排名的更好總體覆蓋。

在排位賽結(jié)束時(shí),團(tuán)隊(duì)又引入了一種新模型fastchat-t5-3b。

以上這些操作最終導(dǎo)致了非均勻的模型頻率。

圖片

每個(gè)模型組合的對(duì)戰(zhàn)次數(shù)

從統(tǒng)計(jì)數(shù)據(jù)來(lái)看,大多數(shù)用戶(hù)所用的都是英語(yǔ),中文排在第二位。

圖片

排名前15的語(yǔ)言的對(duì)戰(zhàn)次數(shù)

評(píng)估LLM,真的很難

自從ChatGPT爆火之后,經(jīng)過(guò)指令跟隨微調(diào)的開(kāi)源大語(yǔ)言模型如雨后春筍一般大量涌現(xiàn)。可以說(shuō),幾乎每周都有新的開(kāi)源LLM在發(fā)布。

但問(wèn)題是,評(píng)估這些大語(yǔ)言模型非常難。

具體來(lái)說(shuō),目前用來(lái)衡量一個(gè)模型好不好的東西基本都是基于一些學(xué)術(shù)的benchmark,比如在一個(gè)某個(gè)NLP任務(wù)上構(gòu)建一個(gè)測(cè)試數(shù)據(jù)集,然后看測(cè)試數(shù)據(jù)集上準(zhǔn)確率多少。

然而,這些學(xué)術(shù)benchmark(如HELM)在大模型和聊天機(jī)器人上就不好用了。其原因在于:

1. 由于評(píng)判聊天機(jī)器人聊得好不好這件事是非常主觀(guān)的,因此現(xiàn)有的方法很難對(duì)其進(jìn)行衡量。

2. 這些大模型在訓(xùn)練的時(shí)候就幾乎把整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù)都掃了一個(gè)遍,因此很難保證測(cè)試用的數(shù)據(jù)集沒(méi)有被看到過(guò)。甚至更進(jìn)一步,用測(cè)試集直接對(duì)模型進(jìn)行「特訓(xùn)」,如此一來(lái)表現(xiàn)必然更好。

3. 理論上我們可以和聊天機(jī)器人聊任何事情,但很多話(huà)題或者任務(wù)在現(xiàn)存的benchmark里面根本就不存在。

圖片

那如果不想采用這些benchmark的話(huà),其實(shí)還有一條路可以走——花錢(qián)請(qǐng)人來(lái)給模型打分。

實(shí)際上,OpenAI就是這么搞的。但是這個(gè)方法明顯很慢,而且更重要的是,太貴了……

為了解決這個(gè)棘手的問(wèn)題,來(lái)自UC伯克利、UCSD、CMU的團(tuán)隊(duì)發(fā)明了一種既好玩又實(shí)用的全新機(jī)制——聊天機(jī)器人競(jìng)技場(chǎng)(Chatbot Arena)。

相比而言,基于對(duì)戰(zhàn)的基準(zhǔn)系統(tǒng)具有以下優(yōu)勢(shì):

  • 可擴(kuò)展性(Scalability)

當(dāng)不能為所有潛在的模型對(duì)收集足夠的數(shù)據(jù)時(shí),系統(tǒng)應(yīng)能擴(kuò)展到盡可能多的模型。

  • 增量性(Incrementality)

系統(tǒng)應(yīng)能夠使用相對(duì)較少的試驗(yàn)次數(shù)評(píng)估新模型。

  • 唯一順序(Unique order)

系統(tǒng)應(yīng)為所有模型提供唯一順序。給定任意兩個(gè)模型,我們應(yīng)該能夠判斷哪個(gè)排名更高或它們是否并列。

Elo評(píng)分系統(tǒng)

Elo等級(jí)分制度(Elo rating system)是一種計(jì)算玩家相對(duì)技能水平的方法,廣泛應(yīng)用在競(jìng)技游戲和各類(lèi)運(yùn)動(dòng)當(dāng)中。其中,Elo評(píng)分越高,那么就說(shuō)明這個(gè)玩家越厲害。

比如英雄聯(lián)盟、Dota 2以及吃雞等等,系統(tǒng)給玩家進(jìn)行排名的就是這個(gè)機(jī)制。

舉個(gè)例子,當(dāng)你在英雄聯(lián)盟里面打了很多場(chǎng)排位賽后,就會(huì)出現(xiàn)一個(gè)隱藏分。這個(gè)隱藏分不僅決定了你的段位,也決定了你打排位時(shí)碰到的對(duì)手基本也是類(lèi)似水平的。

而且,這個(gè)Elo評(píng)分的數(shù)值是絕對(duì)的。也就是說(shuō),當(dāng)未來(lái)加入新的聊天機(jī)器人時(shí),我們依然可以直接通過(guò)Elo的評(píng)分來(lái)判斷哪個(gè)聊天機(jī)器人更厲害。

具體來(lái)說(shuō),如果玩家A的評(píng)分為Ra,玩家B的評(píng)分為Rb,玩家A獲勝概率的精確公式(使用以10為底的logistic曲線(xiàn))為:

圖片

然后,玩家的評(píng)分會(huì)在每場(chǎng)對(duì)戰(zhàn)后線(xiàn)性更新。

假設(shè)玩家A(評(píng)分為Ra)預(yù)計(jì)獲得Ea分,但實(shí)際獲得Sa分。更新該玩家評(píng)分的公式為:

圖片

1v1勝率

此外,作者還展示了排位賽中每個(gè)模型的對(duì)戰(zhàn)勝率以及使用Elo評(píng)分估算的預(yù)測(cè)對(duì)戰(zhàn)勝率。

結(jié)果顯示,Elo評(píng)分確實(shí)可以相對(duì)準(zhǔn)確地進(jìn)行預(yù)測(cè)

圖片

所有非平局A對(duì)B戰(zhàn)斗中模型A勝利的比例

圖片

在A對(duì)B戰(zhàn)斗中,使用Elo評(píng)分預(yù)測(cè)的模型A的勝率

作者介紹

「聊天機(jī)器人競(jìng)技場(chǎng)」由前小羊駝作者機(jī)構(gòu)LMSYS Org發(fā)布。

該機(jī)構(gòu)由UC伯克利博士Lianmin Zheng和UCSD準(zhǔn)教授Hao Zhang創(chuàng)立,目標(biāo)是通過(guò)共同開(kāi)發(fā)開(kāi)放的數(shù)據(jù)集、模型、系統(tǒng)和評(píng)估工具,使每個(gè)人都能獲得大型模型。

圖片

Lianmin Zheng

Lianmin Zheng是加州大學(xué)伯克利分校EECS系的博士生,他的研究興趣包括機(jī)器學(xué)習(xí)系統(tǒng)、編譯器和分布式系統(tǒng)。

Hao Zhang

Hao Zhang目前是加州大學(xué)伯克利分校的博士后研究員。他將于2023年秋季開(kāi)始在加州大學(xué)圣地亞哥分校Hal?c?o?lu數(shù)據(jù)科學(xué)研究所和計(jì)算機(jī)系擔(dān)任助理教授。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-05-16 13:32:23

模型排行

2024-05-30 14:23:00

2023-04-04 13:17:00

GPUCMU開(kāi)源

2023-08-05 13:45:46

模型AI

2023-04-07 09:28:31

模型訓(xùn)練

2023-05-26 14:10:00

模型AI

2023-03-31 13:55:00

模型智能

2025-01-22 15:21:00

2021-05-06 23:11:20

編程語(yǔ)言數(shù)據(jù)Python

2025-04-18 08:42:52

模型推理AI

2024-11-26 13:40:00

2023-05-26 17:20:29

模型工具

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2024-12-02 08:20:00

2023-12-16 09:49:18

2024-03-04 08:15:00

2017-02-10 09:45:00

編程語(yǔ)言排行榜Scratch

2025-10-11 15:55:08

AI模型數(shù)據(jù)

2015-04-14 14:37:06

編程語(yǔ)言4月編程語(yǔ)言排行

2024-09-23 14:46:27

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产精品毛片av| 视频一区欧美日韩| 狠狠色狠狠色综合日日小说| 亚洲欧美精品| 高潮久久久久久久久久久久久久 | 免费一级电影| 可以免费看不卡的av网站| 久久久久久国产精品久久| 蜜桃视频网站在线| 一区二区三区在线看| www亚洲国产| 99热在线成人| 韩国一区二区电影| 欧美三级网址| 日韩欧美自拍偷拍| 深夜影院在线观看| 中文字幕在线视频一区| 欧洲精品一区二区三区久久| 久久久久久婷| 国产精品日韩高清| 91不卡在线观看| 国产精品成人一区二区| 国产精品白浆| 精品综合久久久久久97| 日韩制服诱惑| 亚洲欧美日韩网| free性护士videos欧美| 欧美精品日韩精品| 男生女生差差差的视频在线观看| 中文字幕亚洲电影| www.com黄色片| 国产亚洲欧美日韩日本| 97超碰在线人人| 国产成人精品影院| www.xxx麻豆| 国产精品91一区二区| 色大师av一区二区三区| 欧美男男gaytwinkfreevideos| 欧美乱妇高清无乱码| 高清亚洲高清| 日韩中文字幕在线播放| 青青草国产一区二区三区| 中文字幕欧美国内| 91九色综合| 色偷偷88888欧美精品久久久| japanese23hdxxxx日韩| 国产一区二区日韩精品欧美精品| 精品91久久| 久久精品久久久久久国产 免费| 日本综合视频| 日韩三级影视基地| 伊人精品久久| 日本亚洲欧洲色α| 欧美残忍xxxx极端| 国产精品国产亚洲精品看不卡15| 激情欧美国产欧美| 日韩欧美三级一区二区| 国产精品资源在线看| www一区二区www免费| 日本一区二区久久| 大地资源高清播放在线观看| 欧美日韩国产精品| 中文在线手机av| 亚洲欧美精品在线| 视频精品国内| 国产美女精品视频免费观看| 国产综合网站| 在线观看一区二区三区三州| 国产成人在线观看| 国产黄视频网站| 欧美亚一区二区| www.综合网.com| 欧美成年人视频| 日韩三级在线| 亚洲不卡一卡2卡三卡4卡5卡精品| 韩国毛片一区二区三区| 成人黄色一区二区| 福利一区福利二区微拍刺激| 日韩毛片久久久| 神马久久久久久| av永久不卡| 一级日韩一区在线观看| 亚洲国产精品99久久久久久久久| 日本亚洲欧美| 亚洲天堂男人天堂女人天堂| 欧美男gay| 亚洲精品一区二| 国产精品理伦片| 日本免费视频在线观看| 精品国产一区二区三区在线观看| 欧美手机视频| 最近中文字幕免费mv| 一区二区在线看| 欧美videos另类精品| 久久免费精品视频| 性8sex亚洲区入口| 天堂社区在线视频| 91精品国产丝袜白色高跟鞋| 1204国产成人精品视频| 国产欧美日韩视频一区二区三区| 91在线视频播放| av中文字幕在线| 久久久久久久激情视频| 国产精品普通话对白| 污污网站免费观看| 精品国产自在久精品国产| 日韩啪啪网站| 秋霞在线一区二区| 天天综合天天做天天综合| 日本免费成人| 日本一区二区三区四区高清视频 | 97碰碰碰免费公开在线视频| 精品日本一线二线三线不卡| 精品国产一区二区三区成人影院 | 丝袜美腿综合| 日韩第一页在线观看| 欧美日韩在线免费观看| 99亚洲男女激情在线观看| 看高清中日韩色视频| 一区二区三区产品免费精品久久75| 小草在线视频免费播放| 成人av免费看| 一区二区三区美女| 亚洲资源在线| 一区二区精品在线| 色综合色综合色综合色综合色综合 | 国产精品video| 国产+成+人+亚洲欧洲自线| 中文av在线播放| 久久久久久久久久婷婷| 国产乱人伦偷精品视频不卡 | 久久综合亚州| 欧美写真视频一区| 欧美激情网友自拍| 国产精品一区二区免费不卡| 国产片在线观看| 国产欧美精品一区二区| 国产欧美精品一区二区色综合朱莉| 四虎亚洲成人| 久久精品五月婷婷| 欧美日韩美少妇| 亚洲激情中文在线| 91天堂在线| 国产精品成人观看视频国产奇米| 国产精品美女久久福利网站| 亚洲一区二区免费在线观看| 欧美午夜性视频| 一区二区三区www| 国产成人福利片| av在线日韩| 国产九九九九九| 久久精品国产成人精品| 成人h动漫精品一区二区| 456亚洲精品成人影院| 狠狠精品干练久久久无码中文字幕 | 欧美在线观看视频| 欧美国产精品一区二区| 成人在线视频区| aaa毛片在线观看| 超碰97人人做人人爱少妇| 99久久99久久免费精品蜜臀| 日本久久一区| 手机看片福利日韩| 69影院欧美专区视频| 亚洲欧美视频一区| 欧美综合视频| 精品999视频| 乱色588欧美| 亚洲精品mp4| 不卡的av电影在线观看| 精品国产伦一区二区三区观看说明| 国产乱子伦农村叉叉叉| 欧美激情精品久久久久| 亚洲精品第1页| 99久久99热这里只有精品| 99青草视频在线播放视| 亚洲国产欧洲综合997久久 | 尤物视频一区二区| 日韩免费高清| 日本中文字幕视频在线| 亚洲最大免费| xvideos成人免费中文版| 久久蜜桃一区二区| 一区二区三区韩国免费中文网站| 操操操综合网| 久久影视中文粉嫩av| 亚洲美女性生活视频| 久久综合久久综合亚洲| 女人av一区| 欧美成年黄网站色视频| 国产av第一区| 韩国19禁主播vip福利视频| 天涯成人国产亚洲精品一区av| 韩国精品一区二区三区| 欧美巨大丰满猛性社交| 老熟妇仑乱视频一区二区| 成人a在线观看| 亚洲国产成人在线播放| 日本一区二区三区视频视频| 欧美日韩日本国产亚洲在线|