国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

UC伯克利LLM準中文排行榜來了!GPT-4穩(wěn)居第一,國人開源RNN模型沖進前六

人工智能 新聞
現在大語言模型們也要像王者榮耀/LoL/Dota這些游戲里的玩家一樣打排位賽了!

前段時間,來自LMSYS Org(UC伯克利主導)的研究人員搞了個大新聞——大語言模型版排位賽!

這次,團隊不僅帶來了4位新玩家,而且還有一個(準)中文排行榜。

  • OpenAI GPT-4
  • OpenAI GPT-3.5-turbo
  • Anthropic Claude-v1
  • RWKV-4-Raven-14B(開源)

毫無疑問,只要GPT-4參戰(zhàn),必定是穩(wěn)居第一。

不過,出乎意料的是,Claude不僅超過了把OpenAI帶上神壇的GPT-3.5位列第二,而且只比GPT-4差了50分。

相比之下,排名第三的GPT-3.5只比130億參數的最強開源模型Vicuna高了72分。

而140億參數的「純RNN模型」RWKV-4-Raven-14B憑借著卓越的表現,超越一眾Transformer模型排到了第6——除Vicuna模型外,RWKV在與所有其他開源模型的非平局比賽中贏得了超過50%的比賽。

圖片

此外,團隊還分別制作了「僅英語」和「非英語」(其中大部分是中文)這兩個單獨的排行榜。

可以看到,不少模型的排位都出現了明顯的變化。

比如,用更多中文數據訓練的ChatGLM-6B確實表現更好,而GPT-3.5也成功超越Claude排到了第二的位置。

圖片

本次更新的主要貢獻者是盛穎、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。

盛穎是LMSYS Org的3個創(chuàng)始人之一(另外兩位是Lianmin Zheng和Hao Zhang),斯坦福大學計算機科學系的博士生。

她也是之前爆火的、可以在單GPU上可以跑175B模型推理的系統FlexGen的一作,目前已獲8k星。

圖片

論文地址:https://arxiv.org/abs/2303.06865

項目地址:https://github.com/FMInference/FlexGen

個人主頁:https://sites.google.com/view/yingsheng/home

「開源」VS「閉源」

在社區(qū)的幫助下,團隊共收集了13k條匿名投票,并且有了一些有趣的發(fā)現。

專有與開源的差距

在三個專有模型中,Anthropic的Claude模型比GPT-3.5-turbo更受用戶歡迎。

而且,Claude在與最強大的GPT-4競爭時,也表現得非常有競爭力。

從下面這個勝率圖來看,GPT-4和Claude之間的66場非平局比賽中,Claude贏得了32場(48%)比賽。

圖片

所有非平局A vs B對戰(zhàn)中,模型A勝利的比例

然而,其他開源模型與這三個專有模型之間,依然存在著很大的差距。

特別是,GPT-4以1274的Elo分數領跑排行榜。這比榜單上最好的開源替代——Vicuna-13B——要高出近200分。

在去掉平局后,GPT-4在與Vicuna-13B對戰(zhàn)時贏得了82%的比賽,甚至在與前一代GPT-3.5-turbo對戰(zhàn)時贏得了79%的比賽。

然而,值得注意的是,排行榜上的這些開源模型通常具有比專有模型更少的參數,范圍在30億 - 140億之間。

實際上,最近在LLM和數據策劃方面的進展使得使用較小模型取得顯著性能改進成為可能。

谷歌的最新PaLM 2就是一個很好的例子:我們知道PaLM 2在使用較小模型大小時,比其前一代實現了更好的性能。

因此,團隊對開源語言模型迎頭趕上充滿樂觀。

GPT-4在何時會「翻車」?

在下圖中,用戶提出了一個需要仔細推理和規(guī)劃的棘手問題。雖然Claude和GPT-4提供了類似的答案,但Claude的回應稍微好一些。

然而,由于采樣的隨機性,團隊發(fā)現這種情況并不能總能復刻。有時GPT-4也能像Claude一樣給出相同的順序,但在這次生成試驗中失敗了。

另外,團隊注意到,當使用OpenAI API和ChatGPT接口時,GPT-4的行為略有不同,這可能是由于不同的提示、采樣參數或其他未知因素導致的。

圖片

用戶更喜歡Claude而不是GPT-4的一個例子

在下圖中,盡管Claude和GPT-4都具有驚人的能力,但它們仍在處理這類復雜的推理問題上掙扎。

圖片

一個用戶認為Claude和GPT-4都錯了的例子

除了這些棘手的情況,還有許多并不需要復雜推理或知識的簡單問題。

在這種情況下,像Vicuna這樣的開源模型可以與GPT-4表現相當,因此我們可能可以使用稍微弱一些(但更小或更便宜)的大型語言模型(LLM)來替代像GPT-4這樣更強大的模型。

Elo分數的變化

自從三個強大的專有模型參與以來,聊天機器人競技場的競爭從未如此激烈。

由于在與專有模型對戰(zhàn)時,開源模型輸掉了不少比賽,因此它們的Elo分數都有所下降。

最后,團隊還計劃開放一些API,讓用戶可以注冊自己的聊天機器人來參加排位賽。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-04 14:55:02

模型AI

2023-05-26 14:10:00

模型AI

2024-03-25 08:30:00

AI數據

2023-06-15 14:00:00

研究模型

2024-11-26 13:40:00

2024-04-07 00:45:00

開源模型

2023-05-31 16:15:51

模型圖像

2024-05-30 14:23:00

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2024-12-18 07:20:00

2018-05-27 17:37:20

薪資IT行業(yè)工資

2024-05-06 07:00:00

編程語言開發(fā)

2024-12-02 08:20:00

2023-11-14 07:47:42

IGN擴散模型

2023-07-15 23:54:57

GPT-4AI谷歌

2025-04-18 08:42:52

模型推理AI

2023-04-07 09:28:31

模型訓練

2024-01-29 10:31:00

AI模型

2023-09-27 12:56:56

AI模型

2023-06-08 11:27:10

模型AI
點贊
收藏

51CTO技術棧公眾號

91免费国产视频网站| 欧美自拍视频在线| 欧美乱大交xxxxx潮喷l头像| 凹凸国产熟女精品视频| 农村妇女精品一二区| 国产一区 在线播放| 精品国产一区二区三区麻豆小说| 欧美变态凌虐bdsm| 蜜桃视频中文字幕| 4438五月综合| 日韩丝袜情趣美女图片| 成人看片app| 国产一区二区三区日韩 | 日韩一区免费观看| 欧美一级精品| 久久这里有精品| 欧美激情网站| 制服丝袜国产精品| 欧美成人综合在线| 欧美成人影院在线播放| 超碰一区二区三区| 中文字幕精品一区二区精品| 污视频在线免费观看网站| 欧美午夜三级| 欧美人伦禁忌dvd放荡欲情| 99在线免费视频| 久久综合九色综合97婷婷| 久久精品福利视频| 色图在线观看| 欧美日韩不卡视频| 国产精品影院在线| 欧洲色大大久久| 一级二级三级在线观看| 一区二区视频在线看| 色婷婷亚洲十月十月色天| 欧美国产欧美综合| 日本爱爱免费视频| 国产精品青草综合久久久久99| 五月婷婷狠狠操| 亚洲欧美综合另类在线卡通| hbad中文字幕| 亚洲v精品v日韩v欧美v专区| 在线免费中文字幕| 91黄色免费版| 国产一二区在线| 精品免费99久久| 人狥杂交一区欧美二区| 伊人激情综合网| 777午夜精品电影免费看| 自拍偷拍亚洲欧美| 成人福利一区| 国产精品人人做人人爽| 大胆日韩av| 精品国产综合久久| 奇米影视7777精品一区二区| 免费的av在线| 久久精品欧美一区二区三区不卡| 99在线观看视频免费| 99久久精品免费| 国产二级片在线观看| 国产亚洲一区二区三区四区 | 欧美亚洲国产日韩2020| 高潮按摩久久久久久av免费| 美女扒开尿口让男人操亚洲视频网站| 国产日韩三级| 欧美一区二区三区免费视| 亚洲乱码在线| 日韩欧美一卡二卡| bbw在线视频| 日本一区二区综合亚洲| 亚洲国产午夜伦理片大全在线观看网站| 日韩欧美中文字幕一区| jizzjizzjizz亚洲| 激情五月播播久久久精品| 久久九九热re6这里有精品 | 国产欧美综合在线观看第十页| 中文字幕综合网| 国产精品日本精品| av在线电影网| 亚洲人成网亚洲欧洲无码| 欧美黄色免费网站| 欧洲亚洲成人| 国产不卡一区二区在线观看| 另类图片国产| 欧美一级片中文字幕 | 国产激情一区二区三区四区| 欧美性受xxxx黑人猛交88| 国产大片一区二区| 男人在线视频资源| 欧美日韩在线三级| 美女精品视频在线| 国产日韩一区在线| 可以免费看污视频的网站在线| 在线免费视频一区二区| 9色在线观看| 久久夜色精品国产| 欧美电影免费观看高清| 日本高清xxxx| 综合中文字幕亚洲| 爱搞国产精品| **欧美日韩vr在线| 麻豆精品国产91久久久久久| 黄色av免费在线播放| 91精品国产福利在线观看| 福利一区二区三区视频在线观看| 欧美日韩亚洲一区二区| 亚洲成人av观看| 国产成人91久久精品| 美女在线一区二区| av天天av| 日韩一区二区av| 欧美日韩亚洲一区| 日本福利视频一区| 一本色道久久综合亚洲aⅴ蜜桃| 欧洲亚洲精品| 99久久精品久久久久久ai换脸| 国产亚洲短视频| 香蕉视频国产在线观看| 欧美一级视频一区二区| 日韩av一二三| 风间由美一区| 亚洲 日韩 国产第一| 国产精品18久久久久久久久久久久| 天堂中文字幕——hd| 日韩视频免费看| 天堂成人免费av电影一区| 屁屁影院在线观看| 国产精品第五页| caopen在线视频| 国产啪精品视频| 99久久99久久精品免费看蜜桃| heyzo在线欧美播放| 国产精品视频免费在线观看| 久久婷婷久久一区二区三区| 奇米亚洲午夜久久精品| 最新av番号| 色妞色视频一区二区三区四区| 国产精品mv在线观看| 日本人视频jizz页码69| 亚洲一区二区三区三| av3级在线| 久久91亚洲人成电影网站 | 中文字幕在线视频区| 伊人久久久久久久久久久久久 | 国产精品免费一区二区三区四区| www精品美女久久久tv| 国产淫片在线观看| 国产美女在线精品免费观看| 国产女主播一区| 自拍偷拍亚洲图片| 一区二区日本| 亚洲成人久久网| 一区二区三区网站 | 日韩的一区二区| 99久久夜色精品国产亚洲96| 无码内射中文字幕岛国片| 亚洲深夜福利在线| 石原莉奈在线亚洲三区| 精品孕妇一区二区三区| 91免费看片在线| 91激情在线视频| 久久国产小视频| 在线黄色av| 日韩av免费在线观看| 一区二区在线免费观看| 怕怕欧美视频免费大全| 波多野结衣天堂| 欧美精品日韩三级| 国产69精品久久777的优势| 91看片淫黄大片91| 欧美一区日韩一区| 久久精品国产成人一区二区三区 | 91蝌蚪精品视频| 日本精品久久久久久久久久| 中文字幕一区电影| 国产精品亚洲第一| 图片一区二区| 黄色www网站| 久久久久久久97| 中文字幕亚洲精品在线观看| 日本欧美韩国国产| 91国内视频| 91欧美一区二区| 中文字幕一区二区三区四区久久 | 国产av熟女一区二区三区| 亚洲成人精品av| 大美女一区二区三区| 精品无人乱码一区二区三区| 精品一区二区中文字幕| 欧美黑人国产人伦爽爽爽| 亚洲一区二区五区| 国产精品久久久久蜜臀| 日本a一级在线免费播放| 欧美69视频| xxxx69视频| 成人黄色在线播放| 精品国产91乱码一区二区三区| 蜜臀91精品一区二区三区| 一区在线不卡| 激情亚洲色图|