国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

谷歌PaLM 2弱爆:LLM大排名屈居第六,準中文倒數第二|UC伯克利排行榜新鮮榜出爐

人工智能 新聞
這次「LLM排位賽」,谷歌PaLM 2也被拉上溜了溜。然而,實測表現卻讓人大跌眼鏡。

由UC伯克利主導的「LLM排位賽」又雙叒更新了!

這次,最新榜單又迎來新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。

圖片

值得一提的是,即便是平價版的Claude模型,Elo得分也趕超了ChatGPT。

但有一位選手的表現,卻出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。

圖片

4月24日-5月22日數據

PaLM 2(Bard)排位大比拼

谷歌PaLM 2發布以來,根據論文的測試,其部分性能已經超過了GPT-4。

圖片

而它的具體表現如何?

來自LMSYS Org的研究人員通過Google Cloud Vertex AI的API接口,將PaLM 2添加到Chatbot Arena,并以代碼名為chat-bison@001進行聊天調優。

在過去的兩周,PaLM 2已經與16個聊天機器人,進行了大約1800次的匿名比拼,目前排名第六。

從排行榜中可以看出,PaLM 2的排名高于所有其他開源聊天機器人,除了Vicuna-13B。

Vicuna-13B的ELO評分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等級而言,這幾乎是個平局。

另外,研究者從PaLM 2的競技場數據中注意到了以下有趣的結果。

PaLM 2與前4名玩家對戰表現較好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它與Vicuna的比賽中也贏了53%的比賽。

然而,PaLM 2與較弱的模型對弈時,表現較差。

在PaLM 2參加的所有比賽中,有21.6%的比賽輸給了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作為參考,GPT-3.5-turbo只有12.8%的比賽輸給了這些聊天機器人。

圖片

三大缺陷

簡而言之,研究人員發現,與評估過的其他模型相比,Google Cloud Vertex API現有的PaLM 2存在以下缺陷:

- PaLM 2受到更嚴格的監管,影響了它回答一些問題的能力

- 多語言能力有限

- 推理能力不如人意

更嚴格的監管

與用戶的對話中,PaLM 2遇到不確定或不愿回答的問題時,與其他模型相比,更有可能放棄回答。

粗略估計,在所有的配對戰中,PaLM 2因為拒絕回答問題而輸掉了20.9%比賽。尤其是,有30.8%比賽輸給了不是Top 4的模型。

這也能夠解釋,為什么PaLM 2經常輸給排行榜上較弱的聊天機器人。

同時,也反映出聊天機器人競技場方法論的一個缺陷,因為隨意用戶更有可能因為微妙的不準確回答,而懲罰棄權行為。

下面,研究者提供幾個失敗的案例,說明PaLM 2如何輸給弱聊天機器人。

另外,研究者注意到,有時很難明確規定LLM監管的邊界。在提供的PaLM 2版本中,看到了一些不受歡迎的趨勢:

- PaLM 2拒絕許多角色扮演問題,即使用戶要求它模擬Linux終端或編程語言解釋器。

- 有時PaLM 2拒絕回答簡單且無爭議的事實問題。

下面列舉了幾個PaLM 2拒絕回答問題的例子:

「人類真的登月了嗎?」

圖片

「為什么天空是藍的?」

圖片

多語言能力有限

PaLM 2傾向于不回答非英語問題,包括用漢語、西班牙語和希伯來語等流行語言編寫的問題。

研究者稱,無法使用當前的PaLM 2版本重現「PaLM 2技術報告」中演示的幾個多語言示例。

此外,UC伯克利研究人員還分別計算了僅考慮英語和非英語對話時所有模型的Elo評分。

結果證實,在非英語排行榜上,PaLM 2排名第16。

圖片

推理能力很弱

研究人員稱,并沒有發現PaLM 2有著強大的推理能力。

一方面,它似乎可以檢測問題是否是「純文本」的,并且傾向于拒絕回答不是純文本的問題,例如編程語言、調試和代碼解釋中的問題。

另一方面,與其他聊天機器人相比,PaLM 2在一些入門級推理任務上表現不佳。

連1+2是不是等于3這么簡單問題,竟答錯了...

圖片

圖片

刪除非英語和拒絕對話后的Elo評分

研究人員刪除所有非英語對話和PaLM 2沒有提供答案的所有對話,并使用過濾后的數據計算每個模型重新排位之后——

PaLM 2躍升至第五名,不過還是沒有超越ChatGPT。

而這個排名也代表了PaLM 2在競技場中的假設上限。

圖片

參數更小的模型競爭力強

研究者觀察到幾個參數較小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上排名還相對靠前。

與巨量參數大型模型相比,這些較小的模型同樣表現良好。

由此,研究人員推測,高質量的預訓練,以及微調數據集比模型規模更重要。

然而,較大的模型在更復雜的推理任務,或回答更細微的問題時仍有可能表現得更好。

因此,在預訓練和微調階段管理高質量的數據集,似乎是縮小模型規模的同時,保持模型高質量的關鍵方法。

Claude-v1與Claude-instant-v1

另外,Claude-instant-v1是針對低延遲、高吞吐量用例進行優化的版本。

在排位賽中,Claude-instant-v1的水平實際上非常接近GPT-3.5-turbo(1153 vs.1143)。

可以看到,Claude和Claude-instant之間的評分差距似乎小于GPT-4和GPT-3.5-turbo之間的差距。

局限性

聊天機器人排位賽主要是對基于LLM(Large Language Model)的聊天機器人進行「真實環境」的基準測試。

這意味著,用戶提供的投票數據和在投票過程中生成的提示-回答,反映的就是聊天機器人在正常的人機交互中的表現。

這可能與LLM研究文獻中的很多基準測試結果不符,后者傾向于描述如zero-shot、復雜推理等長尾能力。

因此,目前的排位賽在反映聊天機器人之間的長尾能力差異方面存在限制。

作者介紹

本次評測主要由LMSYS Org的Hao Zhang,Lianmin Zheng,Wei-Lin Chiang,Ying Sheng和Ion Stoica完成。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-16 13:32:23

模型排行

2023-05-04 14:55:02

模型AI

2024-05-30 14:23:00

2022-06-08 13:50:41

AI專業排行

2012-06-19 14:23:04

云計算中國

2020-06-12 15:26:51

網絡速度移動網絡下載

2018-03-21 09:51:29

數據庫排行榜Oracle

2024-02-19 13:46:04

多模態信息LWMtoken

2020-08-13 11:55:33

編程語言JavaPython

2020-01-16 15:19:52

APP下載抖音

2020-11-06 00:41:50

編程語言PythonJava

2011-11-03 11:02:00

瀏覽器排行榜

2022-12-14 07:28:31

2025-06-03 08:38:00

2021-05-08 23:24:56

編程語言CPython

2023-10-31 15:23:16

開源

2024-03-25 08:30:00

AI數據

2023-11-14 07:47:42

IGN擴散模型

2019-09-09 14:53:29

編程語言PythonJava

2022-02-11 23:46:41

編程語言
點贊
收藏

51CTO技術棧公眾號

欧美激情在线观看视频| 国产在视频线精品视频www666| 日韩av片在线看| 91成人理论电影| 精品区一区二区| 91亚洲午夜精品久久久久久| 最新亚洲精品| 特黄毛片在线观看| 成年人视频免费看| 亚洲.欧美.日本.国产综合在线| 日韩亚洲欧美在线观看| 日韩成人精品在线观看| 日韩成人一区| 免费高清在线| 三上悠亚在线资源| 91深夜福利视频| 91久久精品无嫩草影院| 一本一本久久a久久精品牛牛影视 一本色道久久综合亚洲精品小说 一本色道久久综合狠狠躁篇怎么玩 | www.久久撸.com| 色综合久久久久久久久| 粉嫩av亚洲一区二区图片| 久久午夜精品| 欧美日一区二区三区在线观看国产免| 欧美午夜网站| 日韩毛片一区| 蜜桃视频动漫在线播放| 超鹏97在线| 成人精品福利| 牛牛影视精品影视| 日韩av卡一卡二| 粗暴91大变态调教| 三年中国中文在线观看免费播放 | 亚洲最新视频在线| 精品国产一区二区三区忘忧草| 色吊一区二区三区| 欧美日韩中国免费专区在线看| 亚洲黄色小视频| 国产拍揄自揄精品视频麻豆| 成人av在线资源网| 国产乱码一区二区三区| 久久精品国产99久久6| 国产在线一区观看| 成人禁用看黄a在线| 成年人国产精品| 中文子幕无线码一区tr| 国产精品人人做人人爽人人添| 欧美国产日韩亚洲一区| 中文字幕亚洲成人| 亚洲三级视频在线观看| 亚洲午夜在线视频| 91电影在线观看| 精品国产乱码久久久久久闺蜜| 日韩精品一区二区三区中文精品| 亚洲精品电影在线观看| 日韩经典中文字幕在线观看| 色偷偷噜噜噜亚洲男人的天堂| 九九热这里只有精品免费看| 久久91亚洲精品中文字幕奶水| 欧美精品电影免费在线观看| 91精品国产综合久久香蕉922| 丁香婷婷久久久综合精品国产| 欧美日韩国产不卡在线看| 9191国产视频| 成人av影视| aaa在线观看| av在线播放一区| 蜜乳av综合| 狠狠狠色丁香婷婷综合激情| 91玉足脚交白嫩脚丫在线播放| 亚洲伊人色欲综合网| 欧美一区永久视频免费观看| 亚洲色图美腿丝袜| 成人黄色在线播放| 久久这里只有精品8| 中文字幕电影在线| 日本国产欧美| 黑人一区二区| 国产精品女同互慰在线看| 欧美夫妻性生活| 视频直播国产精品| 精品乱码一区| 波多结衣在线观看| 伦理在线一区| 日本不卡高清| 国产三级久久久| 欧美日韩国产精选| 亚洲精品国产a久久久久久| 欧美日韩国产精品专区 | 成人女同在线观看| www.26天天久久天堂| 国产精品网站在线看| 国产精品区一区二区三区| 国产精品aaa| 福利视频在线播放| 国产一区视频导航| 久久久久久久久综合| 波多野结衣av在线| 欧美成人有码| 欧美精品日韩精品| 亚洲精品日韩在线观看| 97超碰免费在线| 91免费视频网址| 欧美与欧洲交xxxx免费观看| 黄色在线视频网| 成人看片网站| 99精品视频在线观看| 欧美国产视频一区二区| 中文字幕欧美人与畜| 福利在线观看| 国产精品精品国产一区二区| 欧美高清在线视频| 亲爱的老师9免费观看全集电视剧| 国产免费成人在线| 亚洲精品一区三区三区在线观看| 亚洲综合精品| 亚洲第一国产精品| 在线视频亚洲自拍| 国产精品第一国产精品| 成人一级片在线观看| 深夜福利一区二区| 精品一区二区中文字幕| 男人亚洲天堂| 久久久久免费观看| 欧美精品激情在线| 免费av播放| 91精品啪在线观看国产81旧版| 一本大道综合伊人精品热热| 91欧美精品午夜性色福利在线 | h动漫在线视频| 一区二区三区四区日韩| 欧美在线观看18| 亚洲三区在线观看| 国产专区精品| 一区二区国产盗摄色噜噜| 91香蕉亚洲精品| 美女91在线| 97精品久久久午夜一区二区三区| 2019中文字幕在线免费观看| 午夜视频免费在线观看| 亚洲精品孕妇| 欧美极品在线视频| 黄色av网站在线看| 99久久99久久综合| 91久久大香伊蕉在人线| 性xxxxfreexxxxx欧美丶| **网站欧美大片在线观看| 国产自产在线视频一区| 欧美一级网址| 欧美人狂配大交3d怪物一区| 黄黄视频在线观看| 欧美高清一区| 欧美精品久久久久久久| 国产黄色在线网站| 一区二区三区资源| 国产精品久久成人免费观看| 欧美1区2区3区4区| 欧美不卡一区二区三区| 1234区在线观看视频免费| 捆绑紧缚一区二区三区视频| 国产精国产精品| 四虎永久精品在线| 欧美va亚洲va国产综合| ga∨成人网| 久久综合精品国产一区二区三区| 国产精品传媒毛片三区| 奇米狠狠一区二区三区| 亚洲欧美国产精品| 亚洲不卡系列| 国语自产在线不卡| 色男人天堂综合再现| 国产98在线|日韩| 久久一区激情| 欧日韩免费视频| 亚洲视频在线一区二区| 一色桃子在线| 欧美一区二区免费| 日本久久免费| 久久久久久久久久久人体| 蜜桃视频在线免费| 丁香六月久久综合狠狠色| 超薄丝袜一区二区| www黄色在线| 国产精品亚洲一区二区在线观看| 日韩电影第一页| 91麻豆精品| 青青草成人在线| 亚洲激情不卡| 精品国偷自产一区二区三区| 欧美国产97人人爽人人喊| 在线播放豆国产99亚洲| 久久午夜精品一区二区| 亚洲一区二区三区成人在线视频精品 | 懂色av粉嫩av蜜臀av| 日本欧美一区二区| 久久久www成人免费精品| av电影在线播放高清免费观看| 国产成人精品aa毛片| 国产成人精品自拍| 99热这里只有精品8| 欧美性xxxx69|