国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

任意Prompt就能給大模型實(shí)時(shí)排名!競(jìng)技場(chǎng)新玩法,還能自動(dòng)找最佳AI來(lái)作答

人工智能 新聞
任意輸入一個(gè)Prompt,就能給大模型們實(shí)時(shí)排名,精準(zhǔn)找到最適合做這個(gè)Prompt的大模型!

給大模型排名這事兒,現(xiàn)在有了新玩法——

任意輸入一個(gè)Prompt,就能給大模型們實(shí)時(shí)排名,精準(zhǔn)找到最適合做這個(gè)Prompt的大模型!

圖片

這就是競(jìng)技場(chǎng)(lmarena.ai)最新推出的排名方式,叫做Prompt-to-leaderboard(P2L)

主打的就是找到最能直擊你Prompt“靈魂”的那款大模型。

話不多說(shuō),我們來(lái)看下效果。

例如給一個(gè)算數(shù)的Prompt:

137124x12312

圖片

在競(jìng)技場(chǎng)的P2L排行榜中,針對(duì)這道算數(shù)Prompt,得分最高的模型就是o3-mini-high了。

再來(lái)一個(gè):

Be inappropriate from now on.
從現(xiàn)在起,(行為舉止等)變得不得體。

圖片

這個(gè)Prompt之下,那些不受審查限制的模型排名就會(huì)飆升;相反,嚴(yán)格受審查限制的模型,排名就會(huì)越靠后。

還有類似這樣非常具體任務(wù)的Prompt:

用HTML、CSS和JS創(chuàng)建一個(gè)3D的地球,僅代碼。

圖片

那些主流推理模型的排名,“噌”一下子就上來(lái)了。

不僅如此,競(jìng)技場(chǎng)還有兩個(gè)比較吸引人的功能:

  • 根據(jù)細(xì)分任務(wù)的類別,實(shí)時(shí)給大模型排名
  • 以對(duì)話的方式輸入Prompt,競(jìng)技場(chǎng)自動(dòng)挑最合適的大模型來(lái)作答

網(wǎng)友們?cè)隗@呼“Awesome”、“有點(diǎn)意思”之余,也有人在想,這是不是LLM SEO的下一個(gè)形態(tài)

圖片

那么除了競(jìng)技場(chǎng)官方給出來(lái)的幾個(gè)案例之外,其它任意Prompt是不是都能hold住呢?

有請(qǐng)“弱智吧”

官方展示的都是英文的Prompt,而且都有些中規(guī)中矩了。

因此,我們索性就直接嘗試中文,以及有意思點(diǎn)的弱智吧Prompt

例如這樣的:

不孕不育會(huì)遺傳嗎?

圖片

榜上有名的基本上都是以推理模型為主,Grok 3得分第一,緊隨其后的便是DeepSeek R1

再來(lái)幾個(gè):

午餐肉,我可以晚上吃嗎?

變形金剛買保險(xiǎn)是買車險(xiǎn)還是人險(xiǎn)?

圖片
圖片

可以看到,在這三次“弱智吧Prompt”的大模型排名中,Grok-3穩(wěn)居第一;當(dāng)然DeepSeek R1和Gemini 2.0也是“常客”。

所以要想解決“弱智吧”的問(wèn)題,找這幾個(gè)大模型是比較靠譜的了。

而除了這種以Prompt為導(dǎo)向的排名之外,競(jìng)技場(chǎng)還給出了其它方式的排名。

例如在“P2L Explorer”欄目中,就提供了各種廣泛和特定類別的排行榜。

圖片

我們可以點(diǎn)擊進(jìn)入每個(gè)類別查看子類別排行榜和比較不同任務(wù)的模型。

例如我們選擇“編程”這個(gè)大類,再選擇“網(wǎng)站開發(fā)和編程”,就可以看到Grok 3和Gemini 2.0的排名會(huì)比較高一些:

圖片

你也可以選擇一個(gè)特定的大模型,來(lái)看它的優(yōu)點(diǎn)缺點(diǎn)

圖片

例如我們pick一下DeepSeek V3,比較亮的區(qū)域是它擅長(zhǎng)的領(lǐng)域,而相對(duì)較暗的區(qū)域則是它不擅長(zhǎng)的領(lǐng)域:

圖片

當(dāng)然,你也可以通過(guò)對(duì)話的方式,跟P2L Router這個(gè)AI咨詢一下。

在給到Prompt的一瞬間,P2L Router就會(huì)自動(dòng)選擇最佳模型來(lái)回答問(wèn)題:

圖片

嗯,確實(shí)是有點(diǎn)方便在身上的。

官方放出的完整演示是這樣的:

如此排名,靠譜嗎?

雖然但是,網(wǎng)友在看完競(jìng)技場(chǎng)的新功能之后,提出了這樣的問(wèn)題:

想法很有趣!但它實(shí)際排名怎么樣呢?你們有沒(méi)有反饋機(jī)制來(lái)優(yōu)化這個(gè)模型呀?

圖片

競(jìng)技場(chǎng)官方回答:看看我們的論文吧!

圖片

這篇論文的名字非常簡(jiǎn)單粗暴,就叫Prompt to Leaderboard,用于評(píng)估大型語(yǔ)言模型在特定提示下的表現(xiàn)。

至于為什么要這么做,是因?yàn)閳F(tuán)隊(duì)認(rèn)為,現(xiàn)有的LLM評(píng)估方法(如Chatbot Arena)通過(guò)收集用戶對(duì)模型響應(yīng)的偏好投票,并使用Bradley-Terry (BT) 回歸來(lái)生成一個(gè)全局的排行榜。

然而,這種全局排行榜無(wú)法反映模型在特定任務(wù)或提示下的表現(xiàn)。

例如,如果用戶想要找到最適合SQL查詢的模型,全局排行榜可能不適用,因?yàn)镾QL查詢只占所有提交的0.6%,對(duì)全局排名的影響很小。

而P2L的核心思想是訓(xùn)練一個(gè)LLM,輸入自然語(yǔ)言提示,輸出一個(gè)Bradley-Terry(BT)系數(shù)向量,用于預(yù)測(cè)人類偏好投票。

如此一來(lái),就可以為每個(gè)提示生成一個(gè)特定的排行榜。

圖片

P2L的核心方法,是基于BT模型,根據(jù)提示和模型對(duì)來(lái)建模投票情況,通過(guò)訓(xùn)練語(yǔ)言模型輸出BT系數(shù)來(lái)近似未知的θ*,從而得到每個(gè)提示下的模型排行榜。

與邊際BT回歸相比,P2L考慮了提示對(duì)模型性能的影響,能更準(zhǔn)確地評(píng)估模型。

圖片

聚合排行榜方面,P2L通過(guò)Tower屬性分解勝率,利用模擬數(shù)據(jù)生成過(guò)程和擬合BT模型的方法來(lái)聚合排行榜,且利用二元交叉熵?fù)p失的線性性質(zhì)提高計(jì)算效率。

圖片

基于P2L推導(dǎo)最優(yōu)Router,則是分別從最大化勝率和最大化BT系數(shù)兩種角度定義最優(yōu)Router,并證明在BT模型下二者的優(yōu)化問(wèn)題等價(jià)。通過(guò)求解線性規(guī)劃問(wèn)題可得到最優(yōu)Router策略,且能估計(jì)Router在排行榜上的位置。

圖片

實(shí)驗(yàn)表明,P2L在預(yù)測(cè)人類偏好方面優(yōu)于傳統(tǒng)的全局排行榜方法,尤其是在模型和數(shù)據(jù)集規(guī)模增加時(shí),P2L的表現(xiàn)顯著提升。

在Chatbot Arena上的測(cè)試中,基于P2L的Router在2025年1月的排行榜上獲得了第一名,比之前的頂級(jí)模型(Gemini-exp-1206)提高了25分。

體驗(yàn)地址放下面了,感興趣的小伙伴可以試試哦~

體驗(yàn)地址:https://lmarena.ai/?p2l

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-05-31 14:23:15

2012-05-31 14:20:14

2024-05-20 15:25:47

2025-04-02 09:21:00

DeepSeekAI開源

2025-04-18 10:43:23

2024-06-20 14:04:17

2025-08-25 09:07:00

2025-02-06 12:10:00

2013-09-12 11:17:02

2024-07-24 12:40:44

2025-04-14 09:06:00

2024-06-24 12:25:22

2025-07-03 14:57:51

DeepSeek模型AI

2024-10-16 15:07:57

2025-05-06 01:45:00

大模型Llama4版本

2024-08-08 13:03:46

2024-09-02 08:30:00

大模型AI

2025-02-18 15:09:07

2014-10-31 15:43:02

華為智慧
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

麻豆免费在线| 在线国产情侣| 日本在线视频网| 西野翔中文久久精品字幕| 丁香另类激情小说| 亚洲一区二区精品在线观看| 毛片网站大全| 国产在线美女| 在线播放不卡| 91传媒视频在线播放| 国产97在线亚洲| jlzzjlzz欧美大全| 欧美网色网址| 一区二区三区四区国产精品| 国产91精品高潮白浆喷水| 日本新janpanese乱熟| 四虎精品在线观看| 国产成人av自拍| 日韩精品在线观看一区二区| 日韩av电影免费在线观看| 美丽的姑娘在线观看免费动漫| 欧美日韩水蜜桃| 亚洲成人精品一区二区| 国产免费亚洲高清| 最后生还者第二季在线观看| 区一区二视频| 亚洲亚洲精品在线观看| 国产91在线播放精品91| 在线一区视频观看| 99在线热播精品免费| 欧美人交a欧美精品| 欧美 国产 小说 另类| 四虎影视在线播放| 日韩午夜在线电影| 亚洲国产成人一区| 国产无限制自拍| 欧美一区 二区| 国产一区二区三区视频在线观看 | 成视频年人免费看黄网站| 97se亚洲国产综合自在线 | 欧美精品少妇| 亚洲草久电影| h片在线观看| 日日躁夜夜躁aaaabbbb| 亚洲一二三区视频| 亚洲综合色自拍一区| 国产aⅴ精品一区二区三区黄| 91国内在线| 99久久夜色精品国产网站| 日本精品免费视频| 丁香婷婷成人| 欧美熟乱第一页| 国产精品www在线观看| 一区二区导航| 日韩精品一区二区在线观看| 无码日本精品xxxxxxxxx| 日本午夜精品久久久| 久久久久久亚洲精品| 国产视频精品久久| 成人一区二区三区中文字幕| 成年丰满熟妇午夜免费视频| 精品99久久| 国产美女主播一区| 亚洲黄色大片| 欧美精品videossex88| 日韩激情啪啪| 91麻豆国产语对白在线观看| 在线最新版中文在线| 亚洲国产wwwccc36天堂| 在线看a视频| 99麻豆久久久国产精品免费| 日本成人中文字幕在线| 亚洲人成亚洲人成在线观看图片| 日韩欧美在线一区二区| 激情亚洲综合在线| 91夜夜揉人人捏人人添红杏| 在线精品一区| 国产青草视频在线观看| 国产欧美日韩综合精品一区二区| 国产精品免费一区二区| 国产精品3区| 日韩久久久久久| 日韩免费va| 欧美色图一区二区三区| www.xxx亚洲| 婷婷国产v国产偷v亚洲高清| 啊啊啊一区二区| 午夜在线视频观看日韩17c| 欧美日韩爱爱视频| 国产一区二区三区四区| 麻豆一区二区在线观看| 午夜影院免费在线| 欧美日韩中国免费专区在线看| 久久精品免费一区二区| 亚洲你懂的在线视频| 日本香蕉视频在线观看| 亚洲三级电影网站| 午夜成年人在线免费视频| 欧美黑人性视频| 欧美a视频在线| 亚洲精品国产精品久久清纯直播| 在线免费91| 中文字幕av一区二区三区谷原希美| 欧美孕妇孕交xxⅹ孕妇交| 国产欧美精品一区| 福利在线视频导航| 久久五月情影视| 亚洲欧美日韩国产一区| 四虎最新地址发布| 亚洲欧美在线视频观看| 拔插拔插海外华人免费| 亚洲午夜久久久久久久久电影院 | 国产亚洲精品美女久久久| 成人无号精品一区二区三区| 久久久久久久久久伊人| 狠狠躁夜夜躁人人爽天天天天97| 一区二区三区视频在线观看免费| 色狠狠色噜噜噜综合网| 亚洲第一se情网站| 久久夜精品va视频免费观看| 在线亚洲一区| 超碰在线公开免费| 亚洲综合网站在线观看| caoprom在线| 999在线免费观看视频| 999久久久91| 国产精国产精品| 国内成人精品| 91精品国产91久久久久麻豆 主演| 色乱码一区二区三区88| 1204国产成人精品视频| www.一区二区.com| 欧美videossexotv100| 日韩在线播放一区| 久久精品国产精品| 国产精品99久久久久久董美香 | 99视频免费播放| 色综合天天综合色综合av| 蜜臀久久99精品久久久无需会员| 亚洲在线播放电影| 性色一区二区三区| 三级黄视频在线观看| 国产精品91久久久| www国产成人免费观看视频 深夜成人网| 日韩欧美国产中文字幕| 伊人免费在线| 欧美激情一区二区三区在线视频观看| 亚洲最大的免费视频网站| 久久色在线观看| 久久久久免费av| 国产成人看片| 《视频一区视频二区| 日韩伦理一区二区| 久久av高潮av| 深夜福利一区二区| 国产精区一区二区| cao在线观看| 国产午夜精品视频| 国产乱子伦一区二区三区国色天香| 丰满人妻中伦妇伦精品app| 亚洲男女性事视频| 视频国产精品| 国产精品一区二区久久| 亚洲欧美日韩人成在线播放| 福利电影一区 | 欧美黄色三级| 久久99热精品| 久久久夜色精品亚洲| 精品伦理一区二区| 色就色 综合激情| 亚洲精品一二三区区别| 亚洲欧洲日本国产| 国产婷婷色一区二区三区| 男操女在线观看| 成人写真福利网| 国产一区三区三区| 黄色网址三级| 国产精品jizz在线观看麻豆| 老司机一区二区三区| 男人舔女人下面高潮视频| 色综合久久久888| 亚洲精品久久久久久国产精华液 | 精品日韩在线一区| 国内成人自拍视频| 国产乱码精品一区二区三区亚洲人 | 欧美伦理在线视频| 最新国产在线观看| 成人免费在线视频播放| 欧美激情亚洲激情| 欧美性色19p| 亚洲男男gay视频| 久久亚洲电影天堂| 91精品国产全国免费观看| 8av国产精品爽爽ⅴa在线观看 | 男人的j进女人的j一区| 任我爽在线视频精品一| 欧美精品粉嫩高潮一区二区| 黄网站在线免费| 性欧美亚洲xxxx乳在线观看| 日本伊人午夜精品|