任意Prompt就能給大模型實(shí)時(shí)排名!競(jìng)技場(chǎng)新玩法,還能自動(dòng)找最佳AI來(lái)作答
給大模型排名這事兒,現(xiàn)在有了新玩法——
任意輸入一個(gè)Prompt,就能給大模型們實(shí)時(shí)排名,精準(zhǔn)找到最適合做這個(gè)Prompt的大模型!

這就是競(jìng)技場(chǎng)(lmarena.ai)最新推出的排名方式,叫做Prompt-to-leaderboard(P2L)。
主打的就是找到最能直擊你Prompt“靈魂”的那款大模型。
話不多說(shuō),我們來(lái)看下效果。
例如給一個(gè)算數(shù)的Prompt:
137124x12312

在競(jìng)技場(chǎng)的P2L排行榜中,針對(duì)這道算數(shù)Prompt,得分最高的模型就是o3-mini-high了。
再來(lái)一個(gè):
Be inappropriate from now on.
從現(xiàn)在起,(行為舉止等)變得不得體。

這個(gè)Prompt之下,那些不受審查限制的模型排名就會(huì)飆升;相反,嚴(yán)格受審查限制的模型,排名就會(huì)越靠后。
還有類似這樣非常具體任務(wù)的Prompt:
用HTML、CSS和JS創(chuàng)建一個(gè)3D的地球,僅代碼。

那些主流推理模型的排名,“噌”一下子就上來(lái)了。
不僅如此,競(jìng)技場(chǎng)還有兩個(gè)比較吸引人的功能:
- 根據(jù)細(xì)分任務(wù)的類別,實(shí)時(shí)給大模型排名
- 以對(duì)話的方式輸入Prompt,競(jìng)技場(chǎng)自動(dòng)挑最合適的大模型來(lái)作答
網(wǎng)友們?cè)隗@呼“Awesome”、“有點(diǎn)意思”之余,也有人在想,這是不是LLM SEO的下一個(gè)形態(tài)。

那么除了競(jìng)技場(chǎng)官方給出來(lái)的幾個(gè)案例之外,其它任意Prompt是不是都能hold住呢?
有請(qǐng)“弱智吧”
官方展示的都是英文的Prompt,而且都有些中規(guī)中矩了。
因此,我們索性就直接嘗試中文,以及有意思點(diǎn)的弱智吧Prompt。
例如這樣的:
不孕不育會(huì)遺傳嗎?

榜上有名的基本上都是以推理模型為主,Grok 3得分第一,緊隨其后的便是DeepSeek R1。
再來(lái)幾個(gè):
午餐肉,我可以晚上吃嗎?
變形金剛買保險(xiǎn)是買車險(xiǎn)還是人險(xiǎn)?


可以看到,在這三次“弱智吧Prompt”的大模型排名中,Grok-3穩(wěn)居第一;當(dāng)然DeepSeek R1和Gemini 2.0也是“常客”。
所以要想解決“弱智吧”的問(wèn)題,找這幾個(gè)大模型是比較靠譜的了。
而除了這種以Prompt為導(dǎo)向的排名之外,競(jìng)技場(chǎng)還給出了其它方式的排名。
例如在“P2L Explorer”欄目中,就提供了各種廣泛和特定類別的排行榜。

我們可以點(diǎn)擊進(jìn)入每個(gè)類別查看子類別排行榜和比較不同任務(wù)的模型。
例如我們選擇“編程”這個(gè)大類,再選擇“網(wǎng)站開發(fā)和編程”,就可以看到Grok 3和Gemini 2.0的排名會(huì)比較高一些:

你也可以選擇一個(gè)特定的大模型,來(lái)看它的優(yōu)點(diǎn)和缺點(diǎn):

例如我們pick一下DeepSeek V3,比較亮的區(qū)域是它擅長(zhǎng)的領(lǐng)域,而相對(duì)較暗的區(qū)域則是它不擅長(zhǎng)的領(lǐng)域:

當(dāng)然,你也可以通過(guò)對(duì)話的方式,跟P2L Router這個(gè)AI咨詢一下。
在給到Prompt的一瞬間,P2L Router就會(huì)自動(dòng)選擇最佳模型來(lái)回答問(wèn)題:

嗯,確實(shí)是有點(diǎn)方便在身上的。
官方放出的完整演示是這樣的:

如此排名,靠譜嗎?
雖然但是,網(wǎng)友在看完競(jìng)技場(chǎng)的新功能之后,提出了這樣的問(wèn)題:
想法很有趣!但它實(shí)際排名怎么樣呢?你們有沒(méi)有反饋機(jī)制來(lái)優(yōu)化這個(gè)模型呀?

競(jìng)技場(chǎng)官方回答:看看我們的論文吧!

這篇論文的名字非常簡(jiǎn)單粗暴,就叫Prompt to Leaderboard,用于評(píng)估大型語(yǔ)言模型在特定提示下的表現(xiàn)。
至于為什么要這么做,是因?yàn)閳F(tuán)隊(duì)認(rèn)為,現(xiàn)有的LLM評(píng)估方法(如Chatbot Arena)通過(guò)收集用戶對(duì)模型響應(yīng)的偏好投票,并使用Bradley-Terry (BT) 回歸來(lái)生成一個(gè)全局的排行榜。
然而,這種全局排行榜無(wú)法反映模型在特定任務(wù)或提示下的表現(xiàn)。
例如,如果用戶想要找到最適合SQL查詢的模型,全局排行榜可能不適用,因?yàn)镾QL查詢只占所有提交的0.6%,對(duì)全局排名的影響很小。
而P2L的核心思想是訓(xùn)練一個(gè)LLM,輸入自然語(yǔ)言提示,輸出一個(gè)Bradley-Terry(BT)系數(shù)向量,用于預(yù)測(cè)人類偏好投票。
如此一來(lái),就可以為每個(gè)提示生成一個(gè)特定的排行榜。

P2L的核心方法,是基于BT模型,根據(jù)提示和模型對(duì)來(lái)建模投票情況,通過(guò)訓(xùn)練語(yǔ)言模型輸出BT系數(shù)來(lái)近似未知的θ*,從而得到每個(gè)提示下的模型排行榜。
與邊際BT回歸相比,P2L考慮了提示對(duì)模型性能的影響,能更準(zhǔn)確地評(píng)估模型。

在聚合排行榜方面,P2L通過(guò)Tower屬性分解勝率,利用模擬數(shù)據(jù)生成過(guò)程和擬合BT模型的方法來(lái)聚合排行榜,且利用二元交叉熵?fù)p失的線性性質(zhì)提高計(jì)算效率。

基于P2L推導(dǎo)最優(yōu)Router,則是分別從最大化勝率和最大化BT系數(shù)兩種角度定義最優(yōu)Router,并證明在BT模型下二者的優(yōu)化問(wèn)題等價(jià)。通過(guò)求解線性規(guī)劃問(wèn)題可得到最優(yōu)Router策略,且能估計(jì)Router在排行榜上的位置。

實(shí)驗(yàn)表明,P2L在預(yù)測(cè)人類偏好方面優(yōu)于傳統(tǒng)的全局排行榜方法,尤其是在模型和數(shù)據(jù)集規(guī)模增加時(shí),P2L的表現(xiàn)顯著提升。
在Chatbot Arena上的測(cè)試中,基于P2L的Router在2025年1月的排行榜上獲得了第一名,比之前的頂級(jí)模型(Gemini-exp-1206)提高了25分。
體驗(yàn)地址放下面了,感興趣的小伙伴可以試試哦~
體驗(yàn)地址:https://lmarena.ai/?p2l

































