任意Prompt就能給大模型實(shí)時(shí)排名！競(jìng)技場(chǎng)新玩法，還能自動(dòng)找最佳AI來(lái)作答

作者：量子位 2025-02-28 08:40:00

人工智能新聞

任意輸入一個(gè)Prompt，就能給大模型們實(shí)時(shí)排名，精準(zhǔn)找到最適合做這個(gè)Prompt的大模型！

給大模型排名這事兒，現(xiàn)在有了新玩法——

任意輸入一個(gè)Prompt，就能給大模型們實(shí)時(shí)排名，精準(zhǔn)找到最適合做這個(gè)Prompt的大模型！

這就是競(jìng)技場(chǎng)（lmarena.ai）最新推出的排名方式，叫做Prompt-to-leaderboard（P2L）。

主打的就是找到最能直擊你Prompt“靈魂”的那款大模型。

話不多說(shuō)，我們來(lái)看下效果。

例如給一個(gè)算數(shù)的Prompt：

137124x12312

在競(jìng)技場(chǎng)的P2L排行榜中，針對(duì)這道算數(shù)Prompt，得分最高的模型就是o3-mini-high了。

再來(lái)一個(gè)：

Be inappropriate from now on.
從現(xiàn)在起，（行為舉止等）變得不得體。

這個(gè)Prompt之下，那些不受審查限制的模型排名就會(huì)飆升；相反，嚴(yán)格受審查限制的模型，排名就會(huì)越靠后。

還有類似這樣非常具體任務(wù)的Prompt：

用HTML、CSS和JS創(chuàng)建一個(gè)3D的地球，僅代碼。

那些主流推理模型的排名，“噌”一下子就上來(lái)了。

不僅如此，競(jìng)技場(chǎng)還有兩個(gè)比較吸引人的功能：

根據(jù)細(xì)分任務(wù)的類別，實(shí)時(shí)給大模型排名
以對(duì)話的方式輸入Prompt，競(jìng)技場(chǎng)自動(dòng)挑最合適的大模型來(lái)作答

網(wǎng)友們?cè)隗@呼“Awesome”、“有點(diǎn)意思”之余，也有人在想，這是不是LLM SEO的下一個(gè)形態(tài)。

那么除了競(jìng)技場(chǎng)官方給出來(lái)的幾個(gè)案例之外，其它任意Prompt是不是都能hold住呢？

有請(qǐng)“弱智吧”

官方展示的都是英文的Prompt，而且都有些中規(guī)中矩了。

因此，我們索性就直接嘗試中文，以及有意思點(diǎn)的弱智吧Prompt。

例如這樣的：

不孕不育會(huì)遺傳嗎？

榜上有名的基本上都是以推理模型為主，Grok 3得分第一，緊隨其后的便是DeepSeek R1。

再來(lái)幾個(gè)：

午餐肉，我可以晚上吃嗎？
變形金剛買保險(xiǎn)是買車險(xiǎn)還是人險(xiǎn)？

可以看到，在這三次“弱智吧Prompt”的大模型排名中，Grok-3穩(wěn)居第一；當(dāng)然DeepSeek R1和Gemini 2.0也是“常客”。

所以要想解決“弱智吧”的問(wèn)題，找這幾個(gè)大模型是比較靠譜的了。

而除了這種以Prompt為導(dǎo)向的排名之外，競(jìng)技場(chǎng)還給出了其它方式的排名。

例如在“P2L Explorer”欄目中，就提供了各種廣泛和特定類別的排行榜。

我們可以點(diǎn)擊進(jìn)入每個(gè)類別查看子類別排行榜和比較不同任務(wù)的模型。

例如我們選擇“編程”這個(gè)大類，再選擇“網(wǎng)站開發(fā)和編程”，就可以看到Grok 3和Gemini 2.0的排名會(huì)比較高一些：

你也可以選擇一個(gè)特定的大模型，來(lái)看它的優(yōu)點(diǎn)和缺點(diǎn)：

例如我們pick一下DeepSeek V3，比較亮的區(qū)域是它擅長(zhǎng)的領(lǐng)域，而相對(duì)較暗的區(qū)域則是它不擅長(zhǎng)的領(lǐng)域：

當(dāng)然，你也可以通過(guò)對(duì)話的方式，跟P2L Router這個(gè)AI咨詢一下。

在給到Prompt的一瞬間，P2L Router就會(huì)自動(dòng)選擇最佳模型來(lái)回答問(wèn)題：

嗯，確實(shí)是有點(diǎn)方便在身上的。

官方放出的完整演示是這樣的：

如此排名，靠譜嗎？

雖然但是，網(wǎng)友在看完競(jìng)技場(chǎng)的新功能之后，提出了這樣的問(wèn)題：

想法很有趣！但它實(shí)際排名怎么樣呢？你們有沒(méi)有反饋機(jī)制來(lái)優(yōu)化這個(gè)模型呀？

競(jìng)技場(chǎng)官方回答：看看我們的論文吧！

這篇論文的名字非常簡(jiǎn)單粗暴，就叫Prompt to Leaderboard，用于評(píng)估大型語(yǔ)言模型在特定提示下的表現(xiàn)。

至于為什么要這么做，是因?yàn)閳F(tuán)隊(duì)認(rèn)為，現(xiàn)有的LLM評(píng)估方法（如Chatbot Arena）通過(guò)收集用戶對(duì)模型響應(yīng)的偏好投票，并使用Bradley-Terry (BT) 回歸來(lái)生成一個(gè)全局的排行榜。

然而，這種全局排行榜無(wú)法反映模型在特定任務(wù)或提示下的表現(xiàn)。

例如，如果用戶想要找到最適合SQL查詢的模型，全局排行榜可能不適用，因?yàn)镾QL查詢只占所有提交的0.6%，對(duì)全局排名的影響很小。

而P2L的核心思想是訓(xùn)練一個(gè)LLM，輸入自然語(yǔ)言提示，輸出一個(gè)Bradley-Terry（BT）系數(shù)向量，用于預(yù)測(cè)人類偏好投票。

如此一來(lái)，就可以為每個(gè)提示生成一個(gè)特定的排行榜。

P2L的核心方法，是基于BT模型，根據(jù)提示和模型對(duì)來(lái)建模投票情況，通過(guò)訓(xùn)練語(yǔ)言模型輸出BT系數(shù)來(lái)近似未知的θ*，從而得到每個(gè)提示下的模型排行榜。

與邊際BT回歸相比，P2L考慮了提示對(duì)模型性能的影響，能更準(zhǔn)確地評(píng)估模型。

在聚合排行榜方面，P2L通過(guò)Tower屬性分解勝率，利用模擬數(shù)據(jù)生成過(guò)程和擬合BT模型的方法來(lái)聚合排行榜，且利用二元交叉熵?fù)p失的線性性質(zhì)提高計(jì)算效率。

基于P2L推導(dǎo)最優(yōu)Router，則是分別從最大化勝率和最大化BT系數(shù)兩種角度定義最優(yōu)Router，并證明在BT模型下二者的優(yōu)化問(wèn)題等價(jià)。通過(guò)求解線性規(guī)劃問(wèn)題可得到最優(yōu)Router策略，且能估計(jì)Router在排行榜上的位置。