国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

OpenAI霸榜前二!大模型代碼生成排行榜出爐,70億LLaMA拉跨,被2.5億Codex吊打

人工智能 新聞
國(guó)外計(jì)算機(jī)科學(xué)家自測(cè)LLM代碼生成,結(jié)果竟然是這樣!

最近,Matthias Plappert的一篇推文點(diǎn)燃了LLMs圈的廣泛討論。

圖片

Plappert是一位知名的計(jì)算機(jī)科學(xué)家,他在HumanEval上發(fā)布了自己對(duì)AI圈主流的LLM進(jìn)行的基準(zhǔn)測(cè)試結(jié)果。

他的測(cè)試偏向代碼生成方面。

結(jié)果令人大為不震撼,又大為震撼。

圖片

意料之內(nèi)的是,GPT-4毫無(wú)疑問(wèn)霸榜,摘得第一。

意料之外的是,OpenAI的text-davinci-003異軍突起,拿了個(gè)第二。

Plappert表示,text-davinci-003堪稱一個(gè)「寶藏」模型。

而耳熟能詳?shù)腖LaMA在代碼生成方面卻并不出色。

OpenAI霸榜

Plappert表示,GPT-4的性能表現(xiàn)甚至比文獻(xiàn)中的數(shù)據(jù)還要好。

論文中GPT-4的一輪測(cè)試數(shù)據(jù)是67%的通過(guò)率,而Plappert的測(cè)試則達(dá)到了73%。

圖片

在分析成因時(shí),他表示,數(shù)據(jù)上存在差異有不少可能性。其中之一是他給到GPT-4的prompt要比論文作者測(cè)試的時(shí)候好上那么一些。

另一個(gè)原因是,他猜測(cè)論文在測(cè)試GPT-4的時(shí)候模型的溫度(temperature)不是0。

「溫度」是一個(gè)用于調(diào)整模型生成文本時(shí)創(chuàng)造性和多樣性的參數(shù)。「溫度」是一個(gè)大于0的數(shù)值,通常在 0 到 1 之間。它影響模型生成文本時(shí)采樣預(yù)測(cè)詞匯的概率分布。

當(dāng)模型的「溫度」較高時(shí)(如 0.8、1 或更高),模型會(huì)更傾向于從較多樣且不同的詞匯中選擇,這使得生成的文本風(fēng)險(xiǎn)性更高、創(chuàng)意性更強(qiáng),但也可能產(chǎn)生更多的錯(cuò)誤和不連貫之處。

而當(dāng)「溫度」較低時(shí)(如 0.2、0.3 等),模型主要會(huì)從具有較高概率的詞匯中選擇,從而產(chǎn)生更平穩(wěn)、更連貫的文本。

但此時(shí),生成的文本可能會(huì)顯得過(guò)于保守和重復(fù)。

因此在實(shí)際應(yīng)用中,需要根據(jù)具體需求來(lái)權(quán)衡選擇合適的「溫度」值。

接下來(lái),在點(diǎn)評(píng)text-davinci-003時(shí),Plappert表示這也是OpenAI旗下一個(gè)很能打的模型。

雖然不比GPT-4,但是一輪測(cè)試有62%的通過(guò)率還是能穩(wěn)穩(wěn)拿下第二名的寶座。

Plappert強(qiáng)調(diào),text-davinci-003最好的一點(diǎn)是,用戶不需要使用ChatGPT的API。這意味著給prompt的時(shí)候能簡(jiǎn)單一點(diǎn)。

圖片

此外,Plappert也給予了Anthropic AI的claude-instant模型比較高的評(píng)價(jià)。

他認(rèn)為這個(gè)模型的性能不錯(cuò),比GPT-3.5能打。GPT-3.5的通過(guò)率是46%,而claude-instant是54%。

當(dāng)然,Anthropic AI的另一個(gè)LLM——claude,沒(méi)有claude-instant能打,通過(guò)率只有51%。

Plappert表示,測(cè)試兩個(gè)模型用的prompt都一樣,不行就是不行。

圖片

除了這些耳熟能詳?shù)哪P停琍lappert也測(cè)試了不少開(kāi)源的小模型。

Plappert表示,自己能在本地運(yùn)行這些模型,這點(diǎn)還是不錯(cuò)的。

不過(guò)從規(guī)模上看,這些模型顯然沒(méi)有OpenAI和Anthropic AI的模型大,所以硬拿它們對(duì)比有點(diǎn)以大欺小了。

圖片

LLaMA代碼生成?拉胯

當(dāng)然,Plappert對(duì)LLaMA的測(cè)試結(jié)果并不滿意。

從測(cè)試結(jié)果來(lái)看,LLaMA在生成代碼方面表現(xiàn)很差勁。可能是因?yàn)樗麄冊(cè)趶腉itHub收集數(shù)據(jù)時(shí)采用了欠采樣的方法(under-sampling)。

圖片

就算和Codex 2.5B相比,LLaMA的性能也不是個(gè)兒。(通過(guò)率10% vs. 22%)

圖片

最后,他測(cè)試了Replit的3B大小的模型。

他表示,表現(xiàn)還不錯(cuò),但和推特上宣傳的數(shù)據(jù)相比差點(diǎn)意思(通過(guò)率16% vs. 22%)

Plappert認(rèn)為,這可能是因?yàn)樗跍y(cè)試這個(gè)模型時(shí)所用的量化方式讓通過(guò)率掉了幾個(gè)百分比。

圖片

在測(cè)評(píng)的最后,Plappert提到了一個(gè)很有意思的點(diǎn)。

某位用戶在推特上發(fā)現(xiàn),當(dāng)使用Azure平臺(tái)的Completion API(補(bǔ)全API)(而不是Chat API)時(shí),GPT-3.5-turbo的性能表現(xiàn)更好。

Plappert認(rèn)為這種現(xiàn)象具有一定合理性,因?yàn)橥ㄟ^(guò)Chat API輸入prompt可能會(huì)相當(dāng)復(fù)雜。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2020-01-16 15:19:52

APP下載抖音

2023-06-09 12:56:17

AlpacaWizardLMVicuna

2022-06-08 13:50:41

AI專業(yè)排行

2025-11-18 09:13:55

2018-09-18 15:48:03

PythonC++Java

2020-08-13 11:55:33

編程語(yǔ)言JavaPython

2022-08-09 08:29:50

TIOBE編程語(yǔ)言排行榜程序員

2011-11-03 11:02:00

瀏覽器排行榜

2022-12-14 07:28:31

2025-10-30 01:25:00

2025-07-15 09:07:00

2009-08-11 09:27:06

2023-07-22 13:09:51

模型開(kāi)源

2021-05-12 13:56:05

手機(jī)華為蘋(píng)果

2023-06-02 13:55:57

開(kāi)源AI

2013-08-23 09:41:19

2012-03-22 14:18:11

大數(shù)據(jù)

2009-04-09 08:46:02

iphone蘋(píng)果移動(dòng)OS

2025-09-17 10:08:43

2014-12-16 13:05:24

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

欧洲美女7788成人免费视频| 久久久国产精彩视频美女艺术照福利| 中文精品一区二区三区| 韩国精品福利一区二区三区| 色av一区二区| 中国老女人av| 午夜日韩av| 91国产精品91| 深夜成人在线| 在线观看视频一区二区 | av在线首页| 国产精品色哟哟网站| 日韩伦理一区二区三区av在线| 天天久久夜夜| 久久久精品一区二区| 黄污视频在线观看| 欧美色电影在线| 尤物视频在线观看| 亚洲天堂av一区| 五月天婷婷激情视频| 韩国精品一区二区| 欧美日韩在线高清| 欧美日韩网址| 91成人免费观看| 久久久综合色| 无码专区aaaaaa免费视频| 国产一线二线在线观看| 亚洲无线观看| 试看120秒一区二区三区| 日韩精品一区二区三区四区| 亚洲天堂2017| 亚洲成在人线在线播放| 伊人影院综合在线| av电影一区二区| wwwwww欧美| 成人一区二区视频| 免费看毛片的网址| 成人免费黄色大片| 人妻无码一区二区三区四区| 精品一区二区免费| 日本a级片在线观看| 国产一区二区看久久| 一区二区三区视频在线播放| 日韩电影在线观看电影| 日韩精品无码一区二区三区| 老牛国产精品一区的观看方式| 久久国产精品久久| 亚洲永久网站| 午夜精品一区二区在线观看| 天堂影院一区二区| 少妇熟女一区二区| 成人午夜激情在线| 欧美三级一级片| 日本一区二区三区国色天香| 免费看a级黄色片| 亚洲国产精品二十页| 369你懂的电影天堂| 亚洲一二三专区| 9色在线视频| 亚洲精品国产品国语在线| 精品国产第一福利网站| 色噜噜狠狠狠综合曰曰曰| 91精品国产自产在线丝袜啪| 欧美在线影院在线视频| 欧美a级成人淫片免费看| 99精品欧美一区二区三区| 亚洲深夜av| 人妻夜夜添夜夜无码av| 国产精品国模大尺度视频| 一区 二区 三区| 欧美一区日韩一区| 日日夜夜亚洲| 成人h片在线播放免费网站| 日韩视频在线一区二区三区 | 欧美日韩在线播放一区二区| 国产在线不卡一卡二卡三卡四卡| 国产黄页在线观看| 亚洲欧美日韩在线| 在线观看美女网站大全免费| 亚洲跨种族黑人xxx| 另类春色校园亚洲| 精品乱码一区二区三区| 国产精品自拍av| 黄色成人av| 精品国产3级a| 天海翼精品一区二区三区| 国产精品国产亚洲精品看不卡15| 国产电影精品久久禁18| 在线观看午夜看亚太视频| 日韩av一区二区在线观看| 麻豆一区二区| 色狠狠久久av五月综合| 亚洲国产精品ⅴa在线观看| jizzjizz在线观看| 久久福利视频导航| 亚洲日韩成人| 台湾十八成人网| 日韩欧美一区二区久久婷婷| 丁香五月缴情综合网| 午夜精品在线观看| 麻豆91精品91久久久的内涵| 精品一区二区中文字幕| 国产91露脸合集magnet| 亚洲一区国产精品| 亚洲一区二区三区四区五区xx| 三级在线观看视频| 欧美刺激午夜性久久久久久久| 国精品产品一区| 96pao国产成视频永久免费| 国产乱码精品一区二区三区五月婷| a视频免费看| 一本色道久久综合狠狠躁篇怎么玩 | 精品亚洲自拍| 国产一区免费在线| 国产精品嫩草久久久久| hd国产人妖ts另类视频| 国产精品视频在线播放| 99麻豆久久久国产精品免费| 国产视频网址在线| 国外成人在线直播| 国产成人在线观看免费网站| 成人综合影院| 国产精品黄视频| 99re在线精品| 91av久久| 精品免费视频123区| 亚洲精品成a人| 国产在线一区不卡| 日韩av一区二区三区在线| 午夜电影网一区| 福利在线一区| 欧美 国产 综合| 亚洲视频在线观看网站| 国产欧美日韩一级| 免费人成在线观看网站| 91av国产在线| 91在线一区二区三区| 中国色在线日|韩| 欧美亚洲一级二级| 色94色欧美sute亚洲13| 欧美第十八页| 可以免费看污视频的网站| 久久中文字幕一区| 播五月开心婷婷综合| 两个人看的在线视频www| 狠狠色伊人亚洲综合网站色| 午夜精品aaa| 欧美色图一区| 91在线九色porny| 国产精品久久中文| 亚洲影院免费观看| 日韩不卡一区| 一二三区在线视频| 成人免费观看网址| 精品国产精品自拍| 91成人国产| 成人动漫在线播放| 精品日产一区2区三区黄免费| 色悠悠久久综合| 尹人成人综合网| 成人区精品一区二区不卡| 免费看国产精品一二区视频| 欧美精品久久久久久久久老牛影院 | 国产伦一区二区三区色一情| 丰满岳妇乱一区二区三区| 欧美中文一区二区| 飘雪影院手机免费高清版在线观看 | 北条麻妃69av| 久久亚洲成人精品| 中文字幕免费观看一区| 在线一区二区三区视频| 天天色综合4| 国产精品一区=区| **欧美日韩在线观看| 国产精品久久久久9999爆乳| 精品国产三级电影在线观看| 国产精品女主播在线观看| 黑人与亚洲人色ⅹvideos| 91久久夜色精品国产网站| 天天亚洲美女在线视频| 你懂的一区二区| 2024最新电影免费在线观看 | 成人妖精视频yjsp地址| 丁香婷婷久久| 伊人久久大香线蕉av一区| 最新亚洲国产精品| 亚洲人成精品久久久久久| 午夜国产精品视频| av毛片午夜不卡高**水| 女人帮男人橹视频播放| 欧美激情综合色综合啪啪五月| 一区二区三区资源| 亚洲福利电影| 日本黄色一区| 佐山爱痴汉视频一区二区三区| 蜜桃视频日韩| 欧美另类在线播放| 欧美在线免费观看亚洲| 国产精品一区二区无线| 风间由美中文字幕在线看视频国产欧美 |