国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

無需OpenAI數(shù)據(jù),躋身代碼大模型榜單!UIUC發(fā)布StarCoder-15B-Instruct

人工智能 新聞
通過StarCoder2-15B生成數(shù)千個(gè)指令-響應(yīng)對,直接對StarCoder-15B基座模型進(jìn)行微調(diào),無需依賴昂貴的人工標(biāo)注數(shù)據(jù),也無需從GPT4等商業(yè)大模型中獲取數(shù)據(jù),StarCoder2-15B-Instruct成功擠進(jìn)HumanEval榜單。

在軟件技術(shù)的前沿,UIUC張令明組攜手BigCode組織的研究者,近日公布了StarCoder2-15B-Instruct代碼大模型。

這一創(chuàng)新成果在代碼生成任務(wù)取得了顯著突破,成功超越CodeLlama-70B-Instruct,登上代碼生成性能榜單之巔。

StarCoder2-15B-Instruct的獨(dú)特之處在于其純自對齊策略,整個(gè)訓(xùn)練流程公開透明,且完全自主可控。

該模型通過StarCoder2-15B生成數(shù)千個(gè)指令-響應(yīng)對,直接對StarCoder-15B基座模型進(jìn)行微調(diào),無需依賴昂貴的人工標(biāo)注數(shù)據(jù),也無需從GPT4等商業(yè)大模型中獲取數(shù)據(jù),避免了潛在的版權(quán)問題。

在HumanEval測試中,StarCoder2-15B-Instruct以72.6%的Pass@1成績脫穎而出,較CodeLlama-70B-Instruct的72.0%有所提升。

更為令人矚目的是,在LiveCodeBench數(shù)據(jù)集的評估中,這一自對齊模型的表現(xiàn)甚至超越了基于GPT-4生成數(shù)據(jù)訓(xùn)練的同類模型。這一成果證明了,通過自身分布內(nèi)的數(shù)據(jù),大模型同樣能夠有效地學(xué)習(xí)如何與人類偏好對齊,而無需依賴外部教師大模型的偏移分布。

該項(xiàng)目的成功實(shí)施得到了美國東北大學(xué)Arjun Guha課題組、加州大學(xué)伯克利分校、ServiceNow和Hugging Face等機(jī)構(gòu)的鼎力支持。

技術(shù)揭秘

StarCoder2-Instruct的數(shù)據(jù)生成流程主要包括三個(gè)核心步驟:

1. 種子代碼片段的采集:團(tuán)隊(duì)從The Stack v1中篩選出高質(zhì)量、多樣化的種子函數(shù),這些函數(shù)來自海量的獲得許可的源代碼語料庫。通過嚴(yán)格的過濾和篩選,確保了種子代碼的質(zhì)量和多樣性;

2. 多樣化指令的生成:基于種子函數(shù)中的不同編程概念,StarCoder2-15B-Instruct能夠創(chuàng)建出多樣化且真實(shí)的代碼指令。這些指令涵蓋了從數(shù)據(jù)反序列化到列表連接、遞歸等豐富的編程場景;

3. 高質(zhì)量響應(yīng)的生成:對于每個(gè)指令,模型采用編譯運(yùn)行引導(dǎo)的自我驗(yàn)證方式,確保生成的響應(yīng)是準(zhǔn)確且高質(zhì)量的。

每個(gè)步驟的具體操作如下:

精選種子代碼片段的過程

為了提升代碼模型在遵循指令方面的能力,模型需要廣泛接觸和學(xué)習(xí)不同的編程原理與實(shí)際操作。StarCoder2-15B-Instruct受到OSS-Instruct的啟發(fā),從開源代碼片段中汲取靈感,尤其是The Stack V1中那些格式規(guī)范、結(jié)構(gòu)清晰的Python種子函數(shù)。

在構(gòu)建其基礎(chǔ)數(shù)據(jù)集時(shí),StarCoder2-15B-Instruct對The Stack V1進(jìn)行了深度挖掘,選取了所有配備文檔說明的Python函數(shù),并借助autoimport功能自動分析并推斷了這些函數(shù)所需的依賴項(xiàng)。

為了確保數(shù)據(jù)集的純凈性和高質(zhì)量,StarCoder2-15B-Instruct對所有選取的函數(shù)進(jìn)行了精細(xì)的過濾和篩選。

首先,通過Pyright類型檢查器進(jìn)行嚴(yán)格的類型檢查,排除了所有可能產(chǎn)生靜態(tài)錯(cuò)誤的函數(shù),從而保證了數(shù)據(jù)的準(zhǔn)確性和可靠性。

接著,通過精確的字符串匹配技術(shù),識別和剔除了與評估數(shù)據(jù)集存在潛在關(guān)聯(lián)的代碼和提示,以避免數(shù)據(jù)污染。在文檔質(zhì)量方面,StarCoder2-15B-Instruct更是采用了獨(dú)特的篩選機(jī)制。

它利用自身的評估能力,通過向模型展示7個(gè)樣本提示,讓模型自行判斷每個(gè)函數(shù)的文檔質(zhì)量是否達(dá)標(biāo),從而決定是否將其納入最終的數(shù)據(jù)集。

這種基于模型自我判斷的方法,不僅提高了數(shù)據(jù)篩選的效率和準(zhǔn)確性,也確保了數(shù)據(jù)集的高質(zhì)量和一致性。

最后,為了避免數(shù)據(jù)冗余和重復(fù),StarCoder2-15B-Instruct采用了MinHash和局部敏感哈希算法,對數(shù)據(jù)集中的函數(shù)進(jìn)行了去重處理。通過設(shè)定0.5的Jaccard相似度閾值,有效去除了相似度較高的重復(fù)函數(shù),確保了數(shù)據(jù)集的獨(dú)特性和多樣性。

經(jīng)過這一系列的精細(xì)篩選和過濾,StarCoder2-15B-Instruct最終從500萬個(gè)帶有文檔的Python函數(shù)中,精選出了25萬個(gè)高質(zhì)量的函數(shù)作為其種子數(shù)據(jù)集。這一方法深受MultiPL-T數(shù)據(jù)收集流程的啟發(fā)。

多樣化指令的生成

當(dāng)StarCoder2-15B-Instruct完成了種子函數(shù)的收集后,它運(yùn)用了Self-OSS-Instruct技術(shù)來創(chuàng)造多樣化的編程指令。這一技術(shù)的核心在于通過上下文學(xué)習(xí),讓StarCoder2-15B基座模型能夠自主地為給定的種子代碼片段生成相應(yīng)的指令。

為實(shí)現(xiàn)這一目標(biāo),StarCoder2-15B-Instruct精心設(shè)計(jì)了16個(gè)范例,每個(gè)范例都遵循(代碼片段,概念,指令)的結(jié)構(gòu)。指令的生成過程被細(xì)分為兩個(gè)階段:

代碼概念識別:在這一階段,StarCoder2-15B會針對每一個(gè)種子函數(shù)進(jìn)行深入分析,并生成一個(gè)包含該函數(shù)中關(guān)鍵代碼概念的列表。這些概念廣泛涵蓋了編程領(lǐng)域的基本原理和技術(shù),如模式匹配、數(shù)據(jù)類型轉(zhuǎn)換等,這些對于開發(fā)者而言具有極高的實(shí)用價(jià)值。

指令創(chuàng)建:基于識別出的代碼概念,StarCoder2-15B會進(jìn)一步生成與之對應(yīng)的編碼任務(wù)指令。這一過程旨在確保生成的指令能夠準(zhǔn)確地反映代碼片段的核心功能和要求。

通過上述流程,StarCoder2-15B-Instruct最終成功生成了高達(dá)238k個(gè)指令,極大地豐富了其訓(xùn)練數(shù)據(jù)集,并為其在編程任務(wù)中的表現(xiàn)提供了強(qiáng)有力的支持。

響應(yīng)的自我驗(yàn)證機(jī)制

在獲取Self-OSS-Instruct生成的指令后,StarCoder2-15B-Instruct的關(guān)鍵任務(wù)是為每個(gè)指令匹配高質(zhì)量的響應(yīng)。

傳統(tǒng)上,人們傾向于依賴如GPT-4等更強(qiáng)大的教師模型來獲取這些響應(yīng),但這種方式不僅可能面臨版權(quán)許可的難題,而且外部模型并非總是觸手可及或準(zhǔn)確無誤。更重要的是,依賴外部模型可能引入教師與學(xué)生之間的分布差異,這可能會影響到最終結(jié)果的準(zhǔn)確性。

為了克服這些挑戰(zhàn),StarCoder2-15B-Instruct引入了一種自我驗(yàn)證機(jī)制。這一機(jī)制的核心思想是,讓StarCoder2-15B模型在生成自然語言響應(yīng)后,自行創(chuàng)建對應(yīng)的測試用例。這一過程類似于開發(fā)人員編寫代碼后的自測流程。

具體而言,對于每一個(gè)指令,StarCoder2-15B會生成10個(gè)包含自然語言響應(yīng)和對應(yīng)測試用例的樣本。隨后,StarCoder2-15B-Instruct會在一個(gè)沙盒環(huán)境中執(zhí)行這些測試用例,以驗(yàn)證響應(yīng)的有效性。任何在執(zhí)行測試中失敗的樣本都會被過濾掉。

經(jīng)過這一嚴(yán)格的篩選過程,StarCoder2-15B-Instruct會從每個(gè)指令的通過測試的響應(yīng)中隨機(jī)選取一個(gè),加入最終的SFT數(shù)據(jù)集。整個(gè)過程中,StarCoder2-15B-Instruct為238k個(gè)指令生成了總計(jì)240萬個(gè)響應(yīng)樣本(每個(gè)指令10個(gè)樣本)。在采用0.7的采樣策略后,有50萬個(gè)樣本成功通過了執(zhí)行測試。

為了確保數(shù)據(jù)集的多樣性和質(zhì)量,StarCoder2-15B-Instruct還進(jìn)行了去重處理。最終,剩下5萬個(gè)指令,每個(gè)指令都配有一個(gè)隨機(jī)選取的、經(jīng)過測試驗(yàn)證的高質(zhì)量響應(yīng)。這些響應(yīng)構(gòu)成了StarCoder2-15B-Instruct最終的SFT數(shù)據(jù)集,為模型的后續(xù)訓(xùn)練和應(yīng)用提供了堅(jiān)實(shí)的基礎(chǔ)。

StarCoder2-15B-Instruct的卓越表現(xiàn)與全面評估

在備受矚目的EvalPlus基準(zhǔn)測試中,StarCoder2-15B-Instruct憑借其規(guī)模化優(yōu)勢,成功脫穎而出,成為表現(xiàn)最出色的自主可控大型模型。

它不僅超越了規(guī)模更大的Grok-1 Command-R+和DBRX,還與Snowflake Arctic 480B和Mixtral-8x22B-Instruct等業(yè)界翹楚性能相當(dāng)。

值得一提的是,StarCoder2-15B-Instruct是首個(gè)在HumanEval基準(zhǔn)上達(dá)到70+得分的自主代碼大模型,其訓(xùn)練過程完全透明,數(shù)據(jù)和方法的使用均符合法律法規(guī)。

在自主可控代碼大模型領(lǐng)域,StarCoder2-15B-Instruct顯著超越了之前的佼佼者OctoCoder,證明了其在該領(lǐng)域的領(lǐng)先地位。

即便與擁有限制性許可的大型強(qiáng)力模型如Gemini Pro和Mistral Large相比,StarCoder2-15B-Instruct依然展現(xiàn)出卓越的性能,并與CodeLlama-70B-Instruct平分秋色。更令人矚目的是,StarCoder2-15B-Instruct完全依賴于自生成數(shù)據(jù)進(jìn)行訓(xùn)練,其性能卻能與基于GPT-3.5/4數(shù)據(jù)微調(diào)的OpenCodeInterpreter-SC2-15B相媲美。

除了EvalPlus基準(zhǔn)測試,StarCoder2-15B-Instruct在LiveCodeBench和DS-1000等評估平臺上也展現(xiàn)出了強(qiáng)大的實(shí)力。

LiveCodeBench專注于評估2023年9月1日之后出現(xiàn)的編碼挑戰(zhàn),而StarCoder2-15B-Instruct在該基準(zhǔn)測試中取得了最優(yōu)成績,并且始終領(lǐng)先于使用GPT-4數(shù)據(jù)進(jìn)行微調(diào)的OpenCodeInterpreter-SC2-15B

盡管DS-1000專注于數(shù)據(jù)科學(xué)任務(wù),StarCoder2-15B-Instruct在訓(xùn)練數(shù)據(jù)中涉及的數(shù)據(jù)科學(xué)問題相對較少,但其在該基準(zhǔn)測試中的表現(xiàn)依然強(qiáng)勁,顯示出廣泛的適應(yīng)性和競爭力。

StarCoder2-15B-Instruct-v0.1的突破與啟示

StarCoder2-15B-Instruct-v0.1的發(fā)布,標(biāo)志著研究者們在代碼模型自我調(diào)優(yōu)領(lǐng)域邁出了重要一步。這款模型的成功實(shí)踐,打破了以往必須依賴如GPT-4等強(qiáng)大外部教師模型的限制,展示了通過自我調(diào)優(yōu)同樣能夠構(gòu)建出性能卓越的代碼模型。

StarCoder2-15B-Instruct-v0.1的核心在于其自我對齊策略在代碼學(xué)習(xí)領(lǐng)域的成功應(yīng)用。這一策略不僅提升了模型的性能,更重要的是,它賦予了模型更高的透明度和可解釋性。這一點(diǎn)與Snowflake-Arctic、Grok-1、Mixtral-8x22B、DBRX和CommandR+等其他大型模型形成了鮮明對比,這些模型雖然強(qiáng)大,但往往因缺乏透明度而限制了其應(yīng)用范圍和可信賴度。

更令人欣喜的是,StarCoder2-15B-Instruct-v0.1已經(jīng)將其數(shù)據(jù)集和整個(gè)訓(xùn)練流程——包括數(shù)據(jù)收集和訓(xùn)練過程——完全開源。這一舉措不僅彰顯了研究者的開放精神,也為未來該領(lǐng)域的研究和發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。

有理由相信,StarCoder2-15B-Instruct-v0.1的成功實(shí)踐將激發(fā)更多研究者投入到代碼模型自我調(diào)優(yōu)領(lǐng)域的研究中,推動該領(lǐng)域的技術(shù)進(jìn)步和應(yīng)用拓展。同時(shí),也期待這一領(lǐng)域的更多創(chuàng)新成果能夠不斷涌現(xiàn),為人類社會的智能化發(fā)展注入新的動力。

作者簡介

UIUC的張令明老師是一位在軟件工程、程序語言和機(jī)器學(xué)習(xí)交叉領(lǐng)域具有深厚造詣的學(xué)者。他領(lǐng)導(dǎo)的課題組長期致力于基于AI大模型的自動軟件合成、修復(fù)和驗(yàn)證研究,以及機(jī)器學(xué)習(xí)系統(tǒng)的可靠性提升。

近期,團(tuán)隊(duì)發(fā)布了多個(gè)創(chuàng)新性的代碼大模型和測試基準(zhǔn)數(shù)據(jù)集,并率先提出了一系列基于大模型的軟件測試和修復(fù)技術(shù)。同時(shí),在多個(gè)真實(shí)軟件系統(tǒng)中成功挖掘出上千個(gè)新缺陷和漏洞,為提升軟件質(zhì)量做出了顯著貢獻(xiàn)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-03-29 12:43:15

精度代碼模型

2024-10-24 14:30:00

模型數(shù)據(jù)

2023-12-19 13:18:36

AI數(shù)據(jù)

2023-06-07 12:28:47

開源數(shù)據(jù)

2024-01-16 12:10:33

模型數(shù)據(jù)

2024-01-29 09:40:00

AI訓(xùn)練

2025-05-16 09:10:00

2025-09-08 08:50:00

AI模型訓(xùn)練

2023-05-16 20:47:38

2024-02-29 16:35:01

StarCoder2大型語言模型人工智能

2025-04-22 09:06:00

強(qiáng)化學(xué)習(xí)工具AI

2010-01-15 09:43:20

IT企業(yè)騰訊

2023-05-17 10:05:56

2024-11-13 10:05:00

2025-06-13 08:11:11

2025-01-13 10:55:53

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

一区二区三区免费在线看| 99久久综合精品| 亚洲视频在线看| 日韩在线免费播放| 国产精品久久久久久久久动漫 | 麻豆视频在线观看免费网站黄| 一区二区激情小说| 欧美一区二区三区视频在线| 国产日产欧美视频| 国产毛片精品视频| 日韩高清国产精品| 激情婷婷亚洲| 国产精品有限公司| 亚洲视频一二| 国产九色91| 一区二区电影| 国产精品爽爽爽| 日本亚洲不卡| 欧洲中文字幕国产精品| 国内露脸中年夫妇交换精品| 久久av在线播放| 欧美美女被草| 欧美成人精品在线| 日本精品国产| 久久久久久com| 精品福利一区| 久久久久久久久久久成人| 日韩av电影资源网| 国产午夜精品美女视频明星a级| 伊人网在线播放| 日韩精品在线免费观看| 电影一区电影二区| 欧美高清视频免费观看| 成人午夜大片| 91久久综合亚洲鲁鲁五月天| 99精品电影| 99视频在线播放| 免费国产自线拍一欧美视频| 亚洲乱码国产乱码精品天美传媒| 国产激情视频一区二区三区欧美 | 久久人人爽人人爽人人av| 国内精品视频666| 国产在线观看福利| 中文字幕亚洲欧美在线不卡| 亚洲色图16p| 在线不卡一区二区| 国产成人精品123区免费视频| 久久久电影免费观看完整版| 国产成人ay| 九色一区二区| 丁香另类激情小说| 黄色三及免费看| 欧美日韩国产一二三| 少妇视频在线观看| 欧洲亚洲在线视频| 日韩香蕉视频| 久久久天堂国产精品| 国产视频一区二区在线| 天堂在线第六区| 日韩精品一区二区三区四区| 精品一区二区三区中文字幕| 国产成人小视频在线观看| 麻豆成人在线| 丝袜制服一区二区三区| 欧美性三三影院| 欧美日韩视频免费观看| 国产精品第一页在线| 国产情侣一区| 国产视频一区二区视频| 日韩欧美在线第一页| 精品成人av| 成人日韩在线电影| 国产成人精品免费视频网站| 美女免费免费看网站| 亚洲电影天堂av | 一区二区三区福利| 99久久国产宗和精品1上映| 一本色道亚洲精品aⅴ| 亚洲成av在线| 国产精品一区二区av| 99久久婷婷国产| 成人精品一区二区| 欧美精品aaa| 国产欧美日韩一级| 97碰碰碰免费公开在线视频| 欧美精品乱码久久久久久| 国偷自产av一区二区三区| 欧美福利精品| 亚洲视频一区二区免费在线观看| www在线观看黄色| 国产精品爽黄69天堂a| 95精品视频在线| 麻豆成人av| 亚洲精选在线视频| 日本精品不卡| 国产伦视频一区二区三区| 国产欧美日韩精品高清二区综合区| 在线一区高清| 色www精品视频在线观看| 视频一区中文字幕精品| 亚洲人成人77777线观看| 色女孩综合影院| 欧美**字幕| av在线无限看| 中文字幕免费国产精品| 日韩国产欧美在线观看| 国产色在线 com| 国产这里只有精品| 国产精品区一区二区三| 亚洲www免费| 亚洲综合网中心| 欧美一区二区三区视频在线| 久久在线播放| 深夜爽爽视频| 久久久久久久久久久免费| 国产成人自拍在线| 丰乳肥臀在线| 蜜桃臀一区二区三区| 色噜噜夜夜夜综合网| 欧美日韩一区二区综合| 播九公社成人综合网站| 欧美另类69精品久久久久9999| 国产成人精品亚洲日本在线桃色| 新版中文在线官网| 久久精品国产精品国产精品污| 天天综合色天天| sdde在线播放一区二区| 免费看成一片| 国产精品对白刺激| 亚洲成人中文在线| 成人在线一区| 猫咪在线永久网站| 国内精品视频免费| 91精品婷婷国产综合久久 | youjizz国产精品| 日本精品在线一区| 男人c女人视频| 日韩精品免费在线观看| 日本不卡一二三区黄网| 国产在线拍揄自揄拍视频| 麻豆av一区| 精品sm捆绑视频| 国产乱码精品1区2区3区| 第四色男人最爱上成人网| 日韩xxxx视频| 欧美另类极品videosbest最新版本| 国产亚洲女人久久久久毛片| 99精品中文字幕在线不卡 | 久久婷婷色综合| 久久天堂久久| www.亚洲高清| 日韩免费在线播放| 亚洲在线视频一区| 99国产精品一区二区| 久久经典视频| 欧美极品一区二区| 亚洲剧情一区二区| 久久久久国色av免费看影院| 秋霞综合在线视频| 女人天堂在线| 日韩免费中文专区| 日韩中文在线不卡| 中文字幕国产一区| 久久高清精品| 国产剧情在线| 东北少妇不带套对白| 欧美高跟鞋交xxxxhd| 亚洲综合成人在线| 蜜桃伊人久久| 精品一区二区三区亚洲| 色网视频在线| 日韩亚洲视频| 欧美精品videossex88| 日韩欧美中文免费| 国产一区二区在线免费观看| 国产精伦一区二区三区| 中文产幕区在线观看| 亚洲精品乱码久久久久久蜜桃91| 一区二区av在线| 亚洲中国最大av网站| 久久先锋资源| 国产日韩欧美中文在线| 在线影视一区| 少妇高潮流白浆| 国产成人涩涩涩视频在线观看| 精品久久久久久久久久久久久久久久久 | 完全免费av在线播放| 亚洲精品美女久久7777777| 久久久久久久久久久亚洲| 欧美色倩网站大全免费| 99视频一区二区| 精品二区久久| 日本免费一区二区三区等视频| 日本高清好狼色视频| 亚洲国产精品一区在线观看不卡 | 日本伊人精品一区二区三区介绍| 欧美色爱综合网| 国产视频一区在线播放| 影音先锋在线一区| 久久天堂久久|