国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

如何使用小型自動生成的數(shù)據(jù)集訓(xùn)練編碼LLM

譯文
人工智能
本文介紹了WaveCoder模型,該模型可以使用更少示例訓(xùn)練高效的編碼LLM。

譯者 | 李睿

審校 | 重樓

雖然像GPT-4這樣的大型語言模型(LLM)在編寫軟件代碼方面非常精通,但是這些模型的成本和不透明性激發(fā)了人們對更加經(jīng)濟(jì)、規(guī)模更小的編碼LLM的興趣。

這些替代方案可以針對特定任務(wù)進(jìn)行微調(diào),并且成本很低。開發(fā)這些LLM的一大挑戰(zhàn)是在訓(xùn)練數(shù)據(jù)集的大小和模型的性能之間找到最佳平衡點(diǎn)。

針對這一挑戰(zhàn),微軟公司在最近發(fā)表的一篇論文中介紹了一種使用更少示例訓(xùn)練高效編碼語言模型的新技術(shù)。這篇文章介紹了WaveCoder模型,并聲稱優(yōu)于其他在類似數(shù)量的示例上訓(xùn)練的編碼LLM。

作為WaveCoder的補(bǔ)充,微軟公司還開發(fā)了CodeOcean,這是一個包含2萬個不同代碼示例的精選數(shù)據(jù)集。該數(shù)據(jù)集可以增強(qiáng)編碼應(yīng)用的基礎(chǔ)模型的微調(diào)。

選擇正確的編碼示例

圖1 CodeOcean管道圖1 CodeOcean管道

雖然WaveCoder是一個令人印象深刻的LLM模型,但這篇論文中更有趣的部分是CodeOcean,它是一個附帶的數(shù)據(jù)集。CodeOcean解決了一個重大挑戰(zhàn):創(chuàng)建一個平衡成本效益和質(zhì)量的數(shù)據(jù)集。研究人員認(rèn)為一個具有最大多樣性的數(shù)據(jù)集可以產(chǎn)生令人印象深刻的結(jié)果,即使它包含的示例有限。

該研究團(tuán)隊(duì)從CodeSearchNet開始,這是一個包含200萬對注釋和代碼的廣泛編碼數(shù)據(jù)集。他們使用基于BERT的Transformer模型為每個示例生成嵌入,將復(fù)雜信息轉(zhuǎn)換為數(shù)字列表。

他們對嵌入應(yīng)用了一種聚類算法,根據(jù)它們的相似性對示例進(jìn)行排序。這種方法使研究人員能夠從原始數(shù)據(jù)集中提取一個子集,最大限度地提高多樣性。

添加說明

在建立核心數(shù)據(jù)集之后,研究人員必須創(chuàng)建包含代碼和指令的訓(xùn)練示例。為了實(shí)現(xiàn)這一點(diǎn),他們創(chuàng)建了一個生成器-鑒別器框架,用于根據(jù)原始代碼示例生成指導(dǎo)性數(shù)據(jù)。最初,他們使用GPT-4在特定的場景中制作任務(wù)定義。這些初始任務(wù)定義與指導(dǎo)提示相結(jié)合,被提供給GPT-3.5,以生成額外示例的相應(yīng)指令。

圖2 CodeOcean的生成器-鑒別器框架圖2 CodeOcean的生成器-鑒別器框架

對于鑒別器組件,研究人員制定了一個單獨(dú)的評估提示。這個提示以及代碼和指令示例提供給GPT-4進(jìn)行評估。然后,CodeOcean管道使用良好的示例來生成未來的訓(xùn)練示例。

研究人員通過這個迭代過程生成了2萬個高質(zhì)量的教學(xué)樣本。這些示例跨越了四個不同的編碼任務(wù)類別:代碼生成、代碼摘要、語言翻譯(從一種編程語言到另一種編程語言)和代碼修復(fù)。這四個類別包含了LLM編碼任務(wù)的很大一部分。

訓(xùn)練WaveCoder

圖3 WaveCoder優(yōu)于其他在類似數(shù)量的示例上訓(xùn)練的編碼LLM圖3 WaveCoder優(yōu)于其他在類似數(shù)量的示例上訓(xùn)練的編碼LLM

生成用于編碼LLM訓(xùn)練示例有很多方法。但微軟的CodeOcean以強(qiáng)調(diào)泛化和示例效率而與眾不同。與依賴大量數(shù)據(jù)的研究不同,CodeOcean可以使用較小的數(shù)據(jù)集實(shí)現(xiàn)高性能。

為了證明CodeOcean的有效性,研究人員對三種編碼語言模型進(jìn)行了微調(diào):StarCoder-15B、CodeLLaMA(7B和13B)和DeepseekCoder-6.7B。考慮到數(shù)據(jù)集的大小,其微調(diào)既快速又經(jīng)濟(jì)高效。研究人員根據(jù)HumanEval、MBPP和HumanEvalPack這三個關(guān)鍵的編碼基準(zhǔn)對微調(diào)后的模型進(jìn)行了評估。

通過在CodeOcean上進(jìn)行多次訓(xùn)練,所有模型在這些基準(zhǔn)測試上都有了顯著的改進(jìn)。在代碼生成方面,研究人員描述了WaveCoder的影響和局限性:“在微調(diào)過程之后,與基礎(chǔ)模型和一些開源模型相比,WaveCoder模型的性能有了顯著的提高,但它仍然落后于專有模型(例如GPT-4和Gemini),以及使用7萬多個訓(xùn)練數(shù)據(jù)訓(xùn)練的指示模型。”

WaveCoder和WizardCoder之間的性能差異很小,有78000個訓(xùn)練示例。這表明“精細(xì)化和多樣化的指令數(shù)據(jù)可以顯著提高指令調(diào)優(yōu)的效率?!?/span>

WaveCoder在代碼摘要和修復(fù)任務(wù)方面尤為出色。它在幾乎所有編程語言上的表現(xiàn)都優(yōu)于其他開源模型。這一成功強(qiáng)調(diào)了“定義和分類代碼相關(guān)任務(wù)對增強(qiáng)代碼LLM泛化能力的有效性”。

雖然微軟公司尚未發(fā)布WaveCoder和CodeOcean的模型、代碼和數(shù)據(jù),但有關(guān)Hugging Face的討論表明,該公司正在審查是否將它們對外發(fā)布。展望未來,研究人員的目標(biāo)是探索更大數(shù)據(jù)集的效果,以及將CodeOcean與其他編碼數(shù)據(jù)集相結(jié)合的潛在好處。

原文標(biāo)題:How to train coding LLMs with small auto-generated datasets,作者:Ben Dickson

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2024-05-23 12:57:59

2024-06-19 08:14:51

大型語言模型LLMRAG

2025-04-11 02:00:00

模態(tài)編碼器ALIGN視覺語言模型

2025-01-08 15:15:16

2024-07-03 09:38:35

LLM人工智能

2021-09-08 07:44:26

人工智能keras神經(jīng)網(wǎng)絡(luò)

2024-01-24 13:37:36

大型語言模型人工智能

2025-08-24 09:24:07

2023-11-27 09:00:00

GPTQ大型語言模型

2025-02-14 08:18:33

2023-09-27 08:18:03

2024-01-25 09:00:00

DevOps人工智能

2017-11-10 12:45:16

TensorFlowPython神經(jīng)網(wǎng)絡(luò)

2024-09-14 13:50:00

AI訓(xùn)練

2023-12-18 15:54:42

AI 模型

2025-05-30 10:50:27

2009-06-11 09:39:33

netbeans 生成Webservice

2024-12-30 10:35:00

訓(xùn)練數(shù)據(jù)模型

2024-04-18 08:38:15

LLM數(shù)據(jù)訓(xùn)練模型

2019-08-08 14:55:19

電子郵件微軟信頭
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

国产一区二区三区免费在线| 国内精品久久久久久久久电影网| 处破女av一区二区| 国产精品久久久久不卡| 国产秀色在线www免费观看| 国产欧美视频一区二区| 欧美一卡2卡3卡4卡无卡免费观看水多多| 中文成人在线| 91精品国产免费| 国产经典视频一区| 国产精品一区二区x88av| 91成人免费在线观看| 在线成人免费| 日韩一级在线观看| 黄色高清在线观看| 久久久亚洲精品一区二区三区 | 狠狠色综合日日| 国产精品视频男人的天堂 | 1024精品合集| 日本免费a视频| 久久综合九色| 国产精品美女xx| 成人av动漫在线观看| 欧美日韩国产成人| 亚洲精品福利电影| 日韩视频国产视频| chinese偷拍一区二区三区| 亚洲午夜一区二区| 污视频网站免费| 国产日韩欧美精品在线| r级无码视频在线观看| 久久国产精品露脸对白| 久久涩涩网站| 激情自拍一区| av免费观看久久| 综合av在线| 成人在线小视频| 日韩av免费大片| 国产精品高清网站| 欧美少妇性xxxx| 国产精品精品视频一区二区三区| 久久成人福利| 欧洲亚洲免费视频| 亚洲天堂日韩在线| 国产精品久久久久久五月尺| 一本久久青青| 日本成人黄色片| 国产传媒欧美日韩成人精品大片| 78色国产精品| 欧美天堂影院| 国产精品va在线播放| 美女精品一区最新中文字幕一区二区三区 | 久久久久国产精品| 91久久久久久久久久久| 成人亚洲一区| 国产高清在线精品一区二区三区| 欧美色一级片| 天天人人精品| 国产一区二区三区四区五区入口| 一道本在线观看视频| 久草中文综合在线| 成人av一级片| 亚洲欧美日韩国产手机在线| 亚洲52av| 精品国一区二区三区| 你懂得影院夜精品a| 日韩在线观看网站| 欧美日韩看看2015永久免费 | 日本不卡视频一二三区| 一区二区三区四区欧美| av男人天堂一区| 日韩欧美国产片| 亚洲自拍偷拍图区| 无遮挡的视频在线观看 | 绯色av一区| 91成人免费网站| 阿v视频在线| 欧美肥婆姓交大片| 91精品国产自产在线观看永久∴ | 欧美成熟视频| 日本免费高清一区| 国产午夜久久久久| 六十路在线观看| 日韩久久午夜影院| 欧美激情15p| 欧美精品免费观看二区| av午夜一区麻豆| 在线观看一级片| 亚洲精品之草原avav久久| 欧美天堂社区| 亚洲国产精品一区二区第一页| 久久青草国产手机看片福利盒子 | 理论片在线不卡免费观看| 精品在线91| 中日韩在线视频| 一区二区三区四区五区视频在线观看| 中文字幕在线免费| 欧美黑人xxx| 在线视频日韩| 日韩欧美国产片| 欧美v亚洲v综合ⅴ国产v| 精品福利一区| 亚洲国产一区二区三区在线| 亚洲色图欧洲色图婷婷| 高潮在线视频| 成人免费激情视频| 9人人澡人人爽人人精品| 国产黄色片在线观看| 超碰日本道色综合久久综合| 亚洲伦理一区| 白天操夜夜操| 色妞在线综合亚洲欧美| 日本韩国欧美一区二区三区| а√中文在线8| 久久久中文字幕| 国产精品99久久| 亚洲一级片网站| 91蜜桃网址入口| 久操视频在线观看| 亚洲亚洲人成综合网络| 国产在线看片免费视频在线观看| 欧美最近摘花xxxx摘花| 国产一区二区三区久久久 | 91福利国产成人精品照片| 成人久久网站| 精品国产区在线| 亚洲一区二区三区四区不卡| 日韩综合av| 亚洲人成网站在线观看播放| 狠狠色噜噜狠狠狠狠97| a看欧美黄色女同性恋| 国产91porn| 精品三级av在线| 伊人久久亚洲热| 最新在线你懂的| 2019亚洲日韩新视频| 不卡电影一区二区三区| 1区2区3区在线| 激情视频一区二区| 色偷偷一区二区三区| av一区二区高清| 无夜福利视频观看| 98精品在线视频| 久久精品亚洲精品国产欧美kt∨ | 黄色高清在线观看| 久久久久久成人精品| av在线综合网| 久久av影院| 国产精品无码一区二区在线| 亚洲一区二区黄| 国产成人精品网址| 欧美日韩国产网站| 中文字幕一区二区三区四区五区| 国产精品久久久久久久久久ktv| 91亚洲男人天堂| 不卡精品视频| 999精彩视频| 中文字幕欧美精品在线| 精品三级av| 福利视频一二区| 亚洲欧美制服综合另类| 欧美国产综合| 国产一区二区中文字幕免费看| 亚洲情趣在线观看| 久久精品色综合| 亚洲欧美在线精品| 久久久久久国产精品久久| 国产亚洲1区2区3区| 欧美变态挠脚心| 成人xxx免费视频播放| 69av成年福利视频| 性欧美疯狂xxxxbbbb| 好吊一区二区三区| 宅男在线观看免费高清网站| 9999在线观看| 亚洲人成人99网站| 91视频在线观看免费| 国产成人精品福利| 天堂av免费观看| 成人区精品一区二区| 日韩亚洲欧美成人一区| 韩国av一区二区三区四区| 欧洲美女精品免费观看视频 | 四虎在线观看| 激情久久av| 精品在线欧美视频| 久久久久久9999| 欧美激情理论| 成人免费网址| heyzo亚洲| 97精品国产91久久久久久| 香港成人在线视频| 久久久久久9| 欧美片第1页| 成人影院一区二区三区| 国产伦精品一区二区三区视频免费| 亚洲第一精品夜夜躁人人躁| 91蝌蚪porny成人天涯| 欧美va亚洲va日韩∨a综合色| 污视频网站在线免费|