国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

ChatGPT代碼生成飆升10%!北大華人一作:細化prompt,大幅改進大模型代碼能力

人工智能 新聞
來自北大實驗室的研究團隊提出了,通過與LLM聊天來細化需求的方法——ChatCoder。

在大模型時代,高質量的代碼生成已經強大到,讓人驚嘆。

從通過HumEval中67%測試的GPT-4,到近來各種開源大模型,比如CodeLlama,有望成為碼農編碼利器。

然而,現實中,程序員們不會精煉表達需求,因此誤導、限制了LLM生成優秀代碼的能力。

說白了,大模型代碼能力行不行,取決于你的提示妙不妙。

對此,來自北大實驗室的研究團隊提出了,通過與LLM聊天來細化需求的方法——ChatCoder。

論文地址:https://arxiv.org/pdf/2311.00272.pdf

具體來說,他們設計了一種聊天方案,大模型引導用戶細化需求表達,進而比以前更精確、更完整,同時提高了大模型的性能。

大模型是「碼農」,你就是「產品經理」

這里先舉個例子,如下圖,用戶提出了需求:

數據集#MBPP/443,要求ChatGPT編寫一個python函數從給定的列表中找到「最大的負數」。

基于原始需求,ChatGPT生成一個程序,該程序可以正確提取實際值最大的負數。

然而,sanitized-MBPP的作者認為「最大負數」應該是指「絕對值最大的數」。

因此由于「最大」這個表達不明確,導致LLM生成了錯誤的代碼。

而這里,可以通過需求細化(requirements refinement)來解決這個問題。

需求細化就是揭示需求中的隱含依賴和隱藏結構的過程。通過提供更多細節,在需求細化的過程中可以補充不完整的信息,消除模糊不清的地方。

在前面舉的例子中,我們可以簡單地向大語言模型說明「最大的」在這里特指「絕對值最大的」,揭示了「最大」這個詞的隱藏結構。

有了這一改進后的需求,大模型就可以生成符合MBPP作者期望的代碼。

不得不提的是,需求細化,需要人類用戶和大模型的協作。

一般來說,在需求工程的背景下,需求細化是通過軟件供應商(編碼人員)和軟件客戶(用戶)之間的一系列交互來執行的。

軟件供應商分析客戶需求的初始表達,并提出細化點。軟件客戶則需要根據這些點來作出響應,供應商才能完成一輪需求細化。

無論是軟件客戶還是軟件供應商,任何一方都不具備單獨進行需求細化的資格。

這樣的劣勢在于,客戶通常不夠了解軟件設計和開發過程,無法撰寫可用的需求說明;而供應商通常也不夠了解客戶的問題和業務領域,無法為滿意的系統制定需求。

而現在,在大模型時代,人類用戶是客戶,LLM是「供應商」。

為了通過需求細化讓大模型生成更好地滿足用戶需求的代碼,就需要研發人類和LLM協作的方法。

ChatCoder:聊天細化,生成代碼

北大提出了ChatCoder,這是通過聊天進行需求細化的大模型代碼生成的新方法。

整體框架如下圖,非常簡潔,通過聊天來輔助LLM和人類在需求細化方面的協作。

關鍵是,如何與大型語言模型聊天。

ChatCoder便提供了一個全新的聊天模式,其設計靈感來自IEEE SRS。

接下來,我們具體看下ChatCoder這個框架。

其整體結構是一個兩輪的對話。

第一階段:Paraphrase和Exend

由于人類用戶表達需求可能語意模糊、不完整,ChatCoder使用提示要求LLM從幾個角度解釋用戶的原始需求,即完整的需求規范必須清晰。

對于需要改進的遺漏或有野心的論點,ChatCoder讓大語言模型基于它從訓練數據中獲得的假設來擴展它們。

人類用戶需要查看細化的規范并糾正其中的錯誤。

第二階段:Going-deep和Loop-back

在這一輪中,ChatCoder要求LLM詢問人類用戶,關于第一輪Paraphrase和Exend中信息損失,以及需要進一步改進的規范方面的困惑。

人類用戶需要回答這些問題,并回環糾正細化后的規范。

經過兩輪細化后,得到細化后的需求,然后發送給大型語言模型,得到用戶想要的程序。

ChatGPT代碼能力10%

實驗設置

數據集:Sanitized-MBPP、HumanEval。

基準:gpt-3.5-turbo、gpt-4。

研究問題

為了評估ChatCoder,研究人員提出并測試了以下研究問題:

1)與現有代碼生成模型相比,ChatCoder的表現如何?

2)ChatCoder是LLM和人類用戶交流以進行需求細化的有效方法嗎?

3)人類參與ChatCoder帶來了多少改進?

ChatCoder性能表現

首先我們來看第一個問題,主要是為了評估ChatCoder與基線相比的整體代碼生成性能。

如表1所示,ChatCoder通過大幅細化的需求,成功幫助LLM提高了其生成程序的執行精度。

例如,對于gpt-3.5-turbo,其在Saniticed-MBPP上的pass@1從57.04%提高到71.25%,提升了14%。

橫向比較,對于gpt-3.5-turbo和gpt-4,Saniticed-MBPP上的性能改進比HumEval上的更突出。

溝通效率的表現

第二個問題是,評估ChatCoder是否是大模型和人類進行需求細化交流的有效方式。

根據表2,所有3種與LLM進行需求細化的通信方法都有助于LLM改進其代碼生成結果。

這一發現指出,任何形式的需求細化在應用LLM生成代碼時都是有用和重要的。

與ChatCoder相比,Free Paraphrase和Free QA不會指示LLM執行某些類型的細化,從而導致較低的改進。

人工干預評估

如下評估了人工干預對ChatCoder的重要性,結果見表3。

由于ChatCoder利用需求細化來提高大語言模型的代碼生成性能,因此人工干預是必要的,也是不可忽視的。

ChatCoder的過程是從給定的角度揭示需求的內部結構,這些角度沒有明確表達,即使有歧義。解決歧義的答案只有人類用戶知道。

案例研究

如下,作者提出了幾個真實的測試用例,說明ChatCoder如何幫助LLM生成具有細化需求的代碼。

由于頁面限制,研究人員從MBPP中選擇了3個案例,涵蓋了關于輸入、輸出和目的的細化,因為它們直接影響功能需求。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-10-26 15:38:03

混元大模型騰訊

2021-11-19 10:13:01

模型人工智能計算

2023-10-07 08:28:06

語言模型代碼技術

2023-10-16 12:31:17

人工智能數據

2023-06-09 13:29:58

2024-11-27 14:30:00

模型訓練

2024-08-20 13:30:17

2023-09-10 10:51:22

算法結構

2023-04-27 13:46:08

語言模型ChatGPT人工智能

2021-12-09 09:45:44

AI 數據神經網絡

2023-04-11 07:56:54

2023-09-18 11:25:00

2024-03-04 08:15:00

2025-12-15 08:38:00

視覺模型代碼

2024-01-08 13:37:00

人工智能技術

2024-09-29 13:40:00

2025-02-12 13:34:40

2023-06-30 13:01:26

點贊
收藏

51CTO技術棧公眾號

青青视频在线播放| 小小水蜜桃在线观看| 97精品97| 欧美精品久久久久久久久久| 不卡av播放| 精品第一国产综合精品aⅴ| 成年人视频网站在线| 精品欧美国产一区二区三区| 男女激情视频网站| 亚洲婷婷综合色高清在线| 国产一线二线三线在线观看| 国产午夜精品福利| 免费日韩中文字幕| 中文字幕第一页久久| 能看的毛片网站| 欧美国产一区二区在线观看| 亚洲国产精品毛片av不卡在线| 国产不卡一区视频| 3d动漫一区二区三区| 风间由美一区二区三区在线观看| 亚洲欧美综合一区| 久久se精品一区精品二区| 亚洲欧洲久久| 久久精品国产网站| 久久男人资源站| 99久久99久久精品免费看蜜桃| 亚洲一区二区高清视频| 国产精品一区二区三区网站| 欧美图片激情小说| 91婷婷韩国欧美一区二区| 大陆极品少妇内射aaaaa| 国产亚洲一本大道中文在线| 黄色大秀av大片| 色悠悠久久综合| 高h视频在线观看| 亚洲欧美日韩精品久久亚洲区 | a√资源在线| 色香蕉成人二区免费| 风间由美一区| 亚洲第一av网| 国产精品99精品一区二区三区∴| 免费91在线视频| 西瓜成人精品人成网站| 3d动漫啪啪精品一区二区免费| 亚洲伊人网站| 欧美大片在线播放| 亚洲欧美综合另类在线卡通| 你懂的在线观看| 亚洲电影免费观看高清完整版在线| sese综合| 97在线免费观看视频| 亚洲激情中文在线| 欧美日韩精品免费观看视一区二区| 九九在线精品视频| av片中文字幕| 色综合天天综合网国产成人综合天| 免费av在线播放| www.亚洲男人天堂| 婷婷亚洲综合| 日韩亚洲欧美一区二区| 亚洲综合激情网| 国产网站在线| 欧洲精品毛片网站| 日本视频免费一区| 窝窝九色成人影院| 91精品国产高清一区二区三区| av在线精品| 国产精华一区| 国产亚洲欧美日韩俺去了| yes4444视频在线观看| 久久精品久久久久| 亚洲激情黄色| 成人图片小说| 亚洲深夜福利在线| 欧美久久成人| 午夜免费高清视频| 亚洲国产精品专区久久| 免费黄色成人| 国产玉足脚交久久欧美| 在线视频你懂得一区二区三区| 韩国三级成人在线| 四虎影视永久免费在线观看一区二区三区| 亚洲欧美日韩一区二区三区在线观看 | 欧美aⅴ99久久黑人专区| 国产a级片网站| 欧美人牲a欧美精品| 亚洲精品午夜| 一区二区在线观| 一本到高清视频免费精品| 麻豆久久一区| 黑人巨大国产9丨视频| 91官网在线免费观看| 国内精品国产成人国产三级粉色| 中文有码久久| 7777精品伊人久久久大香线蕉的 | 91香蕉国产在线观看软件| 麻豆传媒视频在线观看| 欧美在线视频观看| aaa国产一区| 极品视频在线| 久久www免费人成精品| 性做久久久久久| 嫩草国产精品入口| 亚洲乱码中文字幕久久孕妇黑人| 精品剧情在线观看| 伊人成年综合电影网| 亚洲成人基地| 情事1991在线| 日本一区二区三区高清不卡| 中文字幕日本一区二区| 亚洲一区精彩视频| 在线91免费看| 欧美日本一区| 色视频免费在线观看| 国产精品高清在线| 依依成人综合视频| 日韩伦理一区二区三区| www黄色日本| 日韩在线欧美在线| 成人成人成人在线视频| 是的av在线| 日韩精品第1页| 亚洲男人的天堂网站| 国产精品99久久久久久久女警| 国产污视频在线播放| 精品国产三级a∨在线| 日韩成人高清在线| 国产精品综合久久| 精品美女一区| 韩国一区二区av| 69久久夜色精品国产69| 亚洲欧美成人一区二区三区| 欧美女优在线视频| 一线天粉嫩在线播放| 亚洲一区二区少妇| 精品污污网站免费看| 亚洲免费高清| 免费在线观看av电影| 国产成年人在线观看| 在线观看免费高清视频97| 久久久国产一区二区三区四区小说 | 亚洲一区二区三区在线免费| 亚洲免费av一区二区三区| 性欧美xxxx交| 亚洲午夜久久久| 激情亚洲成人| 免费毛片在线看片免费丝瓜视频 | 欧美黑人性视频| 亚洲人成伊人成综合网小说| 欧美理论视频| 1024国产在线| 看全色黄大色大片| 欧美激情在线观看视频| 亚洲制服丝袜在线| 国产精品日韩欧美一区| 欧美与亚洲与日本直播| 丁香视频免费观看| 97免费高清电视剧观看| 亚洲国产日韩精品在线| 久久精品一区二区三区不卡牛牛| 波多野结衣在线观看一区二区| 在线观看黄av| 99在线免费视频观看| 日本亚洲欧洲色| 欧美日本乱大交xxxxx| 国产99久久久国产精品潘金| 精品国产乱码久久久久久1区2匹| 黄色成人影院| 99蜜桃臀久久久欧美精品网站| 国产成人精品午夜| 欧美日韩国产乱码电影| 国产成人午夜高潮毛片| 天堂av一区二区三区在线播放 | 欧美视频在线观看免费网址| 爽好多水快深点欧美视频| 日本在线一区二区| 三级理论午夜在线观看| 亚洲国产一二三精品无码 | 神马久久影院| 91一区二区三区在线| 久久精品香蕉视频| 久久99精品国产99久久| 精品国产欧美一区二区五十路| 午夜一区二区三区视频| 日本成人中文字幕| 丝袜连裤袜欧美激情日韩| 9191在线播放| 独立日3在线观看完整版| 天堂√在线观看一区二区| 国内精品久久久久久久| 91精品国产综合久久蜜臀| 国产午夜三级一区二区三| 亚洲人体大胆视频| 久久91在线| 一根才成人网| 国产永久av在线| 中文字幕有码av| 亚洲国产日韩美| 91在线看网站| 欧美性一区二区三区|