国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸

譯文 精選
人工智能
本文介紹了多代理微調(diào)的基本概念,框架組成,以及在實(shí)際應(yīng)用中的優(yōu)勢(shì)。

譯者 | 陳峻

審校 | 重樓

最近,麻省理工學(xué)院、哈佛大學(xué)、斯坦福大學(xué)以及 DeepMind 的研究人員聯(lián)合提出了一種新技術(shù),它使用多個(gè)代理(Multiple Agents)來(lái)解決大語(yǔ)言模型 (LLM) 最緊迫的問(wèn)題之一:缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)。畢竟頂尖模型已經(jīng)消耗了互聯(lián)網(wǎng)上的大部分可用的內(nèi)容,并讓AI 實(shí)驗(yàn)室已經(jīng)用完了適合訓(xùn)練 LLM 的數(shù)據(jù)。

解決這一瓶頸問(wèn)題的一種方案是通過(guò)創(chuàng)建合成數(shù)據(jù)(Synthetic Data)來(lái)自我提升,讓LLM 生成高質(zhì)量的范例來(lái)訓(xùn)練自己。例如,系統(tǒng)會(huì)提示 LLM 解決數(shù)學(xué)、推理或編碼問(wèn)題。該模型生成推理鏈和響應(yīng)、評(píng)估結(jié)果,并將有效的示例添加到訓(xùn)練數(shù)據(jù)集中,用于在下一個(gè)訓(xùn)練周期中微調(diào)模型。

不同的研究表明,這是一種有效但也有限的方法。該方法在幾次訓(xùn)練迭代之后會(huì)趨于穩(wěn)定,進(jìn)而限制了其自我提升方法的適用性。

多代理辯論和微調(diào)

為了提高性能,新技術(shù)使用了多代理辯論(Multiagent Debate)的概念,即:由多個(gè) LLM 代理一起起草和完善響應(yīng)。該框架并非微調(diào)單個(gè)模型,而是使用相同的辯論和改進(jìn)框架,來(lái)生成不同的數(shù)據(jù)集,并微調(diào)多個(gè)模型。這些模型往往派生自相同的基本模型,并且每個(gè)模型都會(huì)得到訓(xùn)練,以被專(zhuān)門(mén)用于目標(biāo)任務(wù)的某些部分。

通常,該框架由生成代理和批評(píng)代理所組成。其中:

對(duì)于每個(gè)問(wèn)題,第一組 LLM(生成代理)會(huì)創(chuàng)建初始響應(yīng)。而生成模型的作用就是準(zhǔn)確地回答輸入的問(wèn)題。每個(gè)模型都以不同的方式,被提示創(chuàng)建一組不同的推理鏈與響應(yīng)。

接著,批評(píng)代理會(huì)評(píng)估所有生成代理的輸出,并選擇最有效的響應(yīng)、或生成反饋,以進(jìn)行改進(jìn)。在此,批評(píng)代理的作用是對(duì) LLM 生成的回答提供準(zhǔn)確的批評(píng),并使用這些回答來(lái)提供更新的答案。而且,代理可以參與多輪辯論和反饋,以進(jìn)一步完善答案。

然后,更新的響應(yīng)和批評(píng)被用來(lái)創(chuàng)建數(shù)據(jù)集,以微調(diào)生成和批評(píng)代理。一旦兩組代理都開(kāi)啟了訓(xùn)練,它們就會(huì)重復(fù)這個(gè)循環(huán),以創(chuàng)建更好的響應(yīng)。為了確保多樣性,每個(gè)生成代理和批評(píng)代理都會(huì)根據(jù)其交互生成的一組不同的示例進(jìn)行微調(diào)。當(dāng)這個(gè)循環(huán)被重復(fù)時(shí),它們就會(huì)創(chuàng)建出越來(lái)越好的數(shù)據(jù)集,并且每個(gè)代理在任務(wù)的特定部分都會(huì)變得更好。

多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸-AI.x社區(qū)多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸-AI.x社區(qū)

多代理微調(diào)(來(lái)源:arXiv)

與經(jīng)典的自我提升框架不同,基于訓(xùn)練數(shù)據(jù)所創(chuàng)造的行為多樣性,會(huì)讓訓(xùn)練數(shù)據(jù)的質(zhì)量在多輪迭代中不斷提升。

研究人員曾寫(xiě)道:“我們發(fā)現(xiàn),多代理微調(diào)的迭代應(yīng)用會(huì)促進(jìn)持續(xù)學(xué)習(xí)和適應(yīng),并隨著時(shí)間的推移,產(chǎn)生逐漸細(xì)化且更為準(zhǔn)確的響應(yīng)。同時(shí),研究人員進(jìn)一步指出,“通過(guò)在不同的數(shù)據(jù)集和角色上訓(xùn)練每個(gè)模型,我們的方法促進(jìn)了模型之間的專(zhuān)業(yè)化,并增加了模型社會(huì)的多樣化。因此,與單一代理的自我提升方法相比,我們的系統(tǒng)可以通過(guò)多輪微調(diào)實(shí)現(xiàn)自主改進(jìn)。”

多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸-AI.x社區(qū)多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸-AI.x社區(qū)

多代理微調(diào)在多次迭代中繼續(xù)提高 MATH 基準(zhǔn)測(cè)試的性能,而單一代理微調(diào)則會(huì)快速達(dá)到平臺(tái)期(來(lái)源: arXiv)

在推理過(guò)程中,該框架可以使用生成代理和批評(píng)代理的生態(tài)系統(tǒng),來(lái)起草多個(gè)響應(yīng),并通過(guò)多代理辯論對(duì)其進(jìn)行提煉。每個(gè)代理都能夠從所有其他代理那里獲取響應(yīng),并在每一輪的辯論中生成新的響應(yīng)。

研究人員還寫(xiě)道:“我們發(fā)現(xiàn),總結(jié)其他代理的回答不但有助于消除冗余的信息,而且可以保留最重要的細(xì)節(jié),從而進(jìn)一步提高性能。

多代理微調(diào)的實(shí)際應(yīng)用

如下所示,研究人員在算術(shù)、小學(xué)數(shù)學(xué)和競(jìng)賽級(jí)別的數(shù)學(xué)問(wèn)題的數(shù)個(gè)推理基準(zhǔn)上,測(cè)試了該方法。他們將其與Mistral 7B、Llama 3-8B 和 Phi 3-4B等開(kāi)源模型,以及 GPT-3.5 一起使用。由于多代理辯論和微調(diào)不需要訪問(wèn)模型的內(nèi)部權(quán)重,因此它同時(shí)適用于開(kāi)放和封閉的模型。

多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸-AI.x社區(qū)多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸-AI.x社區(qū)

結(jié)果表明,多代理方法優(yōu)于包括多數(shù)投票(即:模型產(chǎn)生幾個(gè)獨(dú)立的答案,并從中選擇最佳答案)在內(nèi)的其他技術(shù),以及那些優(yōu)化各個(gè)代理的答案,而無(wú)法經(jīng)由微調(diào)過(guò)程的方法。此外,微調(diào)后的模型也可以被推廣到看不見(jiàn)的任務(wù)上,且勝過(guò)直接在目標(biāo)任務(wù)上訓(xùn)練模型的基線方法。例如,在 MATH 數(shù)據(jù)集上微調(diào)的代理生態(tài)系統(tǒng),就會(huì)在 GSM 基準(zhǔn)測(cè)試中得到非常出色的表現(xiàn)。

更重要的是,多代理在多次迭代中會(huì)持續(xù)表現(xiàn)出改進(jìn)的性能,而其他自我提升的方法則會(huì)在幾個(gè)周期后開(kāi)始出現(xiàn)退化。

總而言之,由于多代理方法需要多個(gè)模型的副本來(lái)同時(shí)訓(xùn)練和運(yùn)行,因此它實(shí)際上是一種從成本角度給出的權(quán)衡方法。雖然 LoRA 和量化等優(yōu)化技術(shù)也可能實(shí)現(xiàn)相似的效果,但是就目前而言,多代理微調(diào)似乎能夠更好地解決 AI 社區(qū)所面臨的首要問(wèn)題。

原文標(biāo)題:How multiagent fine-tuning overcomes the data bottleneck of LLMs,作者:Ben Dickson

責(zé)任編輯:姜華 來(lái)源: 51CTO內(nèi)容精選
相關(guān)推薦

2018-06-07 16:10:08

數(shù)據(jù)湖客戶(hù)互動(dòng)互動(dòng)分析

2024-06-05 13:48:04

2024-06-06 08:25:30

2025-01-26 09:07:46

2010-12-06 15:28:31

2016-05-04 16:20:55

多源數(shù)據(jù)大數(shù)據(jù)

2024-11-21 08:22:45

2016-05-03 14:46:54

數(shù)據(jù)源數(shù)據(jù)分析數(shù)據(jù)融合

2024-02-27 16:09:28

數(shù)據(jù)管理數(shù)字化轉(zhuǎn)型

2011-07-29 09:49:35

2011-08-01 09:25:18

2024-04-11 10:02:31

物聯(lián)網(wǎng)IOT數(shù)據(jù)集成

2024-07-11 16:16:27

ChatGPTLLM

2024-06-25 09:00:00

架構(gòu)軟件開(kāi)發(fā)

2024-10-17 08:10:02

2020-11-30 15:11:51

大數(shù)據(jù)

2020-12-25 10:14:39

物聯(lián)網(wǎng)數(shù)據(jù)集成IOT

2025-06-09 08:42:23

2025-03-11 08:00:00

LLM開(kāi)發(fā)深度學(xué)習(xí)

2025-03-25 10:27:14

SFT 指令微調(diào)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

欧美整片在线观看| 精品国产三级a在线观看| 亚洲伊人一本大道中文字幕| yjizz视频网站在线播放| 国语精品一区| 另类图片亚洲另类| 91精品大全| 中文字幕字幕中文在线中不卡视频| 国产一区视频观看| av综合网址| 精品黑人一区二区三区久久 | 日本在线人成| 久久久激情视频| 99精品一级欧美片免费播放| 日韩av在线播放网址| 欧美激情综合亚洲一二区| 欧美大片高清| 精品久久久久久久久久久久包黑料| 午夜久久久精品| av一区二区三区在线| 欧美日韩亚洲国产成人| 综合激情网站| aaa级精品久久久国产片| 亚洲天堂日韩在线| 欧美激情一级欧美精品| 欧美舌奴丨vk视频| 亚洲深夜福利在线| av老司机在线观看| 精品婷婷伊人一区三区三| 天海翼一区二区三区免费| 一区二区不卡在线视频 午夜欧美不卡在 | 国产精品h片在线播放| 粉嫩一区二区三区四区公司1| 国产一区二区三区三区在线观看 | 2024短剧网剧在线观看| 欧美精品18+| 日本大胆在线观看| 亚洲精品自拍第一页| 免费电影日韩网站| 91精品国产91久久久久久最新| 男人添女人下部高潮视频在观看| 国产亚洲精品aa午夜观看| 黄色动漫网站入口| 欧美日韩一区不卡| 另类图片综合电影| 17婷婷久久www| 国产精品综合色区在线观看| 成人av在线播放观看| 1000部国产精品成人观看| 日本美女在线中文版| 色婷婷综合久久久久| 国产高清一区二区| 五月婷婷综合色| 欧美激情中文字幕一区二区| 美女隐私在线观看| 色综合91久久精品中文字幕| 国户精品久久久久久久久久久不卡| 亚洲一区二区三区四区中文| 亚洲日本一区二区| 青春草视频在线| 成人短视频在线| 亚洲人成网站影音先锋播放| av理论在线观看| 欧美伊久线香蕉线新在线| 在线一区视频| 中文字幕毛片| 久久久精品2019中文字幕神马| 狠狠久久婷婷| 黑料吃瓜在线观看| 国内免费精品永久在线视频| 久久亚洲不卡| 欧美激情办公室videoshd| 国产69精品久久久久99| 国产99久久久久久免费看农村| av大片在线看| 欧美精品xxx| www国产精品av| www.com.cn成人| 五月天丁香综合久久国产| 欧美一区二区三区小说| 激情综合自拍| 在线视频观看国产| 国产麻豆电影在线观看| 精品久久久网站| 老司机久久99久久精品播放免费| 黄网在线观看| 国产精品久久九九| 555www色欧美视频| 99精品久久久| 五月天激情在线| 日韩精品一区二区三区电影| 91精品黄色片免费大全| av资源久久| 九色视频网站| 国产精品草莓在线免费观看| 一区二区三区在线观看欧美| 妖精视频一区二区三区| 黄色片免费在线| 欧美一进一出视频| 欧美精品一区二区三| 91玉足脚交白嫩脚丫在线播放| 四虎国产精品免费久久| 九色porny91| 91成人免费观看| 国产一区二区三区三区在线观看| 国产精品天干天干在线综合| 日韩欧美不卡| 欧美性爽视频| 国产福利影院在线观看| 国产精品国产福利国产秒拍 | 国产精品草莓在线免费观看| 欧美中文字幕一区二区三区| 国产美女av一区二区三区| 亚洲1区在线| 亚洲在线免费播放| 成久久久网站| sm久久捆绑调教精品一区| 国产日韩一区二区在线观看| 国产日韩专区在线| 亚洲高清免费观看高清完整版| 欧美国产欧美综合| 日韩亚洲国产欧美| 试看120秒一区二区三区| 成人片在线看| 性直播在线观看| 免费的av在线| 国产高清精品一区二区三区| 91精品国产91久久久久久吃药| 欧美日韩国产在线播放网站| 亚洲国产精品v| 韩国毛片一区二区三区| 少妇精品久久久一区二区| 亚洲人成在线网站| 成人网视频在线观看| 2018高清国产日本一道国产| 99re99热| 鬼打鬼之黄金道士1992林正英| 久久视频在线视频| 中文日韩在线观看| 日韩一区二区电影网| 欧美日产国产精品| 五月婷婷久久丁香| 精品露脸国产偷人在视频| 亚洲欧美色综合| 一区二区免费看| 亚洲精品少妇30p| 天天色 色综合| 岛国av在线不卡| 色综合中文字幕| 欧美日本不卡视频| 欧美色成人综合| 日韩欧美国产三级| 亚洲人成网站777色婷婷| 亚洲无限av看| 性日韩欧美在线视频| 国产成人精品a视频一区www| 国产成人激情视频| 999久久久| 97久久国产亚洲精品超碰热| 久久久久久久久久久久久久国产| 天天操天天爱天天爽| 好吊妞这里只有精品| 蜜桃视频在线入口www| 成人在线播放| 亚洲mmav| 欧美岛国激情| 青椒成人免费视频| 久久精品在线观看| 欧美性大战久久久久久久蜜臀| 亚洲成人教育av| 久久久久久999| 不卡视频一区二区| 午夜肉伦伦影院| 免费的黄网站在线观看| 深夜日韩欧美| 欧美日韩视频| 99视频有精品| 欧美日韩三级一区二区| 久久大大胆人体| 成人性生交大片免费观看嘿嘿视频 | 欧美疯狂xxxx大交乱88av| 成人资源视频网站免费| 久激情内射婷内射蜜桃| 日本在线观看视频| 男人的天堂久久| 国产呦萝稀缺另类资源| 亚洲男人天堂一区| 亚洲国产女人aaa毛片在线| 国产精品最新在线观看| 国产真实乱子伦| 欧美人与禽猛交乱配| 欧美精品一区二区三区精品| 久久亚洲一区二区三区明星换脸 | 免费看黄在线看| 超碰porn在线| 在线精品国产| 亚洲国产aⅴ天堂久久| 久久久久久久久综合| 欧洲精品在线播放| 波多野结衣亚洲|