国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

強(qiáng)化學(xué)習(xí)讓大模型自動(dòng)糾錯(cuò),數(shù)學(xué)、編程性能暴漲,DeepMind新作

人工智能 新聞
無(wú)需依賴(lài)外部反饋或額外模型,純純的自我糾正。

自我糾正(Self-correction)是大語(yǔ)言模型 (LLM) 非常重要的能力,但人們發(fā)現(xiàn)這種能力在現(xiàn)代 LLM 中基本上很少存在。現(xiàn)有的訓(xùn)練自我糾正的方法要么需要多個(gè)模型,要么依賴(lài)于更強(qiáng)大的模型或其他形式的監(jiān)督。

我們?nèi)绾尾拍茏?LLM 具備自我糾正能力?之前的研究要么依賴(lài)于提示工程,要么依賴(lài)于專(zhuān)門(mén)用于自我糾正的微調(diào)模型。但前者通常無(wú)法有效地進(jìn)行有意義的內(nèi)在自我糾正,而后者基于微調(diào)的方法需要在推理時(shí)運(yùn)行多個(gè)模型,例如需要 oracle「教師」來(lái)監(jiān)督指導(dǎo)自我糾正過(guò)程。

在最近提交的一篇論文中,來(lái)自 Google DeepMind 的研究者開(kāi)發(fā)了一種無(wú)需上述任何要求即可有效進(jìn)行自我糾正的方法,即通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行自我糾正(SCoRe,Self-Correction via Reinforcement Learning),只需訓(xùn)練一個(gè)模型,該模型既可以對(duì)推理問(wèn)題做出響應(yīng),也可以糾正錯(cuò)誤,盡管沒(méi)有收到任何 oracle 反饋。更重要的是,SCoRe 完全通過(guò)在自生成數(shù)據(jù)上進(jìn)行訓(xùn)練來(lái)教模型具備這種能力,而無(wú)需任何 oracle。

  • 論文標(biāo)題:Training Language Models to Self-Correct via Reinforcement Learning
  • 論文地址:https://arxiv.org/pdf/2409.12917

本文主要貢獻(xiàn)在于提出了一種多輪強(qiáng)化學(xué)習(xí)方法 ——SCoRe,用于教 LLM 如何糾正自己的錯(cuò)誤。相對(duì)于基礎(chǔ) Gemini 模型,SCoRe 在 MATH 推理問(wèn)題的自我糾正方面獲得了 15.6% 的增益,在 HumanEval 編碼問(wèn)題上獲得了 9.1% 的增益。

SCoRe 原理介紹

為了教 LLM 進(jìn)行自我糾正,SCoRe 將標(biāo)準(zhǔn)單輪強(qiáng)化學(xué)習(xí)(公式 2)擴(kuò)展到 Zhou 等人提出的分層框架下的多輪設(shè)置。

圖片

不過(guò)這樣做面臨諸多挑戰(zhàn)。首先,優(yōu)化公式 1 解決了分布偏移問(wèn)題,但尚不清楚它是否也能滿(mǎn)足要求 [D2]。

圖片

這里的 [D2] 如下圖所示,圖中展示了 SFT 方法失敗的兩個(gè)原因。而有效的解決方案必須滿(mǎn)足兩個(gè)要求:[D1] 模型應(yīng)該直接在自生成軌跡上進(jìn)行訓(xùn)練,以緩解 SFT 的分布不匹配(圖 4),[D2] 所采用的自生成軌跡應(yīng)防止在學(xué)習(xí)過(guò)程中因進(jìn)行微小編輯而崩潰。

作者開(kāi)發(fā)了一種在線(xiàn) RL 方法,通過(guò)仔細(xì)的初始化和獎(jiǎng)勵(lì)塑造來(lái)解決這些挑戰(zhàn)。

圖片

圖片

其次用于微調(diào)的基礎(chǔ)模型初始化在編輯距離上呈現(xiàn)出高度傾斜的分布(圖 3a),這使得它們?nèi)菀资艿侥J奖罎⒌挠绊懀@是深度強(qiáng)化學(xué)習(xí)中一個(gè)常見(jiàn)的問(wèn)題。即使基礎(chǔ)模型可以在自我校正過(guò)程中產(chǎn)生編輯距離比傾斜度較小的分布,但仍然需要強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)一種可以推廣到測(cè)試提示的自我校正策略。

圖片

SCoRe 旨在解決上述關(guān)鍵挑戰(zhàn),其分為兩個(gè)階段,這兩個(gè)階段都是通過(guò)適當(dāng)初始化模型和控制后續(xù) RL 使模型偏向?qū)W習(xí)自我糾正。

具體而言,這兩個(gè)階段包括:

階段 I:訓(xùn)練模型初始化以防止崩潰

SCoRe 第一階段的目標(biāo)是通過(guò)提高基礎(chǔ)模型對(duì)第二次嘗試響應(yīng)的覆蓋率來(lái)獲得良好的模型初始化,以便后續(xù)自我糾正訓(xùn)練不會(huì)出現(xiàn) STaR/SFT 中觀(guān)察到的崩潰現(xiàn)象。

為了達(dá)到此目的,該研究不采用 SFT 來(lái)初始化 RL 訓(xùn)練,而是開(kāi)發(fā)了第一階段來(lái)產(chǎn)生不易崩潰的單獨(dú)初始化。

作者微調(diào)基礎(chǔ)模型,以便在第二次嘗試時(shí)產(chǎn)生高獎(jiǎng)勵(lì)修正,同時(shí)通過(guò)使用 KL 散度將第一次嘗試的響應(yīng)分布限制為盡可能接近基礎(chǔ)模型的響應(yīng)分布,從而強(qiáng)制模型不改變其第一次嘗試的響應(yīng)。雖然這看起來(lái)不是最優(yōu)的 —— 但第一次嘗試的響應(yīng)錯(cuò)誤較少,可以糾正為更好的第二次嘗試響應(yīng)。優(yōu)化的目標(biāo)可以表示為:

圖片

其中 ??_2 是一個(gè)超參數(shù),旨在僅在第一次嘗試時(shí)強(qiáng)制執(zhí)行嚴(yán)格的 KL 懲罰,以避免第一輪響應(yīng)發(fā)生偏移(用藍(lán)色項(xiàng)表示)。請(qǐng)注意,作者仍然使用公式 2 中的默認(rèn) KL 散度懲罰,但該懲罰的權(quán)重要小得多,并且為了簡(jiǎn)潔起見(jiàn),公式 3 中省略了它。事實(shí)上,與簡(jiǎn)單的多輪 RL 不同,階段 I 在分離兩個(gè)響應(yīng)方面更有效(圖 5b)。

圖片

階段 II:帶有獎(jiǎng)勵(lì)的多輪強(qiáng)化學(xué)習(xí)

借助第一階段的模型初始化,該模型在耦合兩個(gè)響應(yīng)時(shí)表現(xiàn)出更小的偏差,SCoRe 的第二階段現(xiàn)在可以訓(xùn)練兩次嘗試的響應(yīng),并根據(jù)公式 1 優(yōu)化獎(jiǎng)勵(lì)。當(dāng)然,作者還希望確保在此過(guò)程中不會(huì)降低第一次嘗試的響應(yīng)。因此,對(duì)于兩輪自我糾正問(wèn)題,作者針對(duì)以下目標(biāo)訓(xùn)練策略 ??_??(?∣?):

圖片

圖 6 為階段 I、階段 II 流程說(shuō)明。可以看出 SCoRe 以交錯(cuò)方式應(yīng)用階段 I 和 II 進(jìn)行多次迭代。

圖片

圖片

實(shí)驗(yàn)評(píng)估

該研究進(jìn)行了一系列實(shí)驗(yàn),來(lái)驗(yàn)證 SCoRe 在教 LLM 具備自我糾正能力方面的有效性,并通過(guò)消融實(shí)驗(yàn)探索了 SCoRe 的每個(gè)組件的影響。

該研究主要關(guān)注數(shù)學(xué)和編碼任務(wù),使用以下基準(zhǔn)來(lái)評(píng)估方法的有效性:

  • MATH;
  • MBPP 和 HumanEval。

幾種方法在 MATH 基準(zhǔn)上的實(shí)驗(yàn)評(píng)估結(jié)果如下表 3 所示:

圖片

在代碼生成方面,實(shí)驗(yàn)結(jié)果如下表 4 所示:

圖片

消融研究

為了探究以下幾個(gè)問(wèn)題,該研究進(jìn)行了消融實(shí)驗(yàn):

  • 多輪訓(xùn)練的重要性
  • 多階段訓(xùn)練的重要性
  • 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)(reward shaping)的影響
  • on-policy 強(qiáng)化學(xué)習(xí)的重要性

消融實(shí)驗(yàn)結(jié)果如下表 5 所示:

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-09-21 10:29:01

AI模型

2023-08-28 06:52:29

2025-06-23 09:09:00

2025-10-11 09:23:28

RLPT強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)

2022-07-24 19:24:32

機(jī)器學(xué)習(xí)預(yù)訓(xùn)練模型機(jī)器人

2024-12-06 09:00:00

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-07-09 01:22:00

AI強(qiáng)化學(xué)習(xí)監(jiān)督學(xué)習(xí)

2025-10-30 09:13:55

2023-12-25 09:23:07

模型技術(shù)

2025-06-09 09:32:35

2025-10-14 08:59:00

2025-11-10 08:46:00

AI模型訓(xùn)練

2023-05-05 13:11:16

2021-12-09 15:27:46

模型人工智能深度學(xué)習(xí)

2021-09-10 16:31:56

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-02-21 15:33:44

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-07-21 14:58:05

智能開(kāi)發(fā)

2021-06-25 15:36:37

框架AI開(kāi)發(fā)

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

伊人久久大香线蕉综合影院首页| 日韩网站在线免费观看| 成人精品久久| 91精品一久久香蕉国产线看观看| 亚洲天堂2020| 国产一区91| 最色在线观看| 91国内免费在线视频| 99r国产精品| 欧洲成人一区| 日韩精品一区二区免费| 日韩毛片中文字幕| 日本欧美在线看| 免费在线看黄| 国产日韩一区在线| 午夜精品爽啪视频| sdde在线播放一区二区| 爆操妹子视频在线观看| 538国产精品视频一区二区| 国产精品乱人伦一区二区| 视频在线一区| 国产精品入口免费软件| 久久久久成人精品| 国产欧美日本一区视频| av综合网页| 色免费在线视频| 欧美激情按摩在线| 国产精品情趣视频| 亚洲免费专区| 五月天婷婷综合社区| 国产精品第一区| 亚洲电影第三页| 亚洲欧洲中文字幕| 毛片免费在线| 成人在线亚洲| 无码免费一区二区三区免费播放 | 夜夜亚洲天天久久| 精品一区二区三区在线| 在线视频中文字幕| 高清国产在线一区| 在线不卡一区二区| 看电视剧不卡顿的网站| 亚洲精品国产嫩草在线观看| 麻豆av免费在线| 国产aⅴ夜夜欢一区二区三区| 亚洲成人av中文| 国内久久精品| 九色porny丨国产首页在线| 精品丰满人妻无套内射| 韩国三级电影久久久久久| 亚洲成av人片在线观看无码| 91久久黄色| 中文在线а√在线8| 日韩有码免费视频| 1stkiss在线漫画| 高清在线视频日韩欧美| 亚洲激情一二三区| 亚洲乱码视频| 先锋欧美三级| 男女激情网站| 美媛馆国产精品一区二区| 亚洲午夜精品久久久久久性色| 国产午夜精品一区二区三区嫩草| 国产精品入口久久| 黄色网页在线播放| 成年女人18级毛片毛片免费| 欧美在线视频免费| 欧美日韩国产大片| 99视频精品在线| 成人综合专区| 伊人色综合一区二区三区影院视频| 伊人影院综合在线| 精品乱色一区二区中文字幕| 色偷偷偷综合中文字幕;dd| 亚洲综合色成人| 日韩国产欧美视频| 国产毛片久久久| 在线观看av黄网站永久| 国产一线二线三线女| 国产成人精品久久亚洲高清不卡| 欧美一区二区大片| 国产日韩欧美激情| 国产日韩一区二区三区在线播放| 91麻豆精品| www.亚洲视频| 可以在线看的黄色网址| 国新精品乱码一区二区三区18| 91福利精品在线观看| 欧美日韩一区二区视频在线| 欧美久久精品一级黑人c片| 欧美综合亚洲图片综合区| 成人高清视频在线观看| 这里只有精品在线| 精品国产鲁一鲁****| 1区2区3区在线观看| 中文字幕国产传媒| 日韩动漫在线观看| 国产精品久久久av| www国产精品com| 欧美一级淫片007| 亚洲免费看黄网站| 国产成人精品免费一区二区| 在线国产一区| 91国产中文字幕| 伊人中文在线| 爽成人777777婷婷| 国产精品18久久久| 欧美三级电影网| 午夜精品在线免费观看| 欧美激情一级精品国产| 777欧美精品| 亚洲激情五月婷婷| 国产成人精品网址| 国产一区二区三区的电影| 久久综合色之久久综合| 国产综合久久| 91蝌蚪精品视频| 亚洲优女在线| 国产女主播在线直播| а√最新版在线天堂| 日韩精品视频在线观看视频| 蜜桃精品久久久久久久免费影院 | 亚洲国产精品一区二区www | 国产精品综合视频| 精品成人国产| 视频一区在线观看| 中文久久电影小说| 欧美va视频| 国产精品高颜值在线观看| 国产小视频免费在线观看| 交换国产精品视频一区| 久久9精品区-无套内射无码| 熟妇熟女乱妇乱女网站| 欧美一区视久久| 国产精品日本一区二区| 国产精品久久久久久亚洲调教 | av不卡在线观看| 久99久精品视频免费观看| 极品裸体白嫩激情啪啪国产精品| 欧美男gay| 天堂在线精品| 日韩区欧美区| 亚洲综合资源| 高清在线一区| 美女100%一区| 欧美成人a交片免费看| 精品极品在线| av影视在线看| 草碰在线视频| 视频一区二区在线播放| 佐山爱痴汉视频一区二区三区| 国产精彩免费视频| 成人一区二区三| 亚洲午夜无码av毛片久久| www.在线观看av| 99蜜桃在线观看免费视频网站| 国产免费福利| 一区二区高清视频| 日韩精品在线观看视频| 亚洲丝袜一区| 日韩一区二区三区视频| 日韩加勒比系列| 91久久久久久白丝白浆欲热蜜臀| 色总=综合色| 日本美女高潮视频| 久久精品2019中文字幕| 久久国产夜色精品鲁鲁99| 亚洲欧美清纯在线制服| 男人的天堂亚洲| 在线欧美日韩| 99成人在线| 青青草原综合久久大伊人精品优势 | av在线免费观看网址| 粉嫩一区二区三区国产精品| eeuss影院www在线观看| 亚洲视频tv| 懂色av一区| 天天综合网站| 日韩在线视频一区二区三区 | 国产极品尤物在线| 国产中文字幕免费观看| 手机视频在线观看| 91免费版在线观看| 成年女人的天堂在线| 久久亚洲资源| 99久久婷婷国产综合精品首页 | 日本aⅴ中文| 日夜干在线视频| 看女生喷水的网站在线观看| sm在线播放| 麻豆精品一区| 成人综合一区| 日韩国产一区二| 96av麻豆蜜桃一区二区| 一二三四区精品视频| 欧美亚洲一区三区| 国产视频欧美视频| 久久久爽爽爽美女图片| 国产免费观看久久黄| 久久人人爽爽人人爽人人片av|