国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

73頁,開源「后訓練」全流程!AI2發布高質量Tülu 3系列模型,拉平閉源差距,比肩GPT-4o mini

人工智能 新聞
Allen Institute for AI(AI2)發布了Tülu 3系列模型,一套開源的最先進的語言模型,性能與GPT-4o-mini等閉源模型相媲美。Tülu 3包括數據、代碼、訓練配方和評估框架,旨在推動開源模型后訓練技術的發展。

只進行過「預訓練」的模型是沒辦法直接使用的,存在輸出有毒、危險信息的風險,也無法有效遵循人類指令,所以通常還需要進行后訓練(post-train),如「指令微調」和「從人類反饋中學習」,以使模型為各種下游用例做好準備。

圖片

早期的后訓練工作主要遵循InstructGPT等模型的標準方案,如指令調整(instruction tuning)和偏好微調(preference finetuning),不過后訓練仍然充滿玄學,比如在提升模型編碼能力的同時,可能還會削弱模型寫詩或遵循指令的能力,如何獲得正確的「數據組合」和「超參數」,使模型在獲得新知識的同時,而不失去其通用能力,仍然很棘手。

為了解決后訓練難題,各大公司都提升了后訓練方法的復雜性,包括多輪訓練、人工數據加合成數據、多訓練算法和目標等,以同時實現專業知識和通用功能,但這類方法大多閉源,而開源模型的性能又無法滿足需求,在LMSYS的ChatBotArena上,前50名模型都沒有發布其訓練后數據。

最近,Allen Institute for AI(AI2)發布了一系列完全開放、最先進的訓練后模型Tülu 3,以及所有數據、數據混合、配方、代碼、基礎設施和評估框架,其突破了訓練后研究的界限,縮小了開源模型和閉源模型微調配方之間的性能差距。

圖片

論文鏈接:https://allenai.org/papers/tulu-3-report.pdf

TüLU 3-70B:https://hf.co/allenai/Llama-3.1-Tulu-3-70B

TüLU 3-8B:https://hf.co/allenai/Llama-3.1-Tulu-3-8B

TüLU 3 數據:https://hf.co/collections/allenai/tulu-3-datasets673b8df14442393f7213f372

TüLU 3 代碼:https://github.com/allenai/open-instruct

TüLU 3 評估:https://github.com/allenai/olmes

Demo:https://playground.allenai.org/

模型訓練算法包括有監督式微調(SFT)、直接偏好優化(DPO)以及可驗證獎勵強化學習(RLVR)

TüLU 3基于Llama 3.1的基礎模型構建,其性能超越了Llama 3.1-instruct、Qwen 2.5、Mistral,甚至超越了如GPT-4o-mini和Claude 3.5-Haiku等模型。

TüLU 3的訓練過程結合了強化學習的新算法、前沿的基礎設施和嚴格的實驗,構造數據,優化不同訓練階段的數據混合、方法和參數,主要包括四個階段。

第一階段:數據構造

研究人員主要關注模型在知識召回(knowledge recall)、推理、數學、編程、指令遵循、普通聊天和安全性等核心通用技能,然后根據目標需求來收集人工數據和合成數據。

圖片

第二階段:監督微調(SFT)

研究人員在精心選擇的提示和完成內容上執行監督式微調(SFT),首先確定了在使用Llama 3.1模型訓練在TüLU 2數據集上作為基準時,哪些技能落后于最先進的模型,然后有針對性地收集高質量的公開數據集和合成數據集。

圖片

圖片

通過一個完善的實驗,確定了最終SFT數據和訓練超參數,以增強目標核心技能,同時不會顯著影響其他技能的性能。

關鍵的數據實驗包括:

1. 多樣化的聊天數據:主要來自WildChat,如果移除該數據集,可以看到大多數技能都有小幅但明顯的下降,尤其是在Alpaca Eval上,凸顯了「多樣化真實世界數據」的重要性。

圖片

2. 安全性是獨立的:移除特定安全數據集后,可以看到大多數技能的結果大致保持不變;添加對比提示,如CoCoNot,有助于防止模型過度拒絕安全提示。

3. 新的Persona Data,主要針對數學、編程和指令遵循進行構建,移除后,HumanEval(+)、GSM8K、MATH和IFEval的性能都會顯著下降。

4. 針對特定技能(Targeting Specific Skills),移除所有數學相關數據后,GSM8K和MATH都有顯著下降。

5. 智能體訓練數據的數量,可以發現,在不斷增加數據集規模時,模型平均性能持續提高,增加到完整混合數據集后,GSM8K等指標上的性能大幅提升,但TruthfulQA的性能下降了。

圖片

第三階段:偏好調整

研究人員主要使用直接偏好優化(DPO),針對新構造的、基于策略的合成偏好數據,以及從選定提示中獲得的離策略數據。與SFT階段一樣,我們通過徹底的實驗確定了最佳的偏好數據混合,揭示了哪些數據格式、方法或超參數能帶來改進。

在TüLU 3項目中,研究人員探索了多種偏好微調方法,目標是提升整個評估套件的性能;并研究了多種訓練算法,從直接偏好優化(DPO)及其衍生算法到強化學習算法,比如近端策略優化(PPO)。

圖片

研究人員通過改進和擴展UltraFeedback流程,從提示中創建了策略內偏好數據(包括輸入、兩個輸出選項和標簽),使用大型語言模型(LLM)作為裁判,構造「偏好的、被拒絕的」數據對,主要包括三個階段:

1. 提示選擇

除了數據構造階段的提示外,還包括了其他來源的提示,比如沒有TruthfulQA實例的Ultrafeedback版本,或者通過在提示中添加新的IF約束。

圖片

2. 生成回復

對于給定的提示,從模型池中隨機抽取四個模型來生成回復,再通過從TüLU SFT模型中抽樣完成情況來包括策略內數據。其中一個回應是由策略內模型生成的,另一個回應是由策略外模型生成的。

3. 偏好標注

在為每個提示生成四個回復后,使用一個大型語言模型(LLM)作為裁判(GPT-4o-2024-0806),然后根據四個不同的方面(有幫助性、遵循指令、誠實性和真實性)對每個回復從1到5進行評分。

圖片


第四階段:可驗證獎勵的強化學習

研究人員引入了一種名為可驗證獎勵強化學習(RLVR)的新型方法,用于訓練語言模型完成具有可驗證結果的任務,比如數學問題解決和指令遵循。

RLVR基于現有的強化學習人類反饋(RLHF)目標,但將獎勵模型替換為驗證函數,當應用于具有可驗證答案的領域,其在GSM8K等基準測試上顯示出針對性的改進,同時還能保持其他任務的性能。

圖片

RLVR可以看作是現有引導語言模型推理的方法的簡化形式,或者是一種更簡單的強化學習形式,其中使用答案匹配或約束驗證作為二元信號來訓練模型。

圖片

圖片

RLVR數據主要包括兩個領域(數學、精確指令遵循),評估數據集為GSM8k, MATH和IFEval

圖片

為了提升效率,RLVR的實現細節主要包括:

1. 用通用獎勵模型來初始化價值模型;

2. 禁用dropout,在獎勵模型和強化學習訓練期間,將dropout概率設置為0,確保在策略模型和參考模型的前向傳遞過程中,token的對數概率可以確定性地計算,從而更準確地估計KL懲罰。此外,PPO在滾動階段和學習階段計算token的對數概率,重要的是要確保這兩個階段的token對數概率相匹配,如果使用dropout,對數概率差異會很大,導致裁剪后梯度為零。

3. 使用智能體訓練數據集并在周期之間隨機,PPO可以訓練的周期數超過可用提示的總數,有效地進行多個周期的訓練。在我們的RLVR消融實驗中,我們大約訓練了13個周期。我們在周期之間對提示進行洗牌。對于我們的最終運行,我們每40-100步檢查一次模型檢查點,并選擇在我們開發評估集上表現最佳的檢查點。

4. 非序列結束(EOS)懲罰:在訓練期間,PPO通常采樣固定數量的最大token。如果采樣的回復沒有以EOS token結束,給予-10的懲罰。

5. 優勢歸一化:過減去均值然后除以其標準差來歸一化優勢(advantages)。

研究人員首先將一個直接偏好優化(DPO)模型作為初始模型,然后進行了一系列消融實驗:

1. 單獨任務。分別在GSM8K、MATH和IFEval任務上應用了RLVR方法,并遍歷了一系列beta值。在評估時,關注可驗證的獎勵、KL散度和回應長度。

2. 價值模型初始化消融實驗。嘗試從一個通用獎勵模型和錨定的DPO模型初始化PPO的價值模型,并在GSM8K任務上遍歷一系列beta值。通用獎勵模型是使用UltraFeedback數據集訓練的。在評估時,檢查GSM8K測試評估得分和所有評估的平均得分。

3. 從獎勵模型得分的消融實驗。在獎勵模型的得分基礎上增加可驗證的獎勵,并在GSM8K任務上使用了一系列beta值進行實驗。

4. 從性能較弱的模型開始。模型的基礎能力也是一個干擾因素,使用平均得分較低的SFT模型進行另一組實驗。

TüLU 3評估

在后續訓練方法中,建立清晰的性能目標和評估工具非常關鍵。

研究人員發布了一個統一的標準化評估套件和一個工具包,以指導開發和評估最終模型,并對訓練數據進行凈化,以符合評估基準,主要目標包括:

1. 評估過程應該是可復現的;

2. 應該評估模型對未見任務的泛化能力,而不僅僅是我們用于開發的特定基準測試。

3. 評估設置(例如,提示的模板和策略)對各種模型公平。

開放語言模型評估系統(OLMES)

為了使評估更加標準化和可復現,研究人員開源了Open Language Model Evaluation System,其支持更廣泛的模型集合和任務、可以對每個任務進行靈活配置、直接訪問任務描述、分析模型預測、置信度等的詳細實例級的數據。

比如說,要復現Llama-3.1-8B-Instruct在MMLU-Pro上的結果,只需簡單運行類似「olmes –task mmlu_pro::tulu3 –model llama3.1-8b-instruct」的命令。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-06-11 07:03:00

大模型開源Qwen2

2025-08-07 14:05:40

OpenAI大模型開源

2024-07-24 09:20:45

2024-09-24 11:13:14

2025-11-06 09:03:00

2024-05-14 11:29:15

2025-04-16 09:15:00

AI模型數據

2025-01-15 12:27:11

2024-11-28 15:51:19

GPT-4o微軟

2025-02-05 12:53:21

2025-08-11 02:11:00

2024-07-22 15:13:24

2024-11-25 08:10:00

2025-08-14 10:25:11

2024-09-23 15:10:00

2024-08-30 14:35:00

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2025-01-06 13:15:02

2025-04-08 02:26:00

點贊
收藏

51CTO技術棧公眾號

日韩小视频在线观看| 伊人久久婷婷色综合98网| 欧美69xxx| 国产精品沙发午睡系列990531| 精品综合在线| 久久久久电影| 国产精品成熟老女人| 国产午夜久久av| 亚洲精品一二区| 国产偷倩在线播放| 欧美午夜不卡视频| 瑟瑟在线观看| 午夜精品久久久久久久久| 国产美女在线免费观看| 欧美国产丝袜视频| 亚洲视频在线a| 久久久噜噜噜久久中文字幕色伊伊| 国产情侣第一页| 丁香婷婷综合网| 欧美在线观看成人| 久久久精品国产免费观看同学| 又粗又黑又大的吊av| 99久久精品免费| 日韩精品一区二区三区不卡| 99久久久国产精品| 欧美成人黑人猛交| 国产精品电影院| 超碰在线94| 色综合久久久久综合| fc2在线中文字幕| 91精品国产综合久久小美女| 99福利在线| 日韩av在线网| 日韩伦理一区二区| 高清一区二区三区四区五区| 夜夜春成人影院| 成人午夜激情免费视频| 欧美日韩亚洲一区三区| 麻豆蜜桃91| 国产精品66部| 黄色一级大片在线观看| 一区视频在线播放| 韩国中文免费在线视频| 精品国产污污免费网站入口| 亚洲成人不卡| 性欧美在线看片a免费观看| 欧美日韩一区二区综合| 国产一区在线免费| 国产成人精品网址| 老司机在线免费视频| 欧美性色aⅴ视频一区日韩精品| 四虎亚洲精品| 久久免费视频3| 国产黄视频在线观看| 久久久亚洲国产美女国产盗摄 | 国产精品自产拍在线观看| 成人av在线影院| 天堂av中文在线| 超碰97人人在线| 色哟哟国产精品| 午夜dj在线观看高清视频完整版| 国产精品第一视频| 亚洲四区在线观看| 白浆视频在线观看| 欧美性生活一区| 成人精品天堂一区二区三区| 黄色免费看片| 99在线视频播放| 亚洲欧美激情一区二区| 国产图片一区| 日本一级在线观看| 亚洲精品自拍第一页| 国产成人午夜精品5599| 日韩精品第二页| 草b视频在线观看| 国产精品毛片a∨一区二区三区|国| 日韩欧美国产一区二区在线播放| 美女网站色91| 国产精品剧情一区二区在线观看| 97色在线视频观看| 欧美永久精品| 五月婷婷之综合激情| 亚洲天天在线日亚洲洲精| 99久久久国产精品| www.神马久久| 日本乱码一区二区三区不卡| 极品尤物一区二区三区| 日韩一级二级| 国产精品一区二区三区免费视频| 国内不卡的二区三区中文字幕| 麻豆电影传媒二区| 色yeye香蕉凹凸一区二区av| 日韩一级网站| 中文字幕av网| 久久99精品久久久久久青青91| 久久精品卡一| 在线免费国产视频| 欧美国产乱视频| 精品亚洲成a人| 欧美性videos| 国产一区二区视频在线观看| 99久久99久久精品国产片果冻| 国产一二三区在线观看| 国产精品久久久久一区二区 | 国产欧美日韩在线一区二区| 白白操在线视频| 欧美午夜精品一区二区三区| 精品一区不卡| 日本成人中文字幕在线| 亚洲欧美国产精品久久久久久久| 亚洲另类自拍| 青青九九免费视频在线| 国产成人+综合亚洲+天堂| 国产亚洲欧美日韩日本| 久久久久毛片| 欧美视频在线观看视频| 亚洲无线码在线一区观看| 青青草国产精品亚洲专区无| 你懂的视频在线| 国产中文字幕91| 亚洲国产精品一区二区久久| 亚洲丝袜啪啪| 97在线观看| 日本欧美爱爱爱| 亚洲视频狠狠干| 欧美毛片免费观看| 日本成人免费网站| 欧美亚洲成人免费| 亚洲欧美一区二区久久| 最新精品国偷自产在线| av男人的天堂网| 热久久免费国产视频| 亚洲精品精品亚洲| 日韩精品一区二区三区免费观看| 免费男女羞羞的视频网站主页在线观看 | 成人毛片高清视频观看| 欧美激情综合色| 国产精品久久久爽爽爽麻豆色哟哟 | 色综合天天综合网天天看片| 999久久久亚洲| 日韩av在线播放资源| 视频精品一区二区| 丁香高清在线观看完整电影视频| 视频二区一区| 国产亚洲一区二区精品| www.在线欧美| 巨人精品**| 激情六月丁香| 99久久自偷自偷国产精品不卡| 日本黄色一区二区| 日韩影院免费视频| 91成人在线| 91福利免费| 91久久在线视频| 欧美一级片免费看| 国产成人亚洲精品青草天美| 三级欧美日韩| 天天槽夜夜槽| 久久精品一二三区| 亚洲欧美另类自拍| 国产精品久久综合| 国产精品二区不卡| 欧美黄色激情| 免费在线看黄色片| 欧美在线视频观看免费网站| 亚洲成人免费观看| 麻豆成人91精品二区三区| 精品国产三区在线| 四虎精品成人影院观看地址| 欧美二级三级| 久久精品久久精品亚洲人| 伊人色综合久久天天| 国产偷自视频区视频一区二区| 成人黄色在线| 在线视频尤物| 喜爱夜蒲2在线| 青草成人免费视频| 欧美一区二区在线不卡| 2014亚洲片线观看视频免费| 日韩欧美在线中字| 国产高潮在线| 丁香婷婷激情| 亚洲最新在线| 国产精品视频在线播放| 亚洲国产黄色片| 亚洲综合另类小说| 国产一区二区三区视频在线播放| 国产女人18毛片水真多18精品| 黄色网址视频在线观看| 不卡av免费在线| 欧美日韩免费精品| 欧美综合第一页| 亚洲美女自拍视频| 精品久久久精品| 国产精品自拍一区| 激情另类综合| 日韩成人av在线资源| 偷拍中文亚洲欧美动漫| 超碰在线影院| 国产午夜在线|