国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

超越DeepSeek V3!Ai2再祭開源殺器Tülu 3,強化學習打破性能瓶頸

人工智能
當我們在歡呼Deepseek超越ChatGPT時,來自美國的艾倫人工智能研究所(Ai2)推出了基于強化學習的新一代開源模型Tülu 3 405B,不僅能夠媲美GPT-4o,更在多項關鍵基準測試中超越了DeepSeek v3。

2024年11月,艾倫人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等參數的Llama 3.1 Instruct版本,并在長達82頁的論文中公布其訓練細節,訓練數據、代碼、測試基準一應俱全。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2411.15124

1月30日,更大杯的Tülu 3 405B震撼登場。

Tülu 3 405B在許多標準的基準測試中均實現了與Deepseek v3和GPT-4o相當或更優的性能,而且也超越了許多先前發布的后訓練開源模型(同等參數規模),包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。

圖片圖片

各項基準結果比較,最后一列是強化學習優化過的Tülu 3 405B的表現,在多項指標上超越了Deepseek V3

不過在官網提供的體驗版上試了試,效果也并不是那么好,對于經典的數Strawberry中有幾個r的問題,Tülu 3同樣撲街,不過之后需要推理的問題,模型倒是給出了正確的回答思路。

圖片圖片

demo傳送門:https://playground.allenai.org/

至于其生成出的一些與蛇相關的格言,大多都沒有理解傳統文化中「蛇」的寓意,顯得牛頭不對馬嘴。

圖片圖片

對于想體驗本地大模型的讀者,Tülu 3 8B和70B已支持ollama下載,可以方便地集成使用,相信405B也會盡快上線ollama平臺。

Tülu 3的煉丹術如何 

早期的語言模型后訓練工作遵循了由InstructGPT等模型開創的標準方法,包括指令微調(instruction-tuning)和偏好微調(preference fine-tuning)。

自此以后,后訓練方法的復雜性和精密度不斷增加,但大多數成功的后訓練模型對其訓練數據、代碼或訓練方法的披露非常有限。在眾多后訓練研究中,Ai2罕見地選擇了完整發布訓練數據、方法和研究成果,包括最新的Tülu 3在內。

圖片圖片

倉庫地址:https://github.com/allenai/open-instruct

Tülu 3的全部構建流程如下圖所示,包括主要包括數據、訓練和評估三部分。

圖片圖片

Tülu 3項目始于確定通用語言模型的關鍵期望能力,包括知識、推理、數學、編程、指令遵循、日常聊天和安全性。

其中最關鍵的模型訓練,是在預訓練語言模型(即Llama 3 Base)的基礎上采用四階段后訓練配方,四階段依次是:

1)精心策劃和合成式提示(prompt);其使用的提示詞來源如下:

圖片圖片

2)在精心挑選的提示詞以及相應生成內容的混合數據集上進行監督微調,以針對核心技能優化模型;同時為了保證模型安全性,使用如下帶有攻擊性提示詞的數據,訓練Tülu 3讓其盡可能不會被攻破。

圖片圖片

3)結合離線和在線策略偏好數據以應用偏好微調;

圖片圖片

具體來說,就是在之前提示詞的基礎上,再生成一些不同的新提示詞,通過22種開源大模型生成回答,讓GPT-4o對各模型給出的回答在有用程度、真實性、誠實性及指令遵循上的表現進行打分,決定是否接受該回答作為訓練數據。

4)一種新的基于強化學習(RL)的方法,通過可驗證獎勵來增強特定技能;

具體來說,Tülu 3使用了一種獨創的后訓練方法,稱為:可驗證獎勵強化學習(Reinforcement Learning from Verifiable Rewards,簡稱RLVR),流程圖如下所示。

這種新的訓練方法專門針對具有可驗證結果的任務,例如數學問題求解和指令遵循問題。根據訓練數據和提示詞,明確判斷問題是否完成,從而更新策略函數。

圖片圖片

有趣的是,訓練采用的可驗證獎勵強化學習框架在更大規模(例如405B)上對數學性能的提升更為顯著,這與DeepSeek-R1報告中的發現類似,即相比70B和8B參數規模,405B模型由強化學習帶來的提升更為明顯。

對此,可能的解釋是小型模型從更多樣化的數據中受益更多,而大型模型更適合處理需要專門數據的復雜任務。

訓練Tülu 3 405B時使用了32個節點(256個GPU)并行運行。對于推理,可使用vLLM部署模型,采用16路張量并行,同時利用剩余的240個GPU進行訓練。

鑒于計算成本有限,超參數調整受到限制。訓練時遵循了「參數更大的模型采用較低學習率」的原則,這與Llama模型之前的實踐一致。

圖片圖片

上圖展示了在405B的參數量上,MATH數據集的可驗證獎勵、KL散度和模型響應長度隨訓練輪次的變化曲線,總體而言,可驗證獎勵像在8B和70B設置中觀察到的那樣上升。

圖中星號標記對應最終檢查點的位置。論文表示,團隊本打算訓練更長時間,但由于計算資源限制而被迫停止。由于在訓練過程中沒有觀察到數學性能飽和,進一步訓練可能會進一步提升性能。

總體來看,Tülu 3采用了全新的后訓練框架,包括完全開源的數據(Tülu 3 Data)、評估(Tülu 3 Eval)、訓練代碼(Tülu 3 Code)以及開發配方(Tülu 3 Recipe),并在性能上超越了同尺度的開源及閉源模型。

Tülu 3標志著開放后訓練研究的一個新的里程碑。憑借Ai2披露的信息和研究成果,其他人可以在開放的基礎模型上繼續構建,并針對多樣化任務進行微調以實現高性能,這為在多目標和多階段訓練框架內推進后訓練研究鋪平了道路,其提出的訓練方法也值得開發者借鑒。

參考資料:https://arxiv.org/pdf/2411.15124

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-12-30 20:32:36

2024-12-10 16:00:00

AI開源

2024-12-30 09:25:00

數據訓練摩擦

2025-03-26 09:12:59

DeepSeek VChat2BISQL

2025-08-25 09:03:00

2025-02-20 08:45:41

V3GPU資源

2025-05-06 08:40:00

2025-07-14 09:23:45

2025-07-22 10:43:25

2025-12-05 02:01:00

DeepSeekV3.2技術推理模型

2025-02-07 11:00:00

模型開源AI

2024-12-27 09:50:00

模型數據測試

2014-02-25 16:13:48

華為服務器英特爾

2021-04-30 15:45:42

存儲人工智能數據

2024-12-23 14:40:00

AI模型訓練

2025-02-03 00:00:01

Ai2o1LLM

2025-02-19 15:40:44

2023-08-31 13:37:00

訓練模型
點贊
收藏

51CTO技術棧公眾號

亚洲欧美二区三区| 亚洲第一区在线观看| 欧美日韩国产免费一区二区三区 | 高清欧美性猛交xxxx黑人猛交| 日本在线影院| 91久久一区二区| 午夜男人视频在线观看| 亚洲色图视频网| 免费黄色一级网站| 成人丝袜18视频在线观看| 中国成人亚色综合网站| 久久深夜福利| 相泽南亚洲一区二区在线播放| 国产精品毛片一区二区三区| 国产精品一码二码三码在线| 亚洲欧美日韩高清在线| 92看片淫黄大片看国产片| 999国产精品999久久久久久| 成人精品一区二区三区电影免费| 精品久久久久中文字幕小说| 国产精品黄色av| 成人同人动漫免费观看| 国产欧美日韩最新| 欧美精品二区| 欧美一区二区在线| 久久激情五月激情| www.欧美黄色| 久久久99精品免费观看不卡| 亚洲无吗一区二区三区| 亚洲欧美成人一区二区三区| 李宗瑞系列合集久久| 欧美日韩在线看| 1024视频在线| 亚洲激情视频在线播放| 黄色成人免费网| 最近2019中文字幕第三页视频 | 亚洲最新视频在线播放| 中文字幕在线永久在线视频| 欧美视频在线观看免费| a天堂中文在线| 精品国产网站在线观看| 国产精品第一| 欧美一级视频免费在线观看| 五月天久久网站| 极品尤物一区二区三区| 国产九九视频一区二区三区| 亚洲成熟丰满熟妇高潮xxxxx| 亚洲欧洲国产日韩| 国产在线91| 亚洲欧洲美洲在线综合| 精品国产一区二区三区成人影院| 91九色在线视频| 精品一区二区日韩| 色免费在线视频| 在线一区二区三区四区| 五月天国产在线| 97在线免费观看| 在线观看一区| 欧美精品久久久久久久免费| 亚洲伊人色欲综合网| 免费在线中文字幕| 欧美黑人狂野猛交老妇| 午夜精品久久| 99热这里只有精品7| 中文字幕成人网| 欧美精品电影| 久久久精品日本| 久久久久久久久久久9不雅视频| 日本黄色a视频| 一区二区激情小说| 中文字幕成在线观看| 国产成人精品久久| 黑人精品欧美一区二区蜜桃| 久久白虎精品| 一区二区三区四区精品| 天天做天天爱天天爽综合网| 欧美人成在线观看| 欧美伊人久久久久久久久影院| 国外成人福利视频| 翡翠波斯猫1977年美国| 成人av在线播放网址| 黄色片视频在线观看| 波霸ol色综合久久| 亚洲作爱视频| 日本加勒比高清在线| 亚洲国产成人精品一区二区 | 欧美日韩在线中文| 欧美色倩网站大全免费| 欧美久久亚洲| 欧美激情第六页| 一区二区三区不卡视频在线观看| 免费高潮视频95在线观看网站| 国产精品成熟老女人| 国产福利91精品| bbbbbbbbbbb在线视频| 欧美精品福利视频| 国产一区欧美二区| 97超碰人人在线| 国产精品6699| 久久综合久久综合九色| 69av成人| 玛丽玛丽电影原版免费观看1977 | 欧美曰成人黄网| 私拍精品福利视频在线一区| 在线观看污视频| 欧美视频一区在线| 国精一区二区| 狠狠热免费视频| 国产一区二区三区丝袜| 久久精品亚洲一区二区| 可以在线观看的av网站| 欧美精品video| 波多野结衣亚洲一区| www红色一片_亚洲成a人片在线观看_| 国产精选久久久久久| 国产精品丝袜一区| 国产高清亚洲| 欧美在线一区视频| 亚洲美女在线视频| 蜜臀av国产精品久久久久| 在线观看美女网站大全免费| 国产一区二区在线播放| 亚洲综合色丁香婷婷六月图片| 国产96在线亚洲| 中文字幕第36页| 超碰91人人草人人干| 成人午夜免费视频| 成人国产一区| 免费观看美女裸体网站| 原创国产精品91| 成人免费高清视频| 欧美视频免费看| 国产素人在线观看| 日韩亚洲欧美中文在线| 成人av免费在线| 欧美激情不卡| 天堂中文视频在线| 91精品国产高清久久久久久久久| 国产精品欧美精品| 久久91成人| 青青草免费在线视频| 超碰97在线播放| 欧美精品视频www在线观看| 国产精品美女久久久浪潮软件| 麻豆传媒免费在线观看| 日韩欧美一区二区在线观看 | 久久青草福利网站| 中文字幕在线免费不卡| 九九热精品视频在线观看| 有色激情视频免费在线| 91影院在线免费观看视频| 在线国产电影不卡| 日韩不卡一二三区| 日韩免费福利视频| 久久久久久久少妇| 国产精品黄色av| 欧美日韩高清一区二区| 日韩av电影免费观看高清完整版| 2020av在线| 97av视频在线观看| 8050国产精品久久久久久| 婷婷国产v国产偷v亚洲高清| 国产亚洲精品久久久久婷婷瑜伽| 毛片在线网站| 国产超碰在线播放| 国产日本欧美一区二区三区在线| 欧美精品黑人性xxxx| 国产精品18久久久久久久网站| 久久免费精品| 欧美香蕉爽爽人人爽| 中文精品视频一区二区在线观看| 欧美成人激情图片网| 欧美日韩国产精品一区二区三区四区 | 91成人天堂久久成人| 色婷婷综合久色| 久久99国产精品免费网站| 国产成人精品一区二区三区在线 | 欧美亚洲另类在线| 日本道免费精品一区二区三区| 精品在线一区二区| 91夜夜蜜桃臀一区二区三区| 在线免费观看av网站| 一区二区三区欧美成人| 色综合男人天堂| 欧美性大战久久久| 91视频com| 狠狠入ady亚洲精品| 成人黄色免费网站| 国产一区二区久久精品| 欧美黑人一级爽快片淫片高清| 亚洲人成精品久久久久| 国产亚洲成人一区| 久久aimee| 丁香花在线影院| 高清国语自产在线观看| 亚洲v国产v| 国产精品久久久久影院日本| 亚洲欧美一区二区三区在线| 欧美视频免费在线观看| 久久日韩粉嫩一区二区三区|