国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Kimi硬剛多模態滿血版o1,首曝訓練細節!強化學習scaling新范式誕生

人工智能 新聞
來了來了,月之暗面首個「滿血版o1」來了!這是除OpenAI之外,首次有多模態模型在數學和代碼能力上達到了滿血版o1的水平。

還記得嗎,AI大神Karpathy曾說過,「英文是最熱門的編程語言」。

兩年后的現在,這個規則徹底要被顛覆了。

從今天起,中文很有可能成為全球最熱門的編程語言!

圖片

就在剛剛,Kimi發布了k1.5 多模態思考模型。這是繼去年 11 月他們發布 k0-math 數學模型,12月發布 k1 視覺思考模型之后,連續第三個月帶來 k 系列強化學習模型的重磅升級。

Kimi k1.5的性能,如今已經全面追上現役全球最強模型——OpenAI o1滿血版。

圖片

具體來說,在Long CoT模式下,Kimi k1.5的數學、代碼、多模態推理能力,達到了長思考SOTA模型OpenAI o1滿血版的水平。這也是全球范圍內,首次有OpenAI之外的公司達到。

而在Short CoT模式下,Kimi k1.5大幅領先GPT-4o 和Claude 3.5的水平。

圖片

圖片

短COT模式下,數學成績顯著高于GPT-4o和Claude Sonnet 3.5

同時,月之暗面也大方公開了這個滿血版o1水平的強化學習模型的訓練技術細節。

簡單出奇跡,首創long2short思維鏈

扒開Kimi k1.5 25頁技術報告,可以清晰看到這款模型的技術創新之處。

當前,基于下一個token預測的語言模型,在計算規模上的擴展,已經得到了有效證明。

但模型Scaling仍受限于可用的數據量,為此,Kimi團隊創新性地擴展了強化學習(RL)的應用,開辟出一條全新的路徑。

它能夠讓LLM通過獎勵機制進行探索性學習,從而自主擴展訓練數據,從而實現計算規模有效擴展。

圖片

論文地址:https://github.com/MoonshotAI/kimi-k1.5

以下,是k1.5設計和訓練的四大關鍵要素:

1. 長上下文擴展

2. 改進的策略優化

3. 簡化框架

4. 多模態

接下來,我們一起深挖一下這些技術細節吧。

短CoT模型的上下文壓縮

與業界普遍采用復雜技術做法不同,Kimi團隊選擇了一條更為優雅的技術路線——回歸第一性原理。

他們證明了,無需依賴蒙特卡洛樹搜索、價值函數、過程獎勵模型,也能讓模型取得卓越的性能。

如上所見,我們已經看到了Kimi k1.5在多個權威基準測試中,取得了顯著的突破。

那么,long2short是如何被實現的呢?

Kimi團隊認為,可以將長CoT模型的推理先驗轉移到短CoT模型中,從而即使在有限的測試Token預算下也能提高性能。

模型合并

將長CoT模型和短CoT模型進行合并,除了可以在泛化性上起到積極的作用,還可以提高Token的使用效率。

這種方法通過簡單地平均兩個模型的權重,將一個長CoT模型與一個短模型結合,得到一個新的模型,而無需進行訓練。

最短篩選采樣

由于模型對于同一問題生成的響應長度變化很大,因此團隊設計了一種最短篩選采樣方法。

也就是,先對同一問題采樣n次,然后選擇最短的正確響應進行監督微調。

DPO

利用長CoT模型生成多個響應樣本,然后選擇最短的正確解作為正樣本,并將較長的響應視為負樣本,包括正確但長度是選定正樣本1.5倍的較長響應。

這些正負樣本對數據集形成了用于DPO訓練的成對偏好數據。

long2short強化學習

在標準強化學習訓練階段之后,團隊選擇了一個在性能與Token使用效率之間提供最佳平衡的模型作為基礎模型,并進行單獨的long2short強化學習訓練階段。

在第二階段中,他們應用了「長度懲罰」,并顯著減少了最大展開長度,以進一步懲罰可能正確但超出期望長度的響應。

強化學習基礎設施

Kimi k1.5系統設計了一種迭代同步的RL框架,旨在通過持續的學習與適應來增強模型的推理能力。

該系統的一項關鍵創新是引入了部分回滾(Partial Rollout)技術,用于減少計算開銷并優化復雜推理軌跡的處理。

如下圖3a所示,RL訓練系統通過迭代同步的方法運行,每次迭代包含回滾階段和訓練階段。

在回滾階段,由中央主控協調的回滾工作節點通過與模型交互生成回滾軌跡,這些軌跡是模型對各種輸入生成的響應序列。在隨后的訓練階段,訓練工作節點訪問這些經驗以更新模型的權重。

這個循環過程使模型能夠持續從其行為中學習,隨著時間的推移調整其策略以提升性能。

圖片

長CoT強化學習的部分回滾技術

部分回滾(Partial Rollouts)能夠通過同時管理長軌跡和短軌跡的回滾,有效地解決處理長CoT特性時的資源分配和效率挑戰,進而實現長上下文強化學習(RL)訓練的規模擴展。

該技術設定了一個固定的輸出Token預算,對每個回滾軌跡的長度進行限制。如果某個軌跡在回滾階段超過了Token限制,其未完成部分被保存到重放緩沖區,并在后續迭代中繼續處理。

此外,由于回滾工作節點是異步運行的,當某些節點處理長軌跡時,其他節點可以獨立地處理新的短回滾任務。

如圖3b所示,部分回滾系統通過在多次迭代中將長響應分解為多個片段來運行,顯著降低了計算開銷——系統無需一次性處理整個響應,而是逐步處理和存儲片段,從而在保持快速迭代時間的同時生成更長的響應。

部分回滾的實現還提供了重復檢測功能。系統能夠識別生成內容中的重復序列并提前終止,從而減少不必要的計算,同時保持輸出質量。

圖片


訓練與推理的混合部署

研究者提出了一種用于訓練和推理任務的混合部署策略,該策略利用Kubernetes的Sidecar容器共享所有可用GPU,將兩種任務協同部署在同一個Pod中。這一策略的主要優勢包括:

  1. 促進了資源的高效共享與管理,避免了訓練節點因等待推理節點而處于空閑狀態(當兩者部署在不同節點時)
  2. 通過使用不同的部署鏡像,訓練和推理可以獨立迭代,從而實現更好的性能
  3. 架構并不限于vLLM,還可以方便地集成其他框架

如圖4所示,研究者在Megatron和vLLM的基礎上實現了這一混合部署框架,從訓練到推理階段不到一分鐘的轉換時間,反向轉換則約為十秒鐘。

圖片

實驗結果

由于k1.5是一個多模態模型,研究者對不同模態的各種基準進行了綜合評估。基準測試主要包括以下三類:

  • Text Benchmark:MMLU, IF-Eval, CLUEWSC, C-EVAL
  • Reasoning Benchmark:HumanEval-Mul, LiveCodeBench, Codeforces, AIME 2024, MATH500
  • Vision Benchmark:MMMU, MATH-Vision, MathVista

k1.5長CoT模型

Kimi的k1.5長CoT模型通過長CoT監督微調和視覺-文本聯合強化學習,在長距離推理上獲得了顯著的增強。

評估顯示,模型在長上下文中的推理、理解和信息綜合能力方面有了顯著提升,標志著多模態AI能力的顯著進步。

圖片

k1.5短CoT模型

Kimi的k1.5短CoT模型集成了多種技術,包括傳統監督微調方法、強化學習以及長到短知識蒸餾。

如表3所示,k1.5短CoT模型在覆蓋多個領域的多項任務中表現出與領先的開源和專有模型相當或更優的性能。

圖片

長上下文Scaling

研究者使用一個中型模型,來研究結合LLM的強化學習的擴展特性。如圖5所示,隨著訓練的進行,模型響應長度和性能準確率同時增加。

尤其值得注意的是,在更具挑戰性的基準測試中,響應長度的增長更為陡峭,這表明模型在處理復雜問題時學會生成更詳盡的解決方案。

圖片

圖6表明,模型輸出的上下文長度與其問題解決能力之間存在顯著的相關性。

最終,k1.5模型的運行能支持128k上下文長度,并在困難的推理基準測試中持續取得改進。

圖片

由長到短

研究者重點研究了long2short問題中的Token效率,特別是長CoT模型如何提升短模型性能。

如圖7所示,提出的long2short強化學習算法在Token效率方面優于其他方法(如DPO和模型合并)。

值得注意的是,k1.5系列的所有模型(用橙色標記)在Token效率上都優于其他模型(用藍色標記)。

圖片

思考模型,進入沖刺

可以看到,在多模態推理技術路線上,Kimi又進了一步。

從2024年11月,他們首次推出的數學推理模型K0-math就展現出了在數學領域的領先性。

緊接著一個月后,K1視覺思考模型誕生,不僅繼承了K0-math的數學底蘊,更突破性地解鎖了視覺理解能力。

這意味著,K1不僅「會算」,還能「會看」——通過理解圖片中的信息,并通過逐步推理得出答案。

如今,k1.5又繼續向前推進了一步,在多個領域數理化、代碼、通用中,刷新了SOTA,甚至能夠媲美世界頂尖模型。

圖片

下一步,Kimi依舊會發力多模態推理,繼續迭代出能夠在更多模態、更多領域、具備更強通用能力的Kn系列的模型。

k1.5已經帶來了諸多驚喜,還真是有點期待下一代模型的到來。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-01-21 08:00:00

2024-09-18 10:37:00

強化學習AI模型

2024-09-14 14:00:00

AI模型

2024-11-05 14:20:00

AI模型

2025-01-21 13:15:15

2025-02-03 00:00:01

Ai2o1LLM

2024-12-06 11:44:48

Pro模式AI人工智能

2024-09-13 06:32:25

2025-06-24 08:45:00

強化學習算法AI

2024-12-06 08:36:31

2025-02-20 09:11:28

2023-05-04 15:53:34

強化學習開發

2025-02-03 14:17:27

2025-09-24 08:53:10

2024-12-16 16:05:34

2025-06-26 09:13:22

2025-10-11 04:00:00

2025-05-06 08:40:00

2020-04-15 16:44:38

谷歌強化學習算法

2025-02-14 11:18:57

點贊
收藏

51CTO技術棧公眾號

欧美人与禽zozo性伦| 亚洲风情亚aⅴ在线发布| 国产日韩精品视频| 九九久久国产| 欧美亚洲尤物久久| 日韩精品中文字幕视频在线| 色哟哟入口国产精品| 国产三级在线免费观看| 狠狠网亚洲精品| 第四色亚洲色图| 99久久亚洲精品| 大地资源中文在线观看免费版| 亚洲精品不卡在线| 国产三区视频在线观看| 免费看久久久| 日韩高清不卡av| 国产精品影院在线| 一区二区三区免费| 91超碰碰碰碰久久久久久综合| 中文字幕乱码一区二区三区| 91一区二区三区四区| 欧美黑人xxxx| 日韩电影精品| 亚洲精品mp4| 中文字幕免费高清电视剧网站在线观看| 亚洲国产精品精华液网站| 成人亚洲视频在线观看| 丁香激情综合国产| 五月天亚洲综合情| 99在线精品视频在线观看| 国产日韩欧美夫妻视频在线观看 | 国产系列电影在线播放网址| 国产精品美日韩| 欧美不卡在线播放| 日韩av一级电影| 久久国产日韩欧美| 在线国产日韩| 91丝袜美腿美女视频网站| 免费一区二区| 欧美一区二区三区……| 日韩精品一区二区三区中文 | 成人免费在线一区二区三区| 亚洲伦理影院| 亚洲天堂av电影| 激情aⅴ欧美一区二区欲海潮| 亚洲二区在线视频| 天天影视色香欲综合网天天录日日录| 国内精品第一页| 欧美婷婷久久| 国模无码大尺度一区二区三区| 天堂在线一二区| 美女性感视频久久久| 99久久久国产精品免费调教网站| 日本蜜桃在线观看视频| 亚洲精品白浆高清久久久久久| 国产在线激情视频| 宅男在线国产精品| 性欧美大战久久久久久久| 六月婷婷一区| 亚洲欧美综合一区| 亚洲图片激情小说| 青娱乐自拍偷拍| 男人操女人的视频在线观看欧美| 午夜精品在线观看| 久久精品久久久| 日韩精品一区二区三区外面| 日韩一区中文字幕| 久久福利一区二区| 久久国产人妖系列| 国产精品v欧美精品∨日韩| 24小时成人在线视频| 欧美激情亚洲综合一区| 欧美日韩第一| 欧美丰满老妇厨房牲生活| sis001欧美| 舔着乳尖日韩一区| 神马久久影视大全| 亚洲欧美日韩中文字幕一区二区三区 | 欧美日韩一二| 国产成人精品日本亚洲| 欧美aaaa视频| 一级毛片电影| 亚洲精品国精品久久99热| 97精品国产综合久久久动漫日韩| 26uuu国产电影一区二区| 高清国语自产在线观看| 欧美三级视频在线播放| av免费在线一区| 国产999在线观看| 羞羞答答国产精品www一本| 色综合av综合无码综合网站| 调教+趴+乳夹+国产+精品| 亚洲天堂资源| 成人av色在线观看| 成人动漫一区二区三区| 国产一二三区在线| 北条麻妃一区二区三区中文字幕| 伊人久久大香线| 霍思燕三级露全乳照| 色婷婷亚洲精品| 亚洲色图综合| 精品免费国产| 国产精品久久久久四虎| 欧美卡一卡二| 国产精品免费久久久久影院| 国产在线乱码一区二区三区| 中文在线三区| 久久中文字幕视频| 久久激情婷婷| 在线看片线路1| 久久av.com| 久久国产精品色| 成人午夜在线观看视频| 91精品国产色综合久久不卡98口 | 亚洲精品乱码久久久久久日本蜜臀| 日本网站在线免费观看视频| 成人97在线观看视频| 久久激情视频| 天堂аⅴ在线最新版在线 | 欧美不卡视频一区| 久久99久久人婷婷精品综合 | 国产福利视频一区二区| 国产成人午夜99999| 超碰在线国产| 欧洲成人性视频| 国产麻豆精品久久一二三| 深夜福利视频在线免费观看| 欧美夫妻性生活视频| 国产乱码精品一区二区三区av| 超碰在线影院| 95av在线视频| 亚洲成a人片在线不卡一二三区| 欧美日本三级| 9191国产视频| 国产精品乱码人人做人人爱| 亚洲mv在线观看| 麻豆精品一区二区| 91成人短视频在线观看| 国产精品久久7| 亚洲成人在线网站| 国产精品对白| 色综合久久久久无码专区| 亚洲精品mp4| 久久免费国产| 国产日本在线视频| 国产日韩综合一区二区性色av| 中文字幕欧美区| 精品一区二区三区四区五区| 99久久99久久精品| 国产婷婷成人久久av免费高清| 久久精品盗摄| 菠萝菠萝蜜在线观看| 国产视频不卡| 欧美日韩日日摸| 欧美日韩a区| 91caoporn在线| 精品毛片久久久久久| 欧美美女一区二区在线观看| 午夜国产精品视频免费体验区| 青青久草在线| 国产精品一区视频网站| 欧美在线免费播放| 亚洲毛片网站| bt在线麻豆视频| 日韩一区二区三区高清| 亚洲精品一区在线观看| 麻豆精品在线播放| zzzwww在线看片免费| 欧美性受xxxx黑人猛交88| 日韩av在线播放资源| 国产精品一区二区三区乱码 | 91麻豆精品在线观看| 国产精品久一| 青青青在线视频免费观看| 久久久亚洲国产| 国产精品传媒在线| 精品国精品国产自在久国产应用| 草久在线视频| 北条麻妃高清一区| 欧美一区二区三级| 久久精品久久99精品久久| 国产综合色在线观看| 久章草在线视频| 国产精品91免费在线| 欧美在线啊v一区| 日本aⅴ精品一区二区三区| 中文另类视频| 色偷偷亚洲第一成人综合网址 | 欧美一级视频免费在线观看| 亚洲成人精品在线观看| 国产欧美成人| 亚洲无av在线中文字幕| 2022国产精品| 91在线无精精品一区二区| 国产亚洲午夜高清国产拍精品 | 欧美日韩免费在线视频| 精品亚洲aⅴ乱码一区二区三区| 亚洲爽爆av| 在线观看免费视频一区二区三区| 日韩免费一区二区三区|