国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智能版本,還是多模態(tài)

人工智能 新聞
從雙模退火訓(xùn)練到 BPO 優(yōu)化,R-4B 不僅解決了 MLLMs 的思考困境,更在小尺寸模型上探索了自適應(yīng)思考的可行性 。

本研究由中科院自動(dòng)化所和騰訊混元聯(lián)合研發(fā),團(tuán)隊(duì)成員包括 Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng,  Jie Jiang

背景:多模態(tài)大模型的思考困境

當(dāng)前,業(yè)界頂尖的大模型正競相挑戰(zhàn)“過度思考”的難題,即無論問題簡單與否,它們都采用 “always-on thinking” 的詳細(xì)推理模式。無論是像 DeepSeek-V3.1 這種依賴混合推理架構(gòu)提供需用戶“手動(dòng)”介入的快慢思考切換,還是如 GPT-5 那樣通過依賴龐大而高成本的“專家路由”機(jī)制提供的自適應(yīng)思考切換。它們距離真正意義上的“智能思考”仍有距離。這些方案或?qū)⑴袛鄩毫D(zhuǎn)移給用戶,或受限于復(fù)雜的系統(tǒng)架構(gòu)和高昂的部署成本。因此,研發(fā)一款輕量化、支持多模態(tài)且能實(shí)現(xiàn)更智能自適應(yīng)思考的大模型,將為用戶提供更加流暢的交互體驗(yàn)。

近期,由騰訊混元團(tuán)隊(duì)與中科院自動(dòng)化所合作的一項(xiàng)最新研究推出 R-4B 多模態(tài)大模型,通過自適應(yīng)思考(auto-thinking)機(jī)制,改變了這一現(xiàn)狀,它讓 AI 能像人類一樣 “智能切換” 思維模式。簡單問題直接響應(yīng),復(fù)雜問題深度推理,在最大化回答準(zhǔn)確性的同時(shí),最小化計(jì)算開銷。

  • 論文標(biāo)題:R-4B: INCENTIVIZING GENERAL-PURPOSE AUTOTHINKING CAPABILITY IN MLLMS VIA BI-MODE ANNEALING AND REINFORCE LEARNING
  • 論文鏈接:https://arxiv.org/pdf/2508.21113

這一 “按需思考” 的核心能力,為 4B 量級的多模態(tài)模型樹立了全新的性能標(biāo)桿,使其在評測性能指標(biāo)上成功超越了 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大規(guī)模的模型。

同時(shí),R-4B 在權(quán)威基準(zhǔn) OpenCompass 榜單上取得了優(yōu)異成績。

  • 登頂 OpenCompass 多模態(tài)學(xué)術(shù)榜單:在 20B 以內(nèi)規(guī)模多模態(tài)大模型中,性能排名 Top 1!

  • 位列 OpenCompass 多模態(tài)推理榜單開源榜首:在開源模型中,推理性能拔得頭籌! 

目前,該模型已在 GitHub 和 HuggingFace 上線,且支持 vLLM 快速部署。「消費(fèi)級顯卡即可運(yùn)行,適用于筆記本電腦、智能座艙、智能家居等低功耗場景,支持垂直領(lǐng)域低成本微調(diào)。」截至目前下載量已破萬,歡迎大家體驗(yàn)!

  • GitHub 代碼倉庫:https://github.com/yannqi/R-4B 
  • Hugging Face 模型下載:https://huggingface.co/YannQi/R-4B

突破:R-4B 的自適應(yīng)思考引擎

R-4B 的智慧之處在于其自適應(yīng)思考能力:

  • 遇到簡單問題(簡單實(shí)體識(shí)別、簡易問答),它選擇直接、高效地響應(yīng)。
  • 面對復(fù)雜任務(wù)(如數(shù)學(xué)計(jì)算、圖表分析),它則自動(dòng)切換到深度思考模式,生成詳細(xì)的思考過程。

R-4B 的核心創(chuàng)新在于其獨(dú)特的兩階段訓(xùn)練策略。為實(shí)現(xiàn)模型在通用領(lǐng)域的自適應(yīng)思考,研究團(tuán)隊(duì)首先提出雙模退火(bi-mode annealing)訓(xùn)練策略,促使模型同時(shí)掌握通用領(lǐng)域的思考與非思考能力。

該階段可以理解為對模型進(jìn)行 “思考” 啟蒙,即同時(shí)喂給它兩種范式數(shù)據(jù):一種需要直接回答(非思考模式,像日常對話),另一種需要詳細(xì)推理(思考模式,像解數(shù)學(xué)題)。通過這種訓(xùn)練,模型同時(shí)掌握了思考和非思考這兩種響應(yīng)模式,為后續(xù)的自適應(yīng)思考模式訓(xùn)練打下堅(jiān)實(shí)基礎(chǔ)。該階段的核心是通用領(lǐng)域推理和非推理模式的數(shù)據(jù)構(gòu)建策略:針對客觀題,用模型采樣的答案一致性來衡量題目的難易程度;針對主觀題目,用提示工程的方式去區(qū)分解決問題是否需要進(jìn)一步思考。

  • 推理模式數(shù)據(jù):涵蓋圖表分析、邏輯推理等需多步推理的任務(wù)(如科學(xué)圖解或數(shù)學(xué)問題)。
  • 非推理模式數(shù)據(jù):針對直接事實(shí)響應(yīng)的查詢(如實(shí)體識(shí)別或簡單問答)。

經(jīng)過退火訓(xùn)練,得到一個(gè)同時(shí)精通思考與非思考模式的基礎(chǔ)模型 R-4B-Base ,為后續(xù)自適應(yīng)思考強(qiáng)化訓(xùn)練奠定基礎(chǔ)。基于此,團(tuán)隊(duì)開發(fā)了雙模策略優(yōu)化(Bi-mode Policy Optimization, BPO)強(qiáng)化學(xué)習(xí)算法。它無需依賴精心設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)或特定數(shù)據(jù),而是僅依賴基于規(guī)則的獎(jiǎng)勵(lì)信號(hào),從數(shù)學(xué)數(shù)據(jù)出發(fā),并可泛化到通用領(lǐng)域。其核心是混合雙模 rollout 機(jī)制,通過強(qiáng)制模型在訓(xùn)練中同時(shí)探索思考模式和非思考模式軌跡,從而避免模型陷入對單一模式的響應(yīng)偏好。在此基礎(chǔ)上,通過同時(shí)獎(jiǎng)勵(lì)兩種思考模式的策略,使模型自己學(xué)會(huì)判別何時(shí)應(yīng)該思考。

性能表現(xiàn):小模型,大能量

R-4B-RL 模型在多項(xiàng)公開基準(zhǔn)測試中性能表現(xiàn)卓越,刷新了現(xiàn)有記錄,其性能超過 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大規(guī)模的模型。 

更關(guān)鍵的是,R-4B-RL 在自適應(yīng)思考模式下實(shí)現(xiàn)了推理效率的提升,在簡單任務(wù)下模型無需消耗更多的 Token。這證明了 BPO 算法的有效性,即無需通用領(lǐng)域的強(qiáng)化學(xué)習(xí)數(shù)據(jù)或額外的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),模型也能實(shí)現(xiàn)自適應(yīng)思考。

應(yīng)用前景:從科研到產(chǎn)業(yè)的智能化浪潮

R-4B 的突破不止于技術(shù),更開啟了廣闊應(yīng)用場景:

  • 應(yīng)用智能 :在日常問答分析中,自動(dòng)切換簡單查詢(如文檔內(nèi)容提取)和復(fù)雜推理(如圖表分析)的思維模式,提升自動(dòng)化處理效率。
  • 科學(xué)研究 :在處理科學(xué)圖表時(shí),R-4B 的深度推理模式可解析多步關(guān)系,精準(zhǔn)解讀數(shù)據(jù),提高研究效率。
  • 消費(fèi)級 AI :邊緣設(shè)備部署中,R-4B 憑借更少的參數(shù)和自適應(yīng)思考模式降低延遲和能耗,適用于即時(shí)問答系統(tǒng)。

(1) 文檔內(nèi)容提取(簡單查詢)

(2) 圖表分析(復(fù)雜推理)

結(jié)語:自適應(yīng)思考,探索 AI 發(fā)展新道路

從雙模退火訓(xùn)練到 BPO 優(yōu)化,R-4B 不僅解決了 MLLMs 的思考困境,更在小尺寸模型上探索了自適應(yīng)思考的可行性 。自適應(yīng)思考不僅是技術(shù)優(yōu)化,更是對效率與普惠平衡的追求。在 AI 計(jì)算與推理成本飆升的今天,R-4B 的輕量化、智能化設(shè)計(jì),為大模型可持續(xù)發(fā)展注入綠色動(dòng)力。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-11-09 12:41:04

AI模型

2024-02-19 00:00:00

OpenAIChatGPT功能

2025-08-14 09:31:24

GPT-5AI

2024-01-09 12:53:16

模型訓(xùn)練

2025-10-11 00:00:00

2025-08-08 06:39:22

2025-06-27 15:48:34

2024-04-01 00:50:00

吳恩達(dá)智能體

2025-06-19 09:06:00

2023-09-19 12:45:36

2024-12-26 01:20:53

多模態(tài)大模型圖片

2025-11-28 07:37:49

2025-11-10 09:15:43

2025-12-16 08:45:00

模型GPT-5推理

2025-02-05 10:26:23

2024-01-22 13:57:00

模型訓(xùn)練

2025-09-19 14:53:34

2025-08-19 08:08:05

2025-09-01 08:59:00

2025-08-07 02:55:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

18video性欧美19sex高清| 欧美大片在线观看一区| 亚洲欧洲美洲一区二区三区| 日本最黄一级片免费在线| 拔插拔插海外华人免费| 韩国三级电影久久久久久| 欧美日产国产精品| 久久一夜天堂av一区二区三区| 91久久夜色精品国产按摩| 99精品老司机免费视频| 黄色片久久久久| 国产乱人伦精品一区二区| 色妞在线综合亚洲欧美| 亚洲va韩国va欧美va| 麻豆9191精品国产| 精品在线观看入口| 欧美性suv| 波多野结衣在线影院| 男人操女人免费软件| 精品国产一区二区三区麻豆免费观看完整版 | 麻豆一区二区麻豆免费观看| 尤物网在线观看| 亚洲不卡视频在线| 天天人人精品| 亚洲xxxxx| 97免费在线视频| 亚洲深夜福利在线| 欧美午夜精品电影| 亚洲激情av在线| www.99精品| 美女在线一区二区| 欧美日本三区| 国产一卡不卡| 亚洲精品黑牛一区二区三区| 黄色成人在线网| 影音先锋电影在线观看| 九热视频在线观看| 国产成a人亚洲精v品在线观看| 久久精品女人的天堂av| 国产欧美日韩精品专区| 久久久久久综合网天天| 中文字幕日本欧美| 日韩精品极品视频| 精品视频1区2区3区| 一区二区高清在线| 国产香蕉久久精品综合网| 国产成人亚洲精品狼色在线| 久久久久久一区二区| 欧美精品大片| 999国产精品999久久久久久| 欧美深夜视频| 亚洲国产一区二区三区网站| 国产亚洲一区二区手机在线观看| 中文在线手机av| 国产福利小视频在线| 在线观看成年人视频| 在线观看免费播放网址成人| 2018国产在线| 成人免费观看在线| 色一情一乱一乱一区91| 亚洲综合五月天| 奇米影视首页 狠狠色丁香婷婷久久综合 | 欧洲精品在线观看| 亚洲观看高清完整版在线观看| 国产精品女上位| 久久久精品一品道一区| 成人高清在线视频| 国产99久久精品| 国产盗摄一区二区三区| 紧缚奴在线一区二区三区| 美洲天堂一区二卡三卡四卡视频| 欧美亚洲一区| 久久亚洲影院| 日韩av中文字幕一区二区三区| 久久国产精品毛片| 国产精品久久久久久模特| 99国产精品视频免费观看一公开| 国产综合精品| 日韩视频一区| 亚洲欧美清纯在线制服| 小嫩嫩精品导航| 肉丝袜脚交视频一区二区| 丝袜国产日韩另类美女| 奇米888四色在线精品| 毛片一区二区三区| 久久99精品久久久久久久久久久久| 日本成人在线电影网| 日韩中文字幕91| 久久99精品久久只有精品| 国产福利一区二区三区| av午夜一区麻豆| 国产精品视频一二三| 亚洲愉拍自拍另类高清精品| 亚洲超丰满肉感bbw| 91久久一区二区| 欧美一区二区福利在线| 精品免费一区二区三区| 亚洲人成在线播放| 另类美女黄大片| 5566成人精品视频免费| 国产日韩综合一区二区性色av| 亚洲伊人久久综合| 日韩高清三级| 久久久久99精品成人片| 久久精品香蕉视频| 偷偷要 色偷偷| aaa在线观看| 免费一二一二在线视频| 日韩电影免费观看高清完整版在线观看| 日本在线视频一区二区三区| 国产精品流白浆在线观看| 国产视频精品一区二区三区| 免费av网站在线观看| 天堂一区二区在线| 日韩在线免费视频| 人妻少妇被粗大爽9797pw| 欧美日本三级| 欧美成人免费大片| 久久精品视频一| 欧美在线观看网站| 亚洲最大福利视频网站| 青娱乐一区二区| 免费看日本毛片| 国产wwww| 调教视频免费在线观看| 成年女人在线看片| 色综合.com| 欧美伦理在线视频| 国产视频一区欧美| 成人性生交大片免费看视频在线| 国产精品成人免费在线| 在线观看av一区二区| 亚洲国产精品久久久久秋霞蜜臀| 日韩最新在线视频| 国产欧美精品在线| 一本久道久久综合| 亚洲一区二区中文字幕| 国产美女精品人人做人人爽| 国产不卡一区二区视频| 久久久久久一区二区| 成人在线免费小视频| 亚洲美女少妇无套啪啪呻吟| 国产一本一道久久香蕉| 国产精品久久久久久户外露出| 日韩欧美一区二区三区| 日韩成人免费视频| 97在线精品国自产拍中文| 国产超碰91| 丁香花在线影院观看在线播放| 一本色道久久加勒比88综合| 成人看片免费| 国产精品传媒麻豆hd| 日韩成人影院| 激情伊人五月天久久综合| 成人欧美一区二区三区1314| 欧美日韩免费在线视频| 久久亚洲春色中文字幕| 高清视频在线观看一区| cao在线观看| 日本免费一区二区三区最新| 色天使综合视频| 自拍偷拍欧美| 99热这里都是精品| 欧美日韩小视频| 久久久久久久久久国产| 日韩精品一区二区三区外面| 国产视频97| 亚洲欧洲自拍| 99re66热这里只有精品8| 国产精品正在播放| 色婷婷亚洲综合| 视频一区视频二区国产精品| 日韩经典第一页| 麻豆一区二区| 国产精品久久久久一区二区| 粉嫩91精品久久久久久久99蜜桃 | 欧美爱爱视频免费看| 老司机亚洲精品一区二区| 任你操这里只有精品| 午夜精品99久久免费| 国产精品美女久久久久久久久久久| 成人在线视频成人| 色综合久久精品亚洲国产| 一区二区电影| 自拍偷拍99| 久久嫩草精品久久久久| ririsao久久精品一区| 欧美成熟毛茸茸复古| 欧美日韩精品专区| 亚洲深夜激情| 黄色成人在线网| 久久久久久这里只有精品| 最新精品国偷自产在线| 国产一区视频在线播放| 激情成人亚洲| 久久av高潮av| 国产精品久久福利| 黄色三级视频在线| 日本一区二区三区视频视频| 日韩日韩日韩日韩|