国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

港科大Apple新研究:Tokens使用量減少,模型推理還更強了

人工智能 新聞
來自港科大、港城、滑鐵盧大學和Apple的研究人員,最近提出了Laser系列新方法,實現了更好的模型效率和準確率平衡,做到了兩者的共同顯著提升。

1+1等于幾?

現在的大推理模型(LRMs)已經展現出了非凡的推理能力。但是面對這樣最簡單的數學問題,現有的LRMs仍需要花費1400+的tokens來思考。

那么有辦法讓LRMs在推理思考時更快更強嗎?

來自港科大、港城、滑鐵盧大學和Apple的研究人員,最近提出了Laser系列新方法,實現了更好的模型效率和準確率平衡,做到了兩者的共同顯著提升。

圖片

經過Laser和它的進階方法Laser-D、Laser-DE訓練后的模型,相較于訓練前模型或者其他方法訓練的模型,在準確率(Accuracy)和Tokens使用效率(Efficiency)上,同時取得了顯著的提升。

例如在知名復雜數學推理基準AIME24上,Laser-D和Laser-DE方法能夠讓模型在減少Tokens使用量63%的情況下,還繼續提升6.1的性能。

同時,研究人員還發現,經過訓練的模型的思考過程里,冗余的“self-reflection”的比例大大降低,呈現出了一種更加健康的思考模式。

圖片

這一研究也在??引起了討論:

圖片

那么,Laser是如何讓大模型推理又快又好的呢?

三大創新實現性能-效率雙贏

Laser的研究人員首先發現,僅僅通過在強化學習過程中,對模型輸出長度進行截斷,就可以讓訓練后的模型的推理效率大幅提升。

但這種方式,只能帶來效率的提升,對于模型推理的準確性仍然有不小的損害。

這意味著,推理的準確性和效率其實是一個平衡問題(Trade-off),用更多的Tokens經常能取得更高的準確率,反之可能準確率就會受到損害。

所以不應該僅僅關注某一指標,而應該將兩者一同考慮,將問題的重點放在如何提升它們之間的平衡上面。

圖片

Laser主要通過以下三點創新來平衡效率和準確率,以做到雙提升:

1、統一視角:提出了一套統一的框架來看待各類基于長度的獎勵設計(Length-based Reward),并且將訓練時截斷這一簡單方法也統一進了這一套框架內。

2、Laser(Length-bAsed StEp Reward):基于這一個統一框架,研究人員提出一種全新的基于目標長度和階躍函數(Step Function)的獎勵設計,規避了之前獎勵設計存在的一些問題。

3、動態且帶有難度感知的Laser-D、Laser-DE方法:進一步的,研究人員提出了一套自動適配機制,來匹配不同難度下,不同題目的最優目標長度,讓Laser達到最優的平衡。

下面分別詳細展開下。

統一視角看待不同獎勵設計

研究人員首先將直接截斷訓練的方法和先前不同的長度獎勵設計聯系起來,統一成了一套統一的獎勵設計框架。

具體而言,所有的這些方法,都可以看做是正確性的獎勵C(x)、基于長度的獎勵S(x),以及一個控制開關λ(y)的組合。

圖片圖片

表中最右側的可視化圖片,展示了不同的方法對應的獎勵函數的不同形狀,其中藍線代表正確的回復對應的獎勵函數,紅線代表錯誤的回復對應的獎勵函數。

從圖上可以看到,訓練時直接截斷的方法,有一個很大的問題在于,當模型產生的回復很長的時候,正確回復和錯誤回復的獎勵會雜糅在一起,使得模型無法正確區分回復的正確性,影響對對應數據的學習。

Laser:基于目標長度和階躍函數的獎勵設計

為了解決訓練截斷中“無法區分正確但冗長的回答”這一問題,研究人員提出了Laser獎勵函數

Laser不再“懲罰”所有長回答,而是對在目標長度以內生成的正確回答給予額外的正向獎勵。

這種階躍函數(Step Function)形式的獎勵機制,既鼓勵簡潔,也保留了對準確推理的認可,有效提升了準確率與效率的整體平衡。

動態且帶有難度感知的LASER-D / LASER-DE方法

在進一步提升準確率與效率的平衡性上,研究人員提出了LASER-D方法:

通過引入動態調整目標長度與題目難度感知機制,模型在訓練過程中可以根據題目的難易程度,自適應設定更合適的token使用上限。

這一機制通過監控模型在不同難度題目上的生成表現,動態評估不同難度題目的最優目標長度。

具體來說,這一機制會定期使用一個小規模的監控集,對不同長度設定下的“預期正確回答數量”進行估算,并據此動態更新易/中/難三類題目的目標長度,幾乎不增加訓練開銷,卻顯著提升了訓練時獎勵函數的靈活性與適應性。

此外,他們還提出了LASER-DE。即在模型答錯時,鼓勵模型在更長長度上進行探索,嘗試糾正錯誤、發現更優的推理路徑,從而提升在困難題目上的表現。

這一系列改進讓LASER系列方法在多個benchmark上,實現了更優的性能-效率雙贏效果。

實驗效果

研究人員用DeepSeek-R1-Distill-Qwen的1.5B / 7B / 32B三個不同規模的模型,在MATH500、AIME24、AMC23、Olympiad Bench上進行了廣泛實驗。

首先,他們通過調整各個方法在訓練中的關鍵參數,繪制出不同方法在準確率(Accuracy)與token使用量(Efficiency)上的帕累托(Pareto)前沿。

如圖所示,在AIME2024和所有Benchmarks的平均上,原始模型(藍色虛線)在token使用上代價巨大。

而其他baselines方法雖然在效率上有所提升,但準確率下降明顯。

圖片

相比之下,LASER、LASER-D和LASER-DE(橙紅色)始終位于原模型的準確率之上——

在顯著減少Tokens使用的同時,準確率還明顯高于baseline,展現出強大的推理性能和推理效率雙提升。

特別是在AIME2024上,LASER-D在只使用原始模型1/3 Tokens的情況下,就能取得+6.1的準確率提升,證明其在復雜數學推理任務中的強大效果。

圖片

在7B和32B模型上,LASER-D和LASER-DE相較于其他方法,在準確率和token使用效率上都取得了更優表現。

DeepSeek-R1-Distill-Qwen-7B模型上,例如對于AIME24,LASER-D在7B模型上,在提升5.1的準確率的同時,平均token使用量還能降低60%,再次實現效率準確率雙提升。

研究人員還在多個領域外(OOD)測試集(GPQA、LSAT、MMLU)上對他們的方法進行了驗證。

實驗結果表明,在OOD測試集上,LASER、LASER-D和LASER-DE取得良好的泛化,同樣取得了最優的準確率與效率平衡,實現了準確率效率雙提升。

圖片

行為分析

為了進一步理解LASER系列方法為何能在保持準確性的同時大幅壓縮token使用,研究人員對模型推理行為的變化進行了分析。

結果顯示,經過LASER訓練后,模型生成中冗余的Backtracking(反復自我否定)顯著減少,而Verification(驗證)、Subgoal Setting(子目標拆解)等關鍵推理行為得以保留甚至增強。

這表明LASER不僅壓縮了長度,還引導模型學會了更簡潔、結構更清晰的思考方式。

這也與文章開頭展示的 “1+1等于幾” 的案例相呼應——

訓練后的模型不再陷入反復的self-reflections,而是能直接識別出問題的關鍵,做出高效、準確的回應。

圖片

團隊表示,他們相信“能夠準確且精簡地表達”是高級智能的重要體現。

真正強大的模型,應在準確性與簡潔性之間實現良好平衡,而非只追求其中任何一者。

LASER系列方法正是朝這一目標邁出的關鍵一步,它不僅壓縮了推理長度,更提升了推理質量。

團隊也表示,未來將繼續探索更靈活、更通用的方法,進一步推高模型的這一高級智能的能力。

論文: https://arxiv.org/abs/2505.15612
GitHub倉庫: https://github.com/hkust-nlp/Laser

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-26 08:40:00

2024-06-11 14:30:18

2025-10-08 10:44:16

2025-06-10 09:07:00

2010-11-08 10:07:23

SQL Server內

2024-06-17 13:34:54

2024-08-22 16:23:05

2024-03-18 09:54:32

開源AI模型

2021-08-17 10:03:34

.NET開發者使用量

2012-08-06 13:45:38

LTE網絡LTE

2023-04-13 15:40:59

模型論文

2022-06-30 18:05:51

訓練模型圖像

2025-09-23 09:09:49

2013-10-30 17:23:01

Chrome瀏覽器

2023-06-20 13:38:22

2024-10-14 14:45:00

數據模型

2022-03-28 18:38:00

SD-WANMPLS

2024-03-04 13:36:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

一本久道高清无码视频| 国产精品一 二 三| 黄色视屏免费在线观看| 国产91精品一区二区麻豆亚洲| 91深夜福利视频| 色橹橹欧美在线观看视频高清| 最近2019中文字幕一页二页| 天堂8中文在线| 欧美丰满嫩嫩电影| 色影视在线视频资源站| 日韩一区欧美小说| 久久婷婷国产91天堂综合精品| 黄网站免费久久| 日韩欧美在线观看强乱免费| 日韩电影免费网站| 青青久久av北条麻妃黑人| 国产亚洲字幕| 久久久久伊人| 91成人性视频| 久久精品资源| 欧美日韩一区二区在线播放| 亚洲综合在线中文字幕| 国产视频二区| 久久精品夜夜夜夜久久| 男女视频网站在线观看| 极品少妇一区二区| 天堂av免费看| www.成人网.com| 国产精品无码av无码| 国产欧美日产一区| 人人干人人干人人| 欧美激情一二三区| 国产黄色影视| 欧美日韩中文字幕在线视频| 香蕉网站在线| 91麻豆精品91久久久久久清纯| 成人ww免费完整版在线观看| 亚洲精品www久久久| 日韩电影免费观| 色综合视频一区中文字幕| 97色婷婷成人综合在线观看| 亚洲色图偷窥自拍| 成人性生活视频| 欧美成人官网二区| 一区二区三区视频网站| 欧美亚州韩日在线看免费版国语版| 欧美123区| 浓精h攵女乱爱av| 久久久91精品国产一区不卡| 精品72久久久久中文字幕| 激情六月天婷婷| 中文字幕精品一区二区精品绿巨人 | 俄罗斯精品一区二区三区| 欧美大片免费高清观看| 一区二区三区四区中文字幕| 中文字幕天天干| 91免费在线视频观看| 欧美 日韩 国产精品| 美腿丝袜亚洲一区| 人人干人人干人人| 亚洲女子a中天字幕| 午夜宅男在线视频| 91视频免费观看| 中文字幕2019第三页| 欧美日韩国产麻豆| a毛片在线观看| 欧美日韩精品一区二区天天拍小说 | 18欧美亚洲精品| 福利视频免费在线观看| 国产精品入口芒果| 91视频综合| 国产精品99久久久久久久久久久久 | 日韩视频一区二区三区| 91污色多多| 中文一区在线播放| 制服丝袜中文字幕在线观看| 亚洲福利一区二区| 粉嫩av国产一区二区三区| 色综合久久久久无码专区| 国产成人综合亚洲网站| 日韩福利二区| 国产欧美激情| 99精品人妻少妇一区二区 | 日韩精品一线二线三线| 91高清在线观看视频| 亚洲一区二区三区视频在线| 欧美成熟毛茸茸复古| 99久久婷婷国产综合精品电影√| 亚洲精品在线网站| av福利在线播放| 99精品1区2区| 天堂在线亚洲| 精品一区二区三区的国产在线播放| 日产精品99久久久久久| 欧美电影免费播放| 国产精品久久久久久久久久久新郎 | 日韩不卡免费高清视频| 精品国产一区二区国模嫣然| a√在线中文网新版址在线| 欧美久久一区二区| av网站导航在线观看免费| 亚洲激情小视频| 日韩电影精品| 欧美一级电影久久| 亚欧洲精品视频在线观看| 亚洲成人激情在线| 丁香花在线高清完整版视频 | 日韩08精品| 欧美一级大片在线观看| 国产精品美女久久久久久不卡 | 伊人久久婷婷色综合98网| 日本欧美在线观看| 日韩亚洲在线视频| 91国偷自产一区二区使用方法| 97在线视频免费观看完整版| 伊人一区二区三区久久精品| 日韩中字在线| 一本一道久久久a久久久精品91 | 在线观看av的网站| 日韩一区二区欧美| 视频一区视频二区在线观看| 欧美丰满熟妇xxxxx| 欧美日韩免费观看一区三区| 日韩毛片一区| 国产99在线免费| 国产成人亚洲综合a∨婷婷图片| 一区二区在线中文字幕电影视频| 国产精品免费免费| 在线免费观看a视频| 日韩一区二区精品| 一区三区在线欧| 国产一二三四五| 亚洲人在线视频| 性网站在线看| 国内成+人亚洲| 日韩av观看网址| 国产精品欧美一区二区| 欧美影院在线播放| 国产精品久久久久久久久久新婚| 久久人人爽爽爽人久久久| 91免费在线播放| 国产精品视频你懂的| 老司机精品视频网| 亚洲精品永久免费视频| 99不卡视频| 丝袜老师办公室里做好紧好爽 | 色妞欧美日韩在线| 深爱激情综合| 黄色美女网站在线观看| 激情五月六月婷婷| 日本欧洲国产一区二区| 成人免费在线视频网站| 国产主播在线一区| 日本一级淫片演员| 天天综合天天操| 色婷婷av金发美女在线播放| 中日韩一区二区三区| 午夜国产福利在线| 午夜欧美巨大性欧美巨大| 91精品啪在线观看国产手机| 夜色77av精品影院| 日日摸夜夜添夜夜添国产精品| 国产美女久久精品| 91亚洲国产成人精品性色| 成人黄色av网| 久久久噜噜噜www成人网| 啦啦啦啦免费高清视频在线观看1| 91se在线| 精品精品国产毛片在线看| 久久99久久久久| 亚洲已满18点击进入久久| 亚洲国产小视频| 国产精品丝袜高跟| 亚洲这里只有精品| 国产三级伦理在线| 99国内精品久久久久久久| 91色九色蝌蚪| 亚洲国产精品999| 91九色视频在线| 手机在线成人免费视频| www.久久| 欧美r片在线| 日本在线成人一区二区| aaaaa毛片| 日韩精品一级| 国产精品久久久久久福利| 国产精品探花在线观看| 97se狠狠狠综合亚洲狠狠| 日韩精品一区二区三区在线观看| 国产精品成人在线| 爆操欧美孕妇| 精品在线网站观看| 欧美经典一区二区| 日韩av片电影专区| av网站免费在线| 好吊妞国产欧美日韩免费观看网站| 美国一区二区三区在线播放 | 欧美一区二区三区人| 日韩精品大片| 国产在线二区|