国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

補齊Transformer規劃短板又不放棄快速思考,田淵棟團隊的Dualformer融合System 1和2雙重優勢

人工智能 新聞
近期有研究表明,如果將系統 2 過程整合進 Transformer 和大型語言模型中,就能顯著提升它們的推理能力。

OpenAI ο1 模型的發布掀起了人們對 AI 推理過程的關注,甚至讓現在的 AI 行業開始放棄卷越來越大的模型,而是開始針對推理過程進行優化了。今天我們介紹的這項來自 Meta FAIR 田淵棟團隊的研究也是如此,其從人類認知理論中獲得了靈感,提出了一種新型 Transformer 架構:Dualformer。

根據人類認知理論,人類的思考受到兩個系統控制:

  • System 1:系統 1,速度快,基于直覺。
  • System 2:系統 2,速度更慢,更加深思熟慮。

近期有研究表明,如果將系統 2 過程整合進 Transformer 和大型語言模型中,就能顯著提升它們的推理能力。盡管如此,如果模型只是模仿系統 2 式的思考過程,那就需要遠遠更高的計算成本才能完成,同時響應速度也會大幅減慢。

在研究這一難題時,田淵棟團隊得到了一項驚人發現:在解決推理任務時,一種簡單的數據方案就足以實現即時動態的系統 1 和系統 2 配置。

基于此發現,他們提出了 Dualformer。這是一種可以輕松配置的 Transformer—— 用戶可以指定在推理過程中使用快速或慢速模式,在未指定時模型也可以自行決定。

圖片

  • 論文標題:Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces
  • 論文地址:https://arxiv.org/pdf/2410.09918

具體而言,為了模仿系統 2 推理過程,他們讓 Transformer 在包含推理軌跡和最終解答的數據上進行訓練。利用推理步驟的結構,他們設計了特定的軌跡丟棄策略,使得生成的軌跡類似于系統 1 在思考過程中采取的捷徑。在極端情況下,會丟棄整個軌跡并鼓勵 Transformer 繞過所有中間步驟,直接輸出最終解答。在訓練時,他們的策略是隨機選擇這些結構化的軌跡丟棄策略。

前提準備

他們的這項研究基于田淵棟團隊之前的另一項研究《Beyond A*: Better planning with transformers via search dynamics bootstrapping》,參閱機器之心報道《補齊 Transformer 規劃短板,田淵棟團隊的 Searchformer 火了》。為了執行規劃,他們要訓練一個 Transformer 來建模一個 token 序列,而該序列則是以順序方式來表示該規劃任務、A* 算法的計算、由 A* 搜索得到的最優解。

圖 3.1 展示了其 token 化方法,其中示例是一個 3×3 迷宮的導航任務,目標是找到從起點到目標單元格的最短路徑。

圖片

A* 算法已經成功找到了最佳規劃。這里使用一個 token 序列來表示該任務和迷宮結果,其也被用作 Dualformer 的提示詞。該解答由使用坐標描述路徑的規劃 token 序列描述。A* 算法生成一個搜索軌跡序列,記錄執行的搜索動態,如圖 4.1 所示。

圖片

回想一下,A* 算法是一種在加權圖上的尋路算法。create 子句將節點(由后續坐標表示)添加到搜索邊界中,close 子句將節點添加到該閉集。每個子句(create 或 close)后面都跟著 token x、y、c0 和 c1—— 分別表示節點的坐標、自開始以來的成本值和啟發值。

結構化軌跡丟棄和隨機訓練

田淵棟團隊之前提出的 Searchformer 已被證明可以有效解決多種復雜的決策任務。但是,它仍有兩個不足。

1. 模型僅能以慢速模式運行并會輸出很長的推理鏈,這會極大延長推理時間。盡管可通過 bootstrapping(一種迭代優化技術,包含 rollout 循環和之后的微調過程)來提速,但這樣的過程會對計算資源產生顯著的額外需求。

2. Searchformer 很難生成多樣化的解答,因為其經常會采樣相同的 rollout。舉個例子,在他們測試過的 1000 個 30×30 迷宮問題中,Searchformer 的推理鏈平均包含 1500 多個 token,而只能在 64 個響應中找到 7.6 條各不一樣的可行路徑。

為了解決這些挑戰,他們提出了一個利用隨機化推理軌跡的訓練框架。該方法的靈感來自兩個研究方向:

  • 該團隊注意到,即便 Searchformer 是在完整的 A* 搜索軌跡上訓練的,但它也會生成更短的勾勒搜索過程的軌跡。
  • 研究表明,人類在做決策時往往依賴捷徑和模式,這一概念被稱為系統 1 思維。

這些觀察再加上 dropout 技術(在訓練時隨機丟棄神經網絡中的一些單元)的成功,促使該團隊研究了隨機化推理軌跡的作用,并且他們還希望通過利用結構化元素并選擇性地丟棄每個訓練示例的某些部分來簡化 A* 搜索軌跡。該方法的細節如下。

如圖 4.1 所示,A* 搜索軌跡包含 create 和 close 子句,每個子句都包括節點的坐標及其到達起始位置和目標位置的(估計)成本。為了推導得到 Dualformer,他們利用了搜索軌跡的結構,并為每個訓練示例丟棄軌跡中的某些部分。其有三種自然的丟棄類型:

  • D1:丟棄一個 close 子句;
  • D2:丟棄一個子句中的成本 token;
  • D3:丟棄一個 create 子句。

基于此,他們開發出了四個層級逐層遞進的丟棄策略:

  • Level 1:去除搜索軌跡中所有 close 子句。
  • Level 2:更進一步,額外丟棄所有成本 token。
  • Level 3:更加激進,進一步隨機丟棄 30% 的 create 子句。
  • Level 4:丟棄整條搜索軌跡。

圖 4.1 基于上述迷宮任務演示了這些策略。后面我們會看到,這些策略可有效地引導 Dualformer 學習更簡潔、更高效的搜索和推理過程。

為了提升訓練數據的多樣性,他們沒有將丟棄作為一個數據預處理步驟。而是在推理時間,對于一個數據批次中的每個訓練樣本,都從一個分類分布 Cat (p_0, p_1, p_2, p_3, p_4) 中隨機抽取丟棄策略,其中 p_1, . . . , p_4 是執行 Level 1-4 丟棄的概率,p_0 是保持完整軌跡的概率。這種訓練框架可使 Dualformer 學習多個經過約簡的軌跡,即使對于單個訓練示例也是如此,因為同一個示例可能出現在多個批次中。

可控式生成

Dualformer 具有一個非常吸引人的特性:在推理時,可以輕松地通過提示詞指定以快速或慢速生成模式運行。

該控制機制非常簡單:在標準提示詞之后添加一個 bos 和一個控制 token,其中控制 token 是 plan 或 create 中的一個。

如果使用 plan,則 Dualformer 將以快速模式運行,繞過推理步驟并直接輸出規劃。另一方面,如果在 bos 之后注入 create,則 Dualformer 將以慢速模式工作并生成推理軌跡和最終規劃。下面基于迷宮任務展示了這兩種模式的示意圖。

圖片

而如果僅使用標準提示詞,則 Dualformer 將模仿人類決策的雙重過程 —— 根據情況,它會選擇一種分別對應于系統 1 和系統 2 的推理類型進行響應。

實驗

實驗的目標是解答以下三個問題:

1. Dualformer 在快速、慢速和自動模式下的表現是否優于相應的基線?

2. 在慢速模式下,Dualformer 是否能實現更快的推理,即輸出更短的軌跡?

3. 結構化的軌跡丟棄技術是否適用于在自然語言數據集上訓練的 LLM?

為了解答問題 1 和 2,該團隊訓練了求解迷宮導航任務和緊密相關的推箱子(Sokoban)任務的 Transformer。為了解答問題 3,他們微調了 LLama-3.1-8B 和 Mistral-7B 模型來解答數學問題。

導航任務:迷宮和推箱子

迷宮和推箱子任務使用的數據集與 Searchformer 研究的一樣。這里就不再贅述,我們直接來看結論。

研究表明,Dualformer 可以根據控制指令選擇快速或慢速的運行模式。在快速模式下,它僅輸出最終規劃;在慢速模式下,它還會生成推理軌跡。該團隊在不同的模式下讓 Dualformer 對比了不同的基線。使用的指標包括生成規劃的正確性、最優性和多樣性、推理軌跡的長度等。

  • 快速模式

表 5.1 分別報告了在迷宮和推箱子任務上,Dualformer 和基線僅解答模型的性能。

圖片

可以看到,在生成正確和最優規劃方面,Dualformer 在 1-Solved-64 和 1-Optimal-64 指標上中都明顯優于基線。它在 3-Solved-64 和 3-Optimal-64 指標上也明顯超過了基線,這證明了 Dualformer 在規劃生成方面的穩健性。

尤其需要注意,隨著任務難度提升,Dualformer 的優勢也會增大。對于最大的 30×30 迷宮,Dualformer 的 1-Optimal-64 成功率是僅解答模型的 2.8 倍,在 3-Optimal-64 上是 2.97 倍。

Dualformer 的 SWC 分數也比基線高得多 —— 在每個環境中都高于 0.9。這表明 Dualformer 生成的每個單獨規劃的質量都很高,其成本非常接近最佳規劃。

在實驗考慮的所有問題上,Dualformer 還能穩定地生成更多樣化的規劃。比如在下面這個迷宮示例中,隨著迷宮規模的增加,Dualformer 的多樣性得分(即 64 個響應中不同但正確的規劃的平均數量)會增加。

一般來說,隨著迷宮規模增大,到達單個目標位置的可能路線也越來越多。這表明 Dualformer 學習了迷宮結構,而僅解答模型可能是記住了最佳規劃,因為其多樣性得分在所有迷宮規模下都接近 1。

  • 慢速模式

表 5.2 報告了 Dualformer 在慢速模式下運行時的結果。

圖片

相應的基線是 Complete-Trace 模型,它使用相同的架構并在具有完整 A* 搜索軌跡的數據上進行了訓練。除了之前報告的指標之外,該研究還報告了在所有 1000 個評估任務中匯總的 64 個響應的推理軌跡平均長度。結果表明,Dualformer 實現了更好的規劃能力和推理速度。它在所有正確性和最優性指標方面都優于 Complete-Trace 模型:包括解決率、最優率和 SWC。

此外,Dualformer 產生的推理軌跡明顯短于基線模型。平均而言,Dualformer 在五個任務中將軌跡長度減少了 49.4%。與以前一樣,與基線相比,Dualformer 還生成了更多不同的規劃。

  • 與搜索動態引導的比較

Complete-Trace 模型是田淵棟團隊的基本 Searchformer 模型。該方法還提出了一種搜索動態引導方法來提高其在推箱子任務上的性能,類似于 Anthony 等人(2017);Zelikman 等人(2022)的研究。

在訓練 Searchformer 模型后,作者在新創建的自引導數據集上對其進行微調。對于原始數據集中的每個推箱子競賽,此處生成 32 個答案,并將最短的最佳答案納入新數據集。我們可以多次重復此過程。

通過這種方式,Searchformer 學會了生成更短的答案。表 5.4 將 Dualformer 與最多微調 3 步的 Searchformer 模型進行了比較。Dualformer 在大多數指標上與引導模型相當或更好,同時僅使用不到 45.1% 的推理步驟。

圖片

該團隊發現,每個引導步驟需要推出 3.2 × 10^6 個總響應和 10^4 次迭代的額外微調。這意味著包括 8 × 10^5 次預訓練迭代。Searchformer 步驟 3 總共需要 8.3 × 10^5 次訓練迭代和 9.6 × 10^6 次 rollout,計算成本很高。相比之下,Dualformer 只需要一個由 8 × 10^5 次迭代組成的訓練階段,沒有額外的 rollout 需求。

自動模式

不僅能通過在 bos 之后注入控制 token 的方式來控制 Dualformer 的推理模式,還可以直接執行采樣,使其自由確定操作模式,類似于人類決策的雙重過程。這種 Dualformer 被稱為自動模式。表 5.3 報告了結果。對于這里考慮的所有任務,自動模式 Dualformer 也優于 Complete-Trace 和 Solution-Only 模型。

圖片

大模型訓練中的應用:數學推理

作者展示了結構化軌跡丟棄技術在訓練大規模 LLM 解決數學問題方面的有效性。具體來說,作者使用了包含各種數學問題和答案的數據集對 Llama-3-8B 和 Mistral-7B 模型進行微調,其中包含詳細的推理步驟。其中使用了一種軌跡丟棄技術,該技術也利用了數學問題的推理軌跡的特定結構。

最后,作者再對生成的模型與直接在數據集上微調的相應基礎模型進行基準測試。

結果見表 5.6。作者共測試了 p 的四個值:0.1、0.2、0.3 和 0.4。結果表明,新研究所提出的訓練策略使這兩個 LLM 更加有效和高效。

圖片

首先來看 Mistral-7B 模型的結果。對于慢速模式推理,使用軌跡丟棄和隨機訓練對模型進行微調可以改進直接在 Aug-MATH 數據集上微調的基線模型。當 p = 0.1 時,絕對 Greedy@1 指標提高了 1.7%(相當于 10% 的相對性能提升),當 p = 0.2 和 0.3 時提高了 0.9%,當 p = 0.4 時提高了 0.1%。當 p = 0.1、0.2 和 0.3 時,新模型也優于 Pass@20 指標的基線模型,其中絕對正確率增加到 61.9%。在兩種評估方案下,推理軌跡的平均長度隨著 p 的增加而下降。

同樣,對于快速模式下的推理,新模型也實現了更高的正確率。Llama-3-8B 模型也具有類似的性能改進趨勢。最后,為了供讀者參考,作者還列出了在原始 MATH 數據集上微調的 Mistral-7B 和 Llama-3-8B 模型的結果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-02-26 00:20:00

AI模型

2025-10-08 10:19:29

2024-12-19 09:48:07

2023-06-12 09:57:22

AIChatGPT

2024-10-17 14:10:00

模型訓練

2023-03-17 08:28:17

GPT-4AI

2024-12-12 09:00:00

2024-10-28 08:50:00

2025-02-17 09:30:00

AI訓練模型

2022-05-06 07:31:01

useEventReactHook

2023-12-07 06:51:18

AI模型

2023-06-30 09:49:23

模型Meta

2023-08-04 13:42:41

2023-06-28 18:10:27

羊駝家族大模型集體進化

2021-10-28 15:41:07

計算機AI 技術

2025-10-23 12:28:40

2025-06-20 08:47:00

量子計算AI模型

2020-09-22 09:54:19

谷歌Android開發者

2019-04-25 10:20:24

Transformer神經網絡模型

2022-12-25 13:46:37

生成器
點贊
收藏

51CTO技術棧公眾號

日韩欧美激情四射| 欧美与亚洲与日本直播| 最近2018中文字幕免费在线视频| 怡红院红怡院欧美aⅴ怡春院| 播放一区二区| 欧美高清不卡| 另类人妖一区二区av| 午夜精品一区二区三区在线视| 99久热re在线精品视频| 日本天堂影院在线视频| 精品欧美色视频网站在线观看| 成人交换视频| 不卡视频在线看| 亚洲欧美另类中文字幕| 欧美激情手机在线视频| 毛片中文在线观看| 成人激情开心网| 欧美精品久久久久久久多人混战| 国产一区欧美二区三区| 未来日记在线观看| 中文字幕区一区二区三| 日韩精品一卡二卡三卡四卡无卡| 国模精品一区| 日韩区在线观看| 亚洲成人动漫在线| 怡红院在线播放| 国内揄拍国内精品久久| 一本色道**综合亚洲精品蜜桃冫| 日韩av在线免费播放| 嘿咻视频在线看| 久久三级福利| 久久久久国产视频| 女人天堂在线| 久久99在线观看| 久久久久久久久久久国产| 在线国产网址| 日韩欧美在线中字| 久久久人成影片一区二区三区观看 | 欧美大胆人体bbbb| 污视频在线看网站| 视频在线观看99| 大胆人体一区| 亚洲精品国产一区二区精华液| 亚洲va韩国va欧美va精四季| 狠狠色综合网| 久久久久久97| 久久aimee| 亚洲第一精品电影| 国产超级va在线视频| 亚洲性xxxx| 欧美精品中文字幕亚洲专区| 久久综合给合久久狠狠色| 亚洲精品国产福利| 欧美成人69| av免费观看大全| 精品福利在线观看| 在线免费观看a视频| 九色精品免费永久在线| 国产视频网站一区二区三区| 国产美女精品在线观看| 99精品在线| 国产精选一区二区| 91网址在线看| 日日噜噜噜夜夜爽爽狠狠| 欧美日本在线观看| 国产成人精品一区二三区在线观看 | 中国china体内裑精亚洲片| av影视在线看| 欧美无砖专区一中文字| jizzjizz在线观看| 精品久久久网站| 成人免费视频网址| 中文字幕区一区二区三| 91精品国产九九九久久久亚洲| 99久久激情| 亚洲成人福利在线观看| 欧美激情一区不卡| 成人精品福利| 日韩视频在线观看一区二区| 第四色在线一区二区| 制服国产精品| 欧美天堂在线观看| 青春草视频在线| 国产精品日韩一区二区免费视频| 国产成人免费在线视频| 国产精品亚洲一区二区三区在线观看| 欧美一区二区三区免费观看视频| 日韩电影免费| 五月天久久比比资源色| 亚洲人成电影| 久久av红桃一区二区小说| 日韩av中文字幕一区二区三区| 男女爱爱免费网站| 日韩精品免费综合视频在线播放| 欧美第一精品| 另类小说第一页| 久久中文久久字幕| 国产成人丝袜美腿| 91精品国产乱码久久久久久久 | 番号在线播放| 亚洲free性xxxx护士hd| 亚洲综合丝袜美腿| 国产一区二区三区四区五区3d| 成人在线看视频| 欧美亚洲在线播放| 中文字幕制服丝袜成人av| 国产亚洲一卡2卡3卡4卡新区 | 欧美tickling挠脚心丨vk| 日韩激情免费| 日本aa在线| 日本xxxxxxxxxx75| 精品少妇一区二区30p| 国产精品久久久久国产精品日日| 羞羞网站在线看| 狠狠热免费视频| 法国空姐在线观看免费| 96pao国产成视频永久免费| 欧美日本黄视频| 亚洲欧美一区二区三区久久| 亚洲成a人在线观看| silk一区二区三区精品视频| 国产精品免费观看| 精品乱码一区二区三四区视频| 在线观看的毛片| 久久久免费看| 欧美日韩在线观看一区二区三区| 91香蕉视频在线下载| 在线不卡国产精品| 亚洲精品视频在线观看网站| 青青草原综合久久大伊人精品 | 日韩三级网址| 欧美色18zzzzxxxxx| 欧美深夜福利视频| 日本黄网站色大片免费观看| 91久久久久久久| 久久99亚洲热视| 亚洲а∨天堂久久精品9966| 偷拍与自拍一区| 欧美男gay| 日本不卡不卡| 波多野结衣在线网站| 国模私拍视频| 91黑丝在线| qvod激情图片| 国产熟女高潮视频| 国产一区二区三区精彩视频| 国内精品在线观看视频| free性亚洲| www..com日韩| 麻豆一区二区三区在线观看| 日本一区二区三区免费观看| 欧美一区二区视频17c| 欧美精品一区三区在线观看| 99三级在线| 国产精品高清在线观看| 欧美一区二区成人6969| 亚洲免费视频观看| 成人在线国产精品| 国产美女在线精品免费观看| julia一区二区中文久久94| 精品国产一区二区三区麻豆小说| aa成人免费视频| 亚洲午夜精品一区二区| 91在线高清视频| 欧美一区二区在线| 日韩porn| 成人bbav| 精品中文一区| 99成人在线| 图片区小说区国产精品视频| 夜夜精品视频一区二区| 精品国产不卡一区二区三区| 中文字幕欧美日韩va免费视频| 日本精品久久久| 最新中文字幕亚洲| 自拍偷拍亚洲精品| 欧洲成人性视频| 成人情视频高清免费观看电影| 中文字幕第一页亚洲| 国产原创精品在线| av在线电影网站| 97在线视频免费观看完整版| 经典三级久久| 免费在线观看av片| 青青久久精品| 韩日成人在线| 久久久噜噜噜久噜久久综合| 欧美性猛交xxxx免费看| 精品视频偷偷看在线观看| 国产不卡视频在线| 永久免费精品视频网站| 很黄很a的视频| 6080成人| 全亚洲第一av番号网站| 香蕉人人精品| 自拍欧美日韩| 精品无人区太爽高潮在线播放 | 日韩欧美一二三区| 91精品国产91久久久久久一区二区| 国产suv精品一区二区三区88区|