国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

蘋果光速撤回RLAX論文:用了谷歌TPU和阿里Qwen,作者中還有龐若鳴

人工智能 新聞
雖然目前已被撤稿,但 RLAX 證明了蘋果在 AI 基礎設施上依然擁有世界頂級的工程能力。他們能駕馭最復雜的分布式系統,解決最底層的數值難題。

昨天,蘋果一篇新論文在 arXiv 上公開然后又匆匆撤稿。原因不明。

不過觀看其提交歷史,可以看到該論文在 12 月 6 日(UTC)就已被提交到 arXiv,到 11 號已經過去了 5 天,公開上線之后卻又被光速撤稿,這不由得地讓人好奇究竟發生了什么。

不過好在該論文有一個 v1 版本已經被互聯網記錄,所以我們也能打開這篇論文一探究竟。

論文中,蘋果揭示了他們開發的一個基于 TPU 的可擴展 RL 框架 RLAX。

是的,你沒有看錯,不是 GPU,也不是蘋果自家的 M 系列芯片,而是谷歌的 TPU!還不止如此,這篇論文的研究中還用到了亞馬遜的云和中國的 Qwen 模型。

  • 論文標題:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs 
  • 論文地址:https://arxiv.org/pdf/2512.06392v1

總之,這篇論文的貢獻還真不少。

不過,在具體介紹這篇論文的研究成果之前,我們有必要先關注一下其作者名單。

RLAX 的作者們

RLAX 論文共有四名核心作者:Runlong Zhou、Lefan Zhang、Shang-Chen Wu 和  Kelvin Zou。

通訊作者則是 Kelvin Zou 和 Cheng Leong。其中 Kelvin Zou 曾在蘋果擔任 Principal Engineer,現已經入職 Meta,成為了一位 AI 研究科學家。而 Cheng Leong 則是已在蘋果工作超過 13 年的老將,現任蘋果 AI Infra(人工智能基礎設施)主管。

截圖自 LinkedIn

此外,我們還在作者名單中看到了龐若鳴的名字。

這位已經加入 Meta 的前蘋果 AI 負責人與其他六位作者的名字一起也出現了論文第一頁的最下方,并被描述為「已離開蘋果公司。他們在受雇于蘋果公司期間為這項工作做出了貢獻。」而且他們基本都是前幾個月才剛剛離職。

簡單搜索一下這六位作者的履歷,可以看到:

  • Kelvin Zou 加入了 Meta
  • Hanzhi Zhou 已入職 OpenAI
  • Ye Ke 加入了 Anthropic
  • Floris Weers 以創始工程師身份加入了一家正處于隱身狀態的創業公司
  • Chong Wang 也加入了 Meta
  • Yi Zhang 現在 xAI 研究模型推理。

RLAX:為了搶占 TPU 而生

回到技術本身。強化學習(RL)對現代推理語言模型的重要性已無需多言,幾乎所有的頂尖模型都是基于 RL 的推理模型,包括 OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1 以及 Qwen 3。

蘋果開發的 RLAX 是一個專為在大規模分布式 TPU 集群上高效執行最先進 RL 算法而設計的強化學習框架。 

極致解耦與搶占式調度

RLAX 采用了參數-服務器(Parameter-Server)架構。主訓練器(Master Trainer)會定期將更新后的模型權重推送到參數服務器。與此同時,一組推理工作器(Inference Workers)會拉取最新權重,并生成新的采樣數據(Rollouts)。

該團隊引入了一套系統級技術,將訓練器、推理工作器和驗證器(Verifiers)在邏輯上進行了分離。這種邏輯分離使得 RLAX 能夠靈活且獨立地為各個組件分配計算資源。

最重要的是,RLAX 完全支持搶占式調度。這意味著當有更高優先級的任務(如在線推理負載)需要時,系統可以立即回收 TPU 資源,而不會導致訓練崩潰。

靈活的策略支持

RLAX 致力于解決大規模 LLM 后訓練 RL 過程中的關鍵挑戰,特別是如何高效處理 On-policy(在線策略)和 Off-policy(離線策略)RL。

為此,RLAX 提供了可編程的配置選項。用戶可以強制執行「陳舊度界限」(Staleness Bounds),指定推理工作器拉取新權重的頻率,以及訓練器所能容忍的最大 Rollout 陳舊度。這使得用戶可以在 On-policy 和 Off-policy RL 之間靈活選擇。

Oubliette:把代碼扔進地牢

在驗證器(Verifiers)的設計上,蘋果工程師展現了一種特有的黑色幽默。

驗證器需要針對訓練語料庫中每種編程語言進行代碼執行驗證。為了高效且確定性地驗證 Python 程序,他們將標準 Python 依賴項容器化。

為了跑通大規模代碼測試,他們調用了亞馬遜的 AWS Lambda 服務,并將其命名為 「Oubliette」。

「Oubliette」一詞源自法語,原意是指城堡中只有一個出口(通常是天花板上的活板門)的地下地牢,是專門用來「遺忘」囚犯的地方。

蘋果工程師用這個詞來隱喻他們的無狀態驗證環境:代碼和測試數據被扔進這個基于 AWS Lambda 的「地牢」里,跑完測試、吐出結果后,整個環境即刻銷毀,就像這段代碼從未存在過一樣。

表現如何?

有趣的是,在實驗階段,我們看到了一個「縫合怪」的誕生:

  • 算力底座:如論文標題明示的那樣,不是自家芯片,也不是英偉達 GPU,而是谷歌的 TPU v5p(使用了 1024 張 TPU v5p 進行實驗)。
  • 驗證環境:為了跑通大規模代碼測試,他們調用了亞馬遜的 AWS Lambda 服務。
  • 基礎模型:他們用來驗證這套框架的模型,不是 Apple Intelligence 的底座,而是來自中國阿里團隊開源的 QwQ-32B。

沒錯,蘋果的工程師,在美國用著谷歌的 TPU,調著亞馬遜的 Serverless 服務,去優化一個中國開源的 Qwen 模型。

結果倒是非常亮眼。RLAX 僅用 12 小時 48 分鐘,在 1024 個 v5p TPU 上將 QwQ-32B 的 pass@8 準確率提高了 12.8%,同時在訓練期間保持了對任務搶占的魯棒性。

這種「美中技術大亂燉」的場景,在蘋果以往封閉的生態中簡直不可想象。這也側面印證了兩件事:第一,在 AI Infra 領域,實用主義正在壓倒門戶之見;第二,國產模型(尤其是 Qwen 和 DeepSeek)在代碼推理領域的統治力,已經強到連蘋果都忍不住要拿來當「磨刀石」。

消失的 1.0:一個硬核的數值幽靈

在 RLAX 論文的第 4 頁和第 9 頁,蘋果披露了一個足以讓系統工程師脊背發涼的 Bug。

在強化學習中,On-policy(在線策略)訓練有一個理論基石:Importance Sampling ratio(重要性采樣比率)r (θ) 應該恒等于 1.0。因為行為策略和當前策略是完全一致的。

但在 TPU 訓練實戰中,蘋果團隊發現:1.0 竟然不等于 1.0。

這個問題的根源在于 bfloat16 浮點數格式的非結合律(Non-associative) 特性。簡單來說,在計算機里 (a+b)+c 和 a+(b+c) 的結果可能存在微小的比特級差異。

  • 推理時:JAX 編譯器為了極致速度,會瘋狂融合算子(Kernel Fusion)。
  • 訓練時:為了反向傳播計算梯度,編譯器必須保留中間值,導致算子融合策略與推理時不同。

這種計算順序的微小差異,在 bfloat16 下被放大,導致推理端算出的概率和訓練端算出的概率無法對齊,進而導致訓練崩潰。

蘋果的解決方案非常暴力且有效:他們在訓練器中強制重算(Rematerialization),禁用了大部分激活值的保存,強行讓訓練端的計算圖去「模仿」推理端的計算順序。雖然犧牲了一點點速度,但消除了這個數值問題。

對于正在從事 LLM Post-training 的工程師來說,這個 Debug 過程極具參考價值。

寫在最后

雖然目前已被撤稿,但 RLAX 證明了蘋果在 AI 基礎設施上依然擁有世界頂級的工程能力。他們能駕馭最復雜的分布式系統,解決最底層的數值難題。

但隨著許多重要人物分散到 Meta、OpenAI、Anthropic 和 xAI,這篇論文似乎也成為了蘋果 AI 這一階段的一個注腳。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-23 12:39:02

2025-07-24 09:12:00

2025-07-10 14:49:05

AI硅谷智能

2015-06-12 11:26:18

谷歌蘋果圣戰

2012-09-11 10:09:54

阿里云

2012-12-18 09:48:27

iOS谷歌蘋果

2013-09-24 10:58:58

Surface 2微軟Surface RT

2014-06-26 11:14:35

Google IO 2014

2015-03-09 10:18:23

2023-04-11 08:37:30

TPUAI芯片

2024-07-10 12:32:48

2023-05-06 07:43:00

ASIC谷歌TPU

2021-12-24 08:55:58

蘋果 iOS 15 SwiftUI

2021-04-21 10:08:59

人工智能機器學習技術

2020-11-13 09:54:34

蘋果 iOS系統

2009-07-21 14:25:27

阿里巴巴王濤

2021-01-12 12:30:50

Linux命令編程語言

2010-08-25 16:23:22

新戰線

2023-12-07 06:52:54

AI化學
點贊
收藏

51CTO技術棧公眾號

97视频在线| 久久久久99精品国产片| 欧美精品九九| 免费成人在线视频观看| 欧美国产精品专区| 欧美三级日韩在线| 国产精品亚洲欧美导航| 99999精品视频| 看亚洲a级一级毛片| 国产精品乡下勾搭老头1| 国产99精品国产| 欧美精品aⅴ在线视频| 精品国产_亚洲人成在线| 免费一区二区三区在线观看| 成人精品在线观看| av网站在线免费观看| 澳门av一区二区三区| 狠狠狠色丁香婷婷综合久久五月| 中文字幕中文字幕中文字幕亚洲无线| 国产精品一线| 激情欧美亚洲| 波波电影院一区二区三区| 欧美日韩大陆一区二区| 91国产精品视频在线| 国产中文字幕免费观看| 午夜成年人在线免费视频| 欧美日韩国产欧| 欧洲精品中文字幕| 黑人巨大国产9丨视频| 91露出在线| 蜜桃91丨九色丨蝌蚪91桃色| 欧美一区二区人人喊爽| 国模gogo一区二区大胆私拍| 中文字幕在线第一页| 91精品久久久久久综合五月天| 亚洲视频一区二区在线| 久久久精品国产亚洲| 神马伦理电影| 精品日韩欧美一区| 欧美日韩在线播放| 91成人在线观看喷潮教学| 欧美暴力调教| 色噜噜狠狠成人中文综合| 日本一区二区三区免费看| 色a资源在线| 国产精品久久久久桃色tv| 鬼打鬼之黄金道士1992林正英| 在线视频尤物| 另类欧美日韩国产在线| 亚洲欧美国产另类| www.亚洲视频.com| 免费看污久久久| av久久网站| 欧美日韩精品系列| 欧美图片激情小说| 国产农村妇女精品一二区| 亚洲免费成人av电影| 免费观看成人在线视频| 久久不见久久见国语| 日韩成人在线网站| 青青草免费在线| 精品国产91乱高清在线观看 | 亚洲电影一级黄| 每日在线观看av| 蜜臀a∨国产成人精品| 伊人成人开心激情综合网| 激情综合网婷婷| 日产精品一区二区| 国产精品久久久久久久久久久久久久 | 国产一区二区三区在线看| 日本三级免费网站| 中日韩视频在线观看| 日韩精品极品在线观看播放免费视频| 亚洲天堂2018av| 韩国一区二区在线观看| 91日韩在线视频| 国产一区二区视频在线看| xxxxx91麻豆| 99精品美女视频在线观看热舞| 日韩av一区在线| 婷婷av在线| 国产偷国产偷精品高清尤物| 大陆极品少妇内射aaaaaa| 精久久久久久| 97人人做人人人难人人做| 欧美一区二区三区久久精品| 成人久久久久久久| 国产精品久久久久久影院8一贰佰| 欧美精品做受xxx性少妇| 日本妇女一区| 日韩在线观看视频免费| 在线观看的黄色| 亚洲黄色成人网| 国产精品色呦| 国内偷自视频区视频综合| av资源久久| 日日摸日日碰夜夜爽无码| 成人91在线观看| 美日韩精品免费| 久久久综合视频| 国产欧美日韩网站| 精品久久久国产| av在线日韩| 97久久天天综合色天天综合色hd | 国产日本欧美一区| 爱看av在线| 午夜欧美大片免费观看| 国产乱论精品| 欧美日韩一区二区三区视频| 性欧美18xxxhd| 欧美高清在线观看| 噜噜噜天天躁狠狠躁夜夜精品 | 91美女主播在线视频| 国产精品狠色婷| 精品视频一二| 日韩aⅴ视频一区二区三区| 国产福利精品导航| 亚洲精品白虎| 午夜成人在线视频| 国产www视频在线观看| 亚洲精品欧美极品| www.欧美日韩国产在线| jizz一区二区三区| 日本精品va在线观看| 男女男精品视频| 欧美成人三级在线播放| 亚洲国产精品久久精品怡红院| 激情婷婷欧美| 精品视频无码一区二区三区| 亚洲一区在线免费观看| 欧美性生活一级片| 久久一区二区三区av| 日韩一区二区三区电影| 不卡的av在线播放| 欧美精选视频一区二区| 亚洲一区三区| 亚洲另类一区二区| 亚洲图片久久| 日韩精品福利| 久草视频这里只有精品| 国产亚洲精品美女| 精品亚洲成a人在线观看| 国产高清视频色在线www| 久草综合在线观看| 91精品91久久久久久| 国产精品素人一区二区| 欧美亚洲韩国| 久久久国产精品一区二区三区| 欧美日韩精品欧美日韩精品| 一区三区视频| 亚洲精品视频99| 国产日韩中文在线| 精品欧美黑人一区二区三区| 日韩电影免费在线| 日韩三区免费| http;//www.99re视频| 欧美刺激午夜性久久久久久久| 99久久免费国产| 日韩影院在线| 免费的一级黄色片| 国内精品一区二区三区| 日韩三级免费观看| 成人性视频免费网站| 日韩高清在线观看一区二区| 精品视频二区| 成人性生交大片免费看视频r| 久久精品国产91精品亚洲| 日本一区二区三区久久久久久久久不| 99精品国自产在线| 蜜桃专区在线| 免费成人午夜视频| 国产亚洲欧洲在线| av中文字幕不卡| 国产91丝袜在线播放九色| 精品久久国产| 免费在线看污| 午夜宅男在线视频| 国产精品视频专区| 日韩亚洲欧美成人| 天天av天天翘天天综合网 | 美女www一区二区| 人成在线免费网站| 一级毛片视频在线| 日本18视频网站| 国产在线999| 精品视频偷偷看在线观看| 51精品秘密在线观看| 亚洲男人天堂av网| 亚洲精品一区国产| 午夜小视频在线观看| 污视频免费在线看| 日本www高清视频| 国产精品嫩草在线观看| 中文一区二区视频| 亚洲美女淫视频| www.爱久久.com| 99久久精品国产毛片| 国内精品国产三级国产a久久 | 日韩视频一区| 国产日产精品一区二区三区四区的观看方式 |