国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

豆包是如何煉成的?字節(jié)放出自研萬卡訓(xùn)練系統(tǒng)ByteRobust論文

人工智能 新聞
近日,字節(jié)跳動(dòng)一篇論文介紹了他們 LLM 訓(xùn)練基礎(chǔ)設(shè)施 ByteRobust,引發(fā)廣泛關(guān)注。現(xiàn)在,在訓(xùn)練基礎(chǔ)設(shè)施層面上,我們終于知道字節(jié)跳動(dòng)會(huì)如何穩(wěn)健地訓(xùn)練豆包了。

大型語言模型(LLM)訓(xùn)練的核心基礎(chǔ)設(shè)施是 GPU。現(xiàn)如今,其訓(xùn)練規(guī)模已達(dá)到數(shù)萬塊 GPU,并且仍在持續(xù)擴(kuò)大。同時(shí),訓(xùn)練大模型的時(shí)間也越來越長(zhǎng)。例如,一個(gè) 405B 參數(shù)模型 LLaMA 3 的預(yù)訓(xùn)練,動(dòng)用了 16,384 塊 NVIDIA H100 GPU,耗時(shí) 54 天。字節(jié)跳動(dòng)曾使用 12,288 塊 GPU 訓(xùn)練了一個(gè) 175B 參數(shù)的模型。最近,xAI 建立了一個(gè)擁有 100,000 塊 GPU 的集群以進(jìn)一步擴(kuò)大訓(xùn)練規(guī)模。

資源規(guī)模的擴(kuò)張也帶來了故障的普遍發(fā)生(例如 CUDA 錯(cuò)誤、NaN 值、任務(wù)掛起等),這對(duì)訓(xùn)練的穩(wěn)定性構(gòu)成了巨大挑戰(zhàn)。Meta 曾報(bào)告稱,在 16,000 塊 GPU 上訓(xùn)練大模型時(shí),硬件故障大約每 2.78 小時(shí)發(fā)生一次。

對(duì)于 LLM 訓(xùn)練,當(dāng)前的故障診斷和處理實(shí)踐通常依賴于在發(fā)生「故障即停止」 (fail-stop) 事件后進(jìn)行日志分析和退出碼評(píng)估,或者獨(dú)占整個(gè)集群進(jìn)行壓力測(cè)試。一旦確定了根本原因,訓(xùn)練任務(wù)會(huì)通過重新調(diào)度的資源和并行配置來恢復(fù),并從遠(yuǎn)程文件系統(tǒng)重新加載通常由 TB 級(jí)數(shù)據(jù)組成的檢查點(diǎn) (checkpoints)。這種「故障 - 停止-診斷-恢復(fù)」的流程會(huì)產(chǎn)生不可忽視的開銷,耗時(shí)從幾小時(shí)到幾天不等。隨著模型和資源規(guī)模的擴(kuò)大,故障頻率增加,這極大地限制了有效訓(xùn)練時(shí)間比率 (ETTR,即有效訓(xùn)練時(shí)間與任務(wù)總運(yùn)行時(shí)長(zhǎng)的比值)。

因此,任何大規(guī)模 LLM 訓(xùn)練基礎(chǔ)設(shè)施都應(yīng)致力于實(shí)現(xiàn)最小化的訓(xùn)練中斷、高效的故障診斷和有效的容錯(cuò)能力,以支持高效率的連續(xù)訓(xùn)練。

近日,字節(jié)跳動(dòng)一篇論文介紹了他們 LLM 訓(xùn)練基礎(chǔ)設(shè)施 ByteRobust,引發(fā)廣泛關(guān)注。現(xiàn)在,在訓(xùn)練基礎(chǔ)設(shè)施層面上,我們終于知道字節(jié)跳動(dòng)會(huì)如何穩(wěn)健地訓(xùn)練豆包了。

  • 論文標(biāo)題:Robust LLM Training Infrastructure at ByteDance
  • 論文地址:https://arxiv.org/abs/2509.16293

值得注意的是,這項(xiàng)研究共有六位共一作者:Borui Wan、 Gaohong Liu、Zuquan Song、Jun Wang、Yun Zhang、Guangming Sheng。

ByteRobust,一個(gè)穩(wěn)健的 LLM 訓(xùn)練基礎(chǔ)設(shè)施

ByteRobust 是字節(jié)跳動(dòng)基于生產(chǎn)環(huán)境中的觀察和經(jīng)驗(yàn)構(gòu)建的,力求穩(wěn)健。

其關(guān)鍵目標(biāo)是:以最小的非生產(chǎn)時(shí)間實(shí)現(xiàn)高效的事件診斷和處理,即在大規(guī)模 LLM 訓(xùn)練中獲得高 ETTR。ByteRobust 經(jīng)過精心設(shè)計(jì),用于監(jiān)控和管理 LLM 訓(xùn)練的全生命周期,以便大規(guī)模地自動(dòng)高效處理訓(xùn)練事件。

ByteRobust 由兩個(gè)核心組件構(gòu)成:控制平面 (control plane) 和數(shù)據(jù)平面 (data plane)。

ByteRobust 的架構(gòu)

控制平面在訓(xùn)練任務(wù)外部運(yùn)行,負(fù)責(zé)協(xié)調(diào)穩(wěn)健的事件處理策略,包括檢測(cè)異常、定位故障并觸發(fā)適當(dāng)?shù)幕謴?fù)操作。

其中,Robust Controller 負(fù)責(zé)協(xié)調(diào)一個(gè)自動(dòng)化的故障緩解框架,利用實(shí)時(shí)監(jiān)控和「停止 - 診斷」來處理大多數(shù)事件。為了實(shí)現(xiàn)可控的快速恢復(fù),當(dāng)沒有機(jī)器被驅(qū)逐時(shí),它使用一種「原地?zé)岣隆箼C(jī)制來重啟訓(xùn)練。當(dāng)決定驅(qū)逐某些機(jī)器時(shí),它會(huì)請(qǐng)求經(jīng)過自檢預(yù)驗(yàn)證的「溫備用」機(jī)器來恢復(fù)任務(wù)。

Runtime Analyzer 則通過聚合來自訓(xùn)練 Pod 的堆棧跟蹤來隔離和(過度)驅(qū)逐可疑機(jī)器,以解決任務(wù)掛起和性能下降問題。

數(shù)據(jù)平面駐留在每個(gè)訓(xùn)練 Pod 內(nèi)部,集成了監(jiān)控、診斷、檢查點(diǎn)管理和堆棧跟蹤捕獲等模塊,提供實(shí)時(shí)可觀測(cè)性、中斷時(shí)的即時(shí)診斷、快速的檢查點(diǎn)回滾以及按需的聚合分析。

Robust Agent 守護(hù)進(jìn)程在每個(gè)訓(xùn)練 Pod 中運(yùn)行,處理來自穩(wěn)健控制器的控制信號(hào),并管理以下四個(gè)子模塊:

  • 監(jiān)控器 (Monitor) 收集多方面數(shù)據(jù)以檢測(cè)異常值,支持實(shí)時(shí)檢查并在出現(xiàn)異常時(shí)觸發(fā)聚合分析。
  • 診斷器 (Diagnoser) 在任務(wù)暫停后運(yùn)行特定領(lǐng)域的基準(zhǔn)測(cè)試和測(cè)試套件,從而能夠?qū)?fù)雜故障進(jìn)行深入診斷。
  • 按需追蹤器 (On-Demand Tracer) 從訓(xùn)練進(jìn)程中捕獲堆棧跟蹤(當(dāng)調(diào)用聚合分析時(shí))并將其上傳到運(yùn)行時(shí)分析器。
  • 檢查點(diǎn)管理器 (CKPT manager) 執(zhí)行異步檢查點(diǎn)設(shè)置,并將備份跨并行組存儲(chǔ)到 CPU 內(nèi)存和本地磁盤,以最小化恢復(fù)成本)。

與傳統(tǒng)的 GPU 管理和容錯(cuò)系統(tǒng)(通常在 Kubernetes Pod 級(jí)別運(yùn)行)不同,ByteRobust 是將 LLM 訓(xùn)練任務(wù)的清單擴(kuò)展到包含細(xì)粒度的進(jìn)程管理,能夠利用運(yùn)行時(shí)信息進(jìn)行故障檢測(cè)并實(shí)現(xiàn)快速恢復(fù)。ByteRobust 通過一套全面的技術(shù)實(shí)現(xiàn)了這一目標(biāo),其新穎的系統(tǒng)設(shè)計(jì)理念總結(jié)如下。

優(yōu)先快速隔離,而非精確定位

ByteRobust 傾向于快速的故障隔離,而不是詳盡的定位。在超大規(guī)模的 LLM 訓(xùn)練中(通常涉及數(shù)千塊 GPU),精確定位故障可能會(huì)導(dǎo)致大量 GPU 閑置。

為了最大化 ETTR,字節(jié)跳動(dòng)的做法是將輕量級(jí)的實(shí)時(shí)檢測(cè)與分層的「停止-診斷」相結(jié)合,以最小的開銷快速甄別出故障機(jī)器。

當(dāng)這些方法不足以解決問題時(shí),ByteRobust 會(huì)應(yīng)用一種數(shù)據(jù)驅(qū)動(dòng)的方法,對(duì)運(yùn)行時(shí)的堆棧跟蹤進(jìn)行聚類分析,以在定義的故障域(即并行組)內(nèi)隔離可疑機(jī)器,寧可「過度驅(qū)逐」它們,也不去追查確切的根本原因。

將人為錯(cuò)誤納入設(shè)計(jì)考量

與標(biāo)準(zhǔn)的深度學(xué)習(xí)訓(xùn)練任務(wù)不同,長(zhǎng)達(dá)數(shù)月的 LLM 訓(xùn)練涉及數(shù)據(jù)、算法和工程代碼的持續(xù)更新,這加劇了系統(tǒng)的脆弱性。

認(rèn)識(shí)到人為錯(cuò)誤是不可避免的故障來源,字節(jié)跳動(dòng)提出了一個(gè)自動(dòng)化容錯(cuò)框架。

ByteRobust 的自動(dòng)化容錯(cuò)機(jī)制

該框架結(jié)合了用于即時(shí)檢測(cè)常見錯(cuò)誤的實(shí)時(shí)檢查、用于深入分析復(fù)雜故障的「停止-診斷」、用于從瞬時(shí)故障中恢復(fù)的原地重試、用于從有缺陷的用戶代碼中恢復(fù)的代碼回滾,以及用于解決如 SDC 等極端情況的回放測(cè)試。

此外,通過一種「延遲更新」的方法,用戶代碼的變更可以與確定性故障的恢復(fù)過程合并,從而利用了故障的必然性和高頻率。

在快速恢復(fù)期間控制可變性

故障源于硬件缺陷和軟件錯(cuò)誤,并且機(jī)器在長(zhǎng)時(shí)間運(yùn)行的任務(wù)中可能會(huì)性能退化。因此,在代碼升級(jí)和恢復(fù)過程中確保穩(wěn)定性至關(guān)重要。

對(duì)于不改變機(jī)器分配的變更,字節(jié)跳動(dòng)使用一種「原地?zé)岣隆箼C(jī)制來保留運(yùn)行時(shí)環(huán)境并簡(jiǎn)化診斷。

為確保可控且快速的恢復(fù),ByteRobust 利用預(yù)先配置的「溫備用」 (warm standbys) 機(jī)器,這些機(jī)器在交付前會(huì)執(zhí)行自檢,以避免整個(gè)任務(wù)的重新調(diào)度。

最后,字節(jié)跳動(dòng)的檢查點(diǎn)模塊通過將備份分布在不同的并行組中(位于任何單個(gè)故障域之外),與故障域緊密結(jié)合,消除了對(duì)遠(yuǎn)程文件系統(tǒng)的依賴,從而實(shí)現(xiàn)快速重啟。

ByteRobust 已被實(shí)際部署

字節(jié)跳動(dòng)表示,ByteRobust 已經(jīng)實(shí)現(xiàn)并已實(shí)際部署超過一年時(shí)間,用于支持字節(jié)跳動(dòng)在高性能生產(chǎn) GPU 集群中的內(nèi)部 LLM 訓(xùn)練。字節(jié)跳動(dòng)表示,ByteRobust 可以有效減少事件檢測(cè)時(shí)間,并通過自動(dòng)容錯(cuò)框架和聚合分析解決事件。

在為期三個(gè)月的時(shí)間里,ByteRobust 通過其自動(dòng)化容錯(cuò)訓(xùn)練框架識(shí)別了 38,236 次顯式故障和 5,948 次隱式故障。

字節(jié)跳動(dòng)在三個(gè)月期間收集的訓(xùn)練事故統(tǒng)計(jì)數(shù)據(jù),涵蓋了 778,135 個(gè) LLM 訓(xùn)練任務(wù)。

字節(jié)跳動(dòng)在 16,384 塊 GPU 上的微基準(zhǔn)測(cè)試實(shí)驗(yàn)表明,溫備用和熱更新機(jī)制在恢復(fù)速度上分別實(shí)現(xiàn)了高達(dá) 10.87 倍和 11.04 倍的提升。

ByteRobust 中高效的檢查點(diǎn)機(jī)制實(shí)現(xiàn)了「每步檢查點(diǎn)」(every-step checkpointing),其開銷低于 0.9%,從而加速了故障切換。

部署實(shí)驗(yàn)表明,在一個(gè)為期三個(gè)月、使用 9,600 塊 GPU 的密集模型(類似 Llama,70B+)訓(xùn)練任務(wù)中,ByteRobust 實(shí)現(xiàn)了高達(dá) 97% 的 ETTR。

Cumulative ETTR 和 sliding-window ETTR 是字節(jié)跳動(dòng)引入的新指標(biāo),其中前者是累積的有效訓(xùn)練時(shí)間與任務(wù)運(yùn)行的累積總時(shí)長(zhǎng)的比率,而后者在一個(gè)小時(shí)的窗口內(nèi)計(jì)算的 ETTR,能更準(zhǔn)確地反映間歇性故障的影響。

另外,他們也進(jìn)行了一個(gè)為期一個(gè)月的 MoE 模型(Doubao-1.5-pro,200B+)訓(xùn)練任務(wù),ByteRobust 的表現(xiàn)同樣非常不錯(cuò)。

同時(shí),隨著訓(xùn)練的進(jìn)行,兩個(gè)任務(wù)的相對(duì) MFU(Model FLOPs Utilization)持續(xù)增長(zhǎng)。在訓(xùn)練期間,字節(jié)跳動(dòng)最初在集群上部署了一個(gè)樸素版本的預(yù)訓(xùn)練代碼,然后不斷地調(diào)整和優(yōu)化其學(xué)習(xí)過程和計(jì)算效率。

在上圖中,MFU 曲線的每一次躍升都表明,一個(gè)更高效的訓(xùn)練代碼版本通過 ByteRobust 的熱更新機(jī)制部署了,而這對(duì) ETTR 造成的降低微不足道。與初始運(yùn)行時(shí)相比,字節(jié)跳動(dòng)在密集模型和 MoE 任務(wù)中分別實(shí)現(xiàn)了 1.25 倍和 1.58 倍的 MFU 提升。

字節(jié)跳動(dòng)還觀察到,與密集模型相比,MoE 訓(xùn)練的 ETTR 相對(duì)較低。

密集模型的訓(xùn)練性能通常已由社區(qū)充分優(yōu)化,而 MoE 訓(xùn)練則不同,它通常涉及大量自定義優(yōu)化,如 GPU 內(nèi)核調(diào)優(yōu)、計(jì)算與通信重疊以及負(fù)載均衡策略。雖然這些優(yōu)化對(duì)于提高訓(xùn)練效率是必要的,并表現(xiàn)出更高的 MFU,但它們也引入了額外的復(fù)雜性,增加了代碼回滾和手動(dòng)重啟的可能性。

更多詳情請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-02-25 15:43:43

AI 數(shù)據(jù)人工智能

2024-08-08 17:48:56

2010-02-06 15:14:36

ibmdw架構(gòu)師

2010-03-24 15:40:39

網(wǎng)管運(yùn)維管理摩卡軟件

2013-08-23 08:53:45

Twitter架構(gòu)服務(wù)器

2020-08-03 07:57:43

人工智能無人駕駛技術(shù)

2020-08-04 13:20:58

無人駕駛人工智能傳感器

2015-10-23 10:39:21

2014-06-20 10:34:42

開源

2015-09-06 09:09:13

2021-01-27 11:48:34

高可用系統(tǒng)Review

2015-11-10 09:09:23

代碼程序員成長(zhǎng)

2013-08-19 16:17:48

CIO

2024-03-28 08:13:51

GPTsOpenAI人工智能

2011-11-25 09:48:04

天線無線

2009-08-26 09:55:47

思科認(rèn)證CCIE思科認(rèn)證網(wǎng)絡(luò)專家

2024-07-29 09:20:00

AI模型

2016-09-25 14:09:50

bug報(bào)告bug故障

2016-03-30 09:54:59

bug報(bào)告開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲日韩欧美视频| 8x8x最新地址| 国产在线观看91一区二区三区| 亚洲黄页视频免费观看| 高清日韩av电影| 国产精品成人一区二区艾草 | av综合电影网站| 欧美二区乱c少妇| 人成在线免费视频| 香蕉久久一区二区不卡无毒影院| 日韩不卡一二三| 国产精品人妖ts系列视频| 国产福利一区视频| 91蝌蚪国产九色| 国产高清www| 成人aa视频在线观看| 中国老女人av| 国产一区二区成人久久免费影院| 亚洲一区二区免费视频软件合集 | 久久久久久自在自线| 5566av亚洲| 亚洲不卡av不卡一区二区| 欧美中在线观看| 亚洲精品亚洲人成在线观看| 久久人人爽人人| 天堂一区二区三区四区| 国产999精品视频| 欧美3p视频| 91超碰在线电影| 99精品视频免费| 一区二区三区在线视频111| 国产在线日韩欧美| 精品这里只有精品| 亚洲色图另类专区| 国产日产精品久久久久久婷婷| 欧美日韩在线免费视频| 午夜在线激情影院| 国产亚洲精品久久久优势| 电影一区中文字幕| 日本久久久久久久| 国产综合网站| 中文字幕剧情在线观看一区| 国产精品一区二区免费不卡| 六月激情综合网| 亚洲一区二区三区自拍| 在线观看国产原创自拍视频| 亚洲精品一区中文字幕乱码| 国产精品亚洲一区二区在线观看 | 五月天亚洲综合情| 成人免费视频app| 男人的天堂www| 在线观看日产精品| 欧美成人黑人| 日本午夜人人精品| 亚洲综合三区| 亚洲精品无码久久久久久| 亚洲女同一区二区| 成人免费在线| 欧美黄色片免费观看| 在线看片不卡| 亚洲午夜精品国产| 国产精品久久久久久久久动漫 | 国产精品电影一区二区三区| 波多野结衣av在线播放| 91精品国产一区二区三区| www.成人影院| 日韩免费高清在线观看| 亚洲免费网址| 久久久精品麻豆| 日本黄色一区二区| 欧美日韩破处视频| 亚洲伊人一本大道中文字幕| 国产一区二区三区综合| 性视频在线播放| 日韩av在线网页| 99re6这里只有精品| 黄网站色视频免费观看| 亚洲成人免费电影| 久久久成人av毛片免费观看| 91精品久久久久久久久久久| 国产精品亚洲视频| 经典三级在线| 久久久女女女女999久久| 水野朝阳av一区二区三区| 国产.com| 国产亚洲aⅴaaaaaa毛片| 亚洲最新av| 欧美日韩一区二区三区69堂| 欧美mv日韩mv亚洲| 999国产精品视频| 国产成人黄色片| 日韩美女一区二区三区| 色综合色综合| 日本免费观看网站| 亚洲一区二区久久| 亚洲在线观看| 国产导航在线| 久久频这里精品99香蕉| 久久99精品久久久久婷婷| 亚洲成人av在线影院| 欧美激情一区二区三级高清视频| 噜噜噜躁狠狠躁狠狠精品视频| 午夜影院在线| 91国语精品自产拍在线观看性色| 国产精品99久久久久久有的能看| 一区二区三区视频在线观看视频| 国产97在线亚洲| 欧美经典一区二区| 日韩精品一页| 国产成人精品免费看在线播放| 色综合天天狠狠| 国产日产一区 | 成人黄色网址在线观看| 三区四区在线视频| 成人网欧美在线视频| 亚洲婷婷在线视频| 日韩一区二区三区精品| 国产一区二区三区小说| 日韩大陆毛片av| 男人的天堂亚洲一区| 精品国产99久久久久久| 亚洲一区亚洲二区| 精品久久久久久国产| 欧美理论电影大全| 日本成人免费网站| 欧美黑人一级爽快片淫片高清| av成人老司机| www.久久久.com| 无码人妻丰满熟妇区毛片| 久久精品国产一区二区三区 | 国内伊人久久久久久网站视频 | 中文字幕一区日韩精品欧美| 色综合.com| 国产免费黄视频| 欧美成人免费全部| 91免费观看国产| 精品三级国产| 久久久久久三级| 97视频在线免费观看| 亚洲欧美在线另类| 国内黄色精品| 中文天堂在线观看| 91国产丝袜在线放| 欧美久久久久久久久久| 久色成人在线| 中文字幕在线直播| 成人午夜免费在线视频| 国产香蕉一区二区三区在线视频 | 亚洲一区二区不卡免费| 精品一级毛片| 久热av在线| 性欧美大战久久久久久久免费观看| 欧美成人官网二区| 国产不卡高清在线观看视频| 成人在线视频观看| 亚洲jjzzjjzz在线观看| 国产精品一区二区三区免费视频| 欧美日韩在线一区| 噜噜噜91成人网| 成人在线免费av| 2018高清国产日本一道国产| 成人日韩在线电影| 日韩亚洲国产中文字幕欧美| 久久精品二区亚洲w码| 国产亚洲精彩久久| 日本aⅴ中文| 日本中文不卡| 日韩天堂在线视频| 精品免费在线观看| 蜜臀精品久久久久久蜜臀 | 91精品一区国产高清在线gif| 日韩在线无毛| 日韩视频在线观看视频| 国语自产偷拍精品视频偷 | 久久久精品网| 国产精品一区三区在线观看| 500福利第一精品导航| 日本精品一区二区三区视频| 久久精品一本| 在线中文字幕电影| 中文字幕欧美人妻精品一区| 亚洲japanese制服美女| 亚洲美女性视频| 洋洋av久久久久久久一区| 久久av一区| 欧美1区2区3区4区| 日韩电影免费观看| av免费看大片| 亚洲人成影视在线观看| 97视频免费看| 亚洲国产精品yw在线观看| 亚洲视频免费在线观看| 国产日韩专区| 国产毛片久久久| 久草在线视频福利| 蜜芽视频在线观看| 久久婷婷国产精品| 日韩欧美亚洲区| 国产精品专区h在线观看| 中文字幕久久亚洲|