顛覆LLM格局！AI2新模型OLMo2，訓練過程全公開，數(shù)據(jù)架構雙升級

作者：新智元 2025-01-24 15:40:00

人工智能新聞

非營利研究機構AI2近日推出的完全開放模型OLMo 2，在同等大小模型中取得了最優(yōu)性能，且該模型不止開放權重，還十分大方地公開了訓練數(shù)據(jù)和方法。

最近，非營利研究機構AI2上新了OLMo2系列模型，他們稱之為「迄今為止最好的完全開源模型」。

OLMo 2系列包含7B和13B兩個型號，相比如Llama 3.1和Qwen 2.5等開源模型達到了同等甚至更優(yōu)的性能，同時FLOPS計算量更少，在性能和計算效率之間取得了極佳的平衡，為開源LLM開辟了新的可能性。

不同大小開源模型的性能對比，OLMo 2的表現(xiàn)優(yōu)于同參數(shù)規(guī)模模型

在多個下游任務上，OLMo 2展現(xiàn)出了強大的泛化能力和適應能力。在10個基準上，OLMo-2-13B的性能全面超越了Llama-2-13B，OLMo-2-8B的基準均分也超過了Llama-3.1-8B。

訓練過程全公開

不同于Llama、Qwen這類只開源模型權重的項目，這次AI2也秉持了一貫的開源風格，即不止發(fā)布了訓練好的OLMo 2模型權重，還公開了訓練數(shù)據(jù)、代碼、訓練過程。這無疑為之后的LLM的研究和應用提供了寶貴的資源。

論文地址：https://arxiv.org/pdf/2501.00656

OLMo 2的訓練過程分為3個階段，分別是預訓練、中期訓練和后期的指令調(diào)優(yōu)。預訓練數(shù)據(jù)混合了高質(zhì)量的網(wǎng)頁數(shù)據(jù)、代碼數(shù)據(jù)和學術論文數(shù)據(jù)等。

在預訓練階段，OLMo 2通過多種技術改進了訓練穩(wěn)定性，例如過濾重復的n-gram、使用更好的初始化方法、架構改進和超參數(shù)調(diào)整。這確保了模型在訓練過程中不會出現(xiàn)崩潰或損失激增，從而提高了最終模型的性能。

預訓練使用的高質(zhì)量數(shù)據(jù)集

中期訓練階段使用高質(zhì)量的領域特定數(shù)據(jù)（例如數(shù)學數(shù)據(jù)），以及合成數(shù)據(jù)，來增強模型的能力，特別是在數(shù)學任務上的表現(xiàn)；加上微退火技術評估以及選擇高質(zhì)量的數(shù)據(jù)源，進一步優(yōu)化了中期訓練的效果。

中期訓練使用的高質(zhì)量數(shù)據(jù)集

最后的指令調(diào)優(yōu)階段，研究人員基于Tülu 3的指令調(diào)優(yōu)方法，開發(fā)了OLMo 2-Instruct模型，專注于使用許可數(shù)據(jù)，并擴展最終階段的強化學習與可驗證獎勵（RLVR）。

此外，監(jiān)督微調(diào)（SFT）、直接偏好優(yōu)化（DPO）和RLVR等多階段訓練，顯著提高了模型的指令跟隨能力和生成質(zhì)量。

OLMo 2的開源是全方位的，包括所有用于復制和擴展這些模型所需的訓練和評估代碼、數(shù)據(jù)集、模型檢查點、日志及超參數(shù)的選擇等，相比只開源權重，使更多研究人員和開發(fā)者能夠使用和改進這些模型。

通過開源所有組件，OLMo 2促進了對語言模型行為和使用的理解和研究，促進語言模型研究的透明度和可重復性，這些足以成為之后研究所依賴的基礎設施。

OLMo 2 7B和13B模型的訓練過程中的超參數(shù)

多管齊下造就「低碳」LLM

在大規(guī)模語言模型訓練中，計算資源和環(huán)境影響是不可忽視的因素。Deepseek V3能夠以20分之一的成本進行訓練，而OLMo 2團隊也通過減少主機-設備同步、數(shù)據(jù)預處理、數(shù)據(jù)緩存等多種方法降低了訓練成本，并取得了顯著的成效。

OLMo 2的訓練主要在兩個集群上進行：Jupiter和Augusta。Jupiter集群配備了128個節(jié)點，每個節(jié)點有8張H100，總共1024個GPU；Augusta集群由160個A3 Mega虛擬機組成，每個虛擬機也有8張H100，總共1280個GPU。

OLMo 2的7B模型在4.05萬億token上進行訓練，13B模型在5.6萬億token上進行訓練。訓練時間取決于模型的參數(shù)規(guī)模和訓練數(shù)據(jù)量。

同時為了降低能源消耗，團隊使用水冷系統(tǒng)來降低GPU的溫度和功耗，從而提高訓練效率并降低電力成本。

這些措施加在一起，相比訓練同大小的Llama 3.1所消耗的1022MWh電力，OLMo 2 7B訓練過程中總計只消耗了131MWh的電力，相當于只有約10分之一的耗電量，顯著降低了訓練過程消耗的算力，能源及碳足跡。

OLMo 和Llama訓練能耗的對比

OLMo 2的發(fā)布，標志著開源LLM的持續(xù)進步，為相關領域的研究建立一個新生態(tài)系統(tǒng)。在這個生態(tài)系統(tǒng)中，新的訓練方法和技術需要被理解和分享。

責任編輯：張燕妮來源：新智元

模型 AI 數(shù)據(jù)

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

顛覆LLM格局！AI2新模型OLMo2，訓練過程全公開，數(shù)據(jù)架構雙升級

訓練過程全公開

預訓練使用的高質(zhì)量數(shù)據(jù)集

中期訓練使用的高質(zhì)量數(shù)據(jù)集

OLMo 2 7B和13B模型的訓練過程中的超參數(shù)