国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

llama 4, 開源!

發布于 2025-4-10 07:06
瀏覽
0收藏

Meta 開源 llama4, 原生多模態模型, 慣例,支持200多種語言,除了中文。

llama 4, 開源!-AI.x社區

有點堆活,主要特色是,可以單張GPU運行近1000w token上下文的模型,所以直接對標gemini了?

llama 4, 開源!-AI.x社區

1000萬token上下文窗口意味著什么?相當于可以處理20多小時的視頻內容(因為它是原生多模態模型)。

三款全新模型同步發布

  • Scout:17B激活參數(16個專家)。速度極快,原生多模態,智能程度高。達到業界領先的1000萬+token上下文窗口,并且可以在單個GPU上運行!
  • Maverick:17B激活參數(128個專家,100萬token上下文窗口)。在多模態領域表現優于GPT-4o和Gemini 2.0 Flash,在廣泛的基準測試中領先,同時在推理和編碼方面達到與DeepSeek v3相當的結果,但激活參數不到后者的一半。它在性能與成本比上表現出色,實驗性聊天版本在LMArena上得分1417 ELO。同樣可在單臺主機上運行!
  • Behemoth:288B激活參數(16個專家)。這個模型仍在訓練中,是Meta迄今為止最強大的模型,也是全球最智能的LLM之一。Llama 4 Behemoth在多項STEM基準測試中超越了GPT4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。

目前只有Scout和Maverick已經發布。

核心亮點

  • 原生多模態架構:所有模型使用早期融合技術,將文本、圖像視頻無縫整合到統一的模型主干中。
  • 采用了混合專家(MoE)架構,MoE設計降低了推理成本同時提高了質量。
  • 兩個MoE模型訓練了高達40萬億token,預訓練涵蓋200種語言,性能顯著超越前代產品Llama 3.1 405B。
  • Llama 4 Scout擁有1000萬token的上下文窗口。
  • 從2T參數的教師模型共同蒸餾,強化了推理能力。
  • 減少了政治偏見,拒絕率更加平衡。
  • 訓練采用了新策略,包括用于優化超參數的"MetaP"方法、通過自適應過濾增強的實時強化學習,以及從更大的Behemoth模型共同蒸餾。
  • 根據Meta的計算,Llama 4 Scout可以在單個Nvidia H100 GPU上運行,而Maverick則需要Nvidia H100 DGX系統或同等配置。

性能基準測試

Llama 4 Scout(17B激活參數,1000萬上下文)在編碼、推理和長文本任務上超越了之前的Llama模型,在圖像理解方面也能與更大的模型相媲美。Llama 4 Maverick(17B激活參數,總計400B)在多語言理解、編碼基準和視覺推理方面超過了GPT-4o和Gemini 2.0。兩款模型都受益于與尚未開源的的Llama 4 Behemoth(288B激活參數)的共同蒸餾,在STEM測評中獲得了更高分數。

llama 4, 開源!-AI.x社區

LMArena ELO評分與成本對比:"為了提供用戶體驗,每個token在一次性350毫秒預填充延遲后達到30毫秒解碼延遲,我們估計模型每百萬token的服務成本在0.49之間(3:1混合)"

llama 4, 開源!-AI.x社區

Llama 4 Maverick位居總排名第二 - 成為第四個在Arena上突破1400+的組織!

llama 4, 開源!-AI.x社區

下載地址:

慣例,雖然你可以廣泛、免費使用、修改和分發Llama 4,如果你將模型用于商業用途,且你的產品或服務月活用戶超過7億,則需要在繼續合法使用模型前向Meta申請并獲得單獨的許可。

iRoPE:Llama 4 Scout長上下文支持的技術基礎

iRoPE詳解

目標:在較短上下文上訓練,并泛化到極長序列(256K或更多),無需處處使用顯式位置嵌入。它被稱為"iRoPE",因為它使用交錯層("i")和旋轉位置嵌入(RoPE)。理論上通過巧妙結合局部和全局注意力,使上下文長度無界限。

  1. 具有RoPE的局部可并行分塊注意力在局部注意力塊上使用RoPE。每個塊處理較短的上下文窗口(例如8K token)。在較小序列上訓練更節省內存,仍能捕獲局部依賴關系。這些短上下文注意力層完全可并行化。
  2. 無位置嵌入的全局注意力某些層作為"全局"注意力層,視野超過8K token。在這些層中省略固定位置嵌入以改善長度外推。目標是讓模型處理遠超訓練中明確見過的序列長度。
  3. 最大訓練長度:256K 盡管局部和全局注意力是同一模型的一部分,iRoPE只訓練到256K token。超過這個長度,它依靠模型的外推能力而非匹配精確的訓練模式。
  4. 極長位置注意力權重扁平化在非常大的位置(如數十萬token),注意力權重趨于扁平化。這損害了模型關注相關token的能力。
  5. 推理時溫度縮放為抵消扁平化注意力,iRoPE在全局注意力層中將查詢向量乘以縮放因子:
    ???xq *= 1 + log(floor(i / α) + 1) * β??這為上下文后期出現的token賦予額外權重,幫助模型在極長序列中保持更有意義的注意力信號。它在保持短程性能(低于α)的同時增強長程推理能力。
  • ??i?? = 位置索引
  • ??α?? = 閾值(例如8K)
  • ??β?? = 縮放因子

訓練后處理管道

這個總參數量為2萬億的模型(Behemoth)在訓練后處理方面是個巨大挑戰,他們不得不因應規模重新設計底層RL基礎設施。

llama 4, 開源!-AI.x社區

訓練后管道簡述:輕量級SFT → 在線RL → 輕量級DPO。過度使用SFT/DPO會過度約束模型并限制在線RL期間的探索能力,因此保持輕量級處理。

首先應用**輕量級監督微調(SFT)**,在篩選的數據子集上進行。他們移除了一半以上的"簡單"提示(由Llama評判識別),以強調更難的問題。提高了模型的基線性能而不過度約束它。

然后切換到**持續在線強化學習(RL)**,配合自適應數據過濾。模型在中高難度提示上生成響應,沒難度的提示被過濾掉。通過訓練和過濾循環,集中精力于具挑戰性的例子,增強數學、編碼和推理能力。

最后進行**直接偏好優化(DPO)**,管理細粒度質量問題。采用更輕量級的DPO階段,避免降低復雜任務的性能。這套流程確保了模型能平衡處理多模態輸入,保持創造力,同時可靠處理高難度提示。

Llama 4 Behemoth的共同蒸餾進一步提煉了兩個較小的Llama 4模型,以更少的激活參數傳遞高級推理技能,進一步提升了訓練后結果。

本文轉載自??NLP前沿??,作者:NLP前沿

收藏
回復
舉報
回復
相關推薦
免费成人黄色网址| 国产精品18久久久久久久网站| 国产精品欧美在线| 91亚洲人成网污www| 国产三区精品| 国产米奇在线777精品观看| 另类图片亚洲色图| 欧美高清视频在线高清观看mv色露露十八 | 亚洲免费观看在线观看| 成人一区二区不卡免费| 国产香蕉一区二区三区在线视频 | 亚洲欧美制服综合另类| 亚洲欧美成人vr| 欧美精品七区| 国产精品久久久久毛片软件| 欧美jizz18hd性欧美| 超在线视频97| 在线 亚洲欧美在线综合一区| 玩弄中年熟妇正在播放| 91久久奴性调教| 精品美女一区| 99视频在线播放| 国产亚洲欧美激情| 在线中文字幕视频观看| 国产97色在线| 国产精品一区二区三区乱码| 在线欧美成人| 久久天天躁夜夜躁狠狠躁2022| 在线日本高清免费不卡| 天堂一区在线观看| 日韩国产中文字幕| 欧美久久成人| 国产高清视频网站| 亚洲成色www8888| 91麻豆精品国产91久久久平台| 黄色a级片免费看| 欧美在线播放高清精品| 国产无遮挡裸体免费久久| 亚洲精品无人区| 亚欧色一区w666天堂| 性欧美video另类hd尤物| 免费看成人av| 午夜精品爽啪视频| 综合成人在线| 亚洲五月六月| 日本韩国精品在线| 伊人成综合网yiren22| 99热这里只有精品免费| 欧美日韩国产美女| 国产精品二区不卡| 九色中文视频| 欧美精品xxx| 成人毛片老司机大片| 污网站在线免费看| 成人情视频高清免费观看电影| 国产精品福利一区| 亚洲午夜国产成人| 青少年xxxxx性开放hg| 欧美日韩视频专区在线播放| 国内精品伊人久久久| 亚洲人辣妹窥探嘘嘘| 日韩在线免费av| 国产成人日日夜夜| 日韩伦理在线| 天天爽天天狠久久久| 欧美视频一区在线观看| 欧美r级电影| 中文字幕福利片| 国产91精品不卡视频| 亚洲国产成人一区二区三区| 欧美aaa级| 日韩精品一区在线视频| 亚洲网在线观看| 国产中文字幕一区| 色在线视频观看| 在线观看日韩片| 亚洲国产精品电影| 久久精品国产第一区二区三区 | 亚洲欧美国产一区二区三区| 亚洲欧美日韩视频二区| 免费在线观看黄色| 精品一区二区三区国产| 在线影院国内精品| 在线日韩视频| 黄色动漫在线观看| 视频一区视频二区视频三区视频四区国产| 欧美日韩高清一区二区不卡| 在线免费高清一区二区三区| 在线观看免费版| 秋霞毛片久久久久久久久| 日韩精品资源二区在线| 久久国产夜色精品鲁鲁99| 日韩伦理福利| 国产在线精品不卡| 亚洲免费av网址| 国产激情视频一区二区在线观看| 黄色在线观看www| 吴梦梦av在线| 欧美香蕉大胸在线视频观看| 亚洲不卡一区二区三区| 欧美自拍视频| 动漫h在线观看| 99高清视频有精品视频| 欧美三片在线视频观看| 亚洲一区二区三区四区五区午夜| 日本不卡三区| 一本色道久久综合亚洲二区三区| 日韩毛片中文字幕| 成人国产精品视频| 亚洲啊v在线免费视频| 色婷婷精品久久二区二区蜜臀av| 国产小视频在线播放| 欧美日韩亚洲免费| 亚洲国产高清高潮精品美女| www.日韩大片| 免费av一区| 国产私拍精品| 亚洲精品一区国产精品| 中文字幕精品久久久久| 中文字幕av免费专区久久| 色狮一区二区三区四区视频| 精品成人一区二区三区免费视频| 日本电影一区二区三区| 久久久黄色av| 大荫蒂欧美视频另类xxxx| 国产精品久久久久久模特| 二吊插入一穴一区二区| 在线观看免费视频高清游戏推荐| 成人高h视频在线| 日韩欧美综合在线| 国产日韩视频一区二区三区| 97精品一区二区| 成人在线黄色电影| 日本人视频jizz页码69| 成人h视频在线| 亚洲国产精品一区二区久| 国产视频一区在线播放| 欧美一区成人| 色香欲www7777综合网| 九七影院理论片| 久久精品一二三区| xvideos亚洲人网站| 精品成人av一区| 国产99久久久国产精品| jiujiure精品视频播放| 97人人爽人人澡人人精品| 成人黄18免费网站| 日本午夜精品电影| 国模私拍视频一区| 欧美高清激情brazzers| 99精品一区二区三区| 黄色综合网站| 久久爱www.| av软件在线观看| jizzjizzji欧美| 一卡二卡3卡四卡高清精品视频| 91精品国产91久久久久久久久| 538prom精品视频线放| 欧美激情一区二区三区在线| 亚洲欧美日韩视频二区| 亚洲动漫在线观看| 亚洲色图色老头| 色中色一区二区| 96av麻豆蜜桃一区二区| 亚洲欧洲一级| 天堂俺去俺来也www久久婷婷 | 在线播放中文一区| 欧美激情一区二区三区全黄| 香蕉久久夜色精品国产| 婷婷精品在线观看| 国产精品迅雷| 翔田千里在线视频| 91黄色小网站| 日本日本精品二区免费| 国产精品www| 乱亲女秽乱长久久久| 欧美一级午夜免费电影| 亚洲免费电影在线| 成人h动漫精品一区二| 99精品国产在热久久婷婷| 亚州综合一区| 精品日本视频| 性欧美1819sex性高清大胸| 国产香蕉尹人视频在线| 日本爱爱免费视频| 中文字幕在线乱| 精品免费视频123区| 琪琪亚洲精品午夜在线| 日韩亚洲综合在线| 亚洲国产精品资源| 欧美视频精品在线观看| 亚洲午夜久久久久久久久电影院 | jizzjizzjizz亚洲| 国产va亚洲va在线va| 欧洲久久久久久| 国产精品免费观看高清| 国产精品久久久久久网站| 91成人天堂久久成人| 欧美精品免费看| 精品中文字幕在线2019|