国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

微軟Phi-4家族新增兩位成員,5.6B多模態單任務超GPT-4o,3.8B小模型媲美千問7B

人工智能 新聞
Phi-4-Multimodal 模型的預訓練階段涉及豐富多樣的數據集,視覺 - 語言訓練數據包含 0.5T 圖像 - 文本文檔、OCR 數據、圖表理解等;語音相關的訓練數據涵蓋真實和合成數據,使用內部 ASR 模型轉錄音頻并計算原始文本與轉錄之間的詞錯率(WER)來衡量合成語音的質量。

動輒百億、千億參數的大模型正在一路狂奔,但「小而美」的模型也在閃閃發光。

2024 年底,微軟正式發布了 Phi-4—— 在同類產品中表現卓越的小型語言模型(SLM)。僅用了 40% 合成數據,140 億參數的 Phi-4 就在數學性能上擊敗了 GPT-4o。

剛剛,微軟又隆重介紹了 Phi-4 模型家族的兩位新成員:Phi-4-multimodal (多模態模型)和 Phi-4-mini(語言模型)。Phi-4-multimodal 改進了語音識別、翻譯、摘要、音頻理解和圖像分析,而 Phi-4-mini 專為速度和效率而設計,兩者都可供智能手機、PC 和汽車上的開發人員使用。

截屏2025-02-27 09.46.44.png

項目地址:https://huggingface.co/microsoft/phi-4

在技術報告中,微軟對這兩個模型進行了更加詳細的介紹。

  • Phi-4-Multimodal 是一個多模態模型,它將文本、視覺和語音 / 音頻輸入模態整合到一個模型中。它采用新穎的模態擴展方法,利用 LoRA 適配器和特定模態路由器,實現了多種推理模式的無干擾結合。例如,盡管語音 / 音頻模態的 LoRA 組件只有 46 億參數,但它目前在 OpenASR 排行榜上排名第一。Phi-4-Multimodal 支持涉及(視覺 + 語言)、(視覺 + 語音)和(語音 / 音頻)輸入的場景,在各種任務中的表現均優于此前的大型視覺 - 語言模型和語音 - 語言模型。
  • Phi-4-Mini 是一個擁有 38 億參數的語言模型,在高質量的網絡和合成數據上進行了訓練,其性能明顯優于近期類似規模的開源模型,并在需要復雜推理的數學和編碼任務上與兩倍于其規模的模型不相上下。這一成就得益于精心設計的合成數據配方,該配方強調高質量的數學和編碼數據集。與上一代產品 Phi-3.5-Mini 相比,Phi-4-Mini 的詞匯量擴大到了 20 萬個,從而能更好地支持多語言應用,同時還采用了分組查詢功能,從而能更高效地生成長序列。

Phi-4-Multimodal 是這家公司的首個多模態語言模型,微軟表示:「Phi-4-multimodal 標志著我們人工智能發展的一個新里程碑。

此外,微軟還進一步訓練了 Phi-4-Mini 以增強其推理能力。結果顯示,它與 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Llama-8B 等規模更大的先進推理系統相媲美。

image.png

接下來,讓我們看看技術細節。

模型架構

兩個模型都使用 tokenizer o200k base tiktoken ,詞匯量為 200,064 個,旨在更高效地支持多語言和多模態輸入和輸出。所有模型都基于僅解碼器的 Transformer,并支持基于 LongRoPE 的 128K 上下文長度。

語言模型架構

Phi-4-mini 由 32 層 Transformer 組成,專為速度和效率而設計,Phi-4-Mini 還有一些特殊的「省內存」技巧:

首先是分組查詢注意力機制(GQA),模型在處理長序列時能夠快速地聚焦于關鍵信息片段。這優化了長上下文生成時的 KV 緩存。具體來說,模型使用 24 個查詢頭和 8 個 K/V 頭,將 KV 緩存消耗減少到標準大小的三分之一。

其次是輸入 / 輸出嵌入綁定技術,實現了資源的優化利用,同時與 Phi-3.5 相比提供了更廣泛的 20 萬詞匯覆蓋。

此外,在 RoPE 配置中,使用了分數 RoPE 維度,確保 25% 的注意力頭維度與位置無關。這種設計能讓模型更平滑地處理較長的上下文。

Phi-4-Mini 峰值學習率的計算公式為:

LR*(D) = BD^(-0.32),

其中 B 是超參數,D 是訓練 token 的總數,通過調整 D = 12.5B、25B、37.5B 和 50B 來擬合 B 值。

多模態模型架構

Phi-4-Multimodal 采用了「Mixture of LoRA」技術,通過整合特定模態的 LoRAs 來實現多模態功能,同時完全凍結基礎語言模型。該技術優于現有方法,并在多模態基準上實現了與完全微調模型相當的性能。此外,Phi-4-Multimodal 的設計具有高度可擴展性,允許無縫集成新的 LoRA,以支持更多模態,而不會影響現有模態。

該模型的訓練過程由多個階段組成,包括語言訓練(包括預訓練和后訓練),然后將語言骨干擴展到視覺和語音 / 音頻模態。

對于語言模型,研究者使用高質量、推理豐富的文本數據來訓練 Phi-4-Mini。值得注意的是,他們加入了精心策劃的高質量代碼數據集,以提高編碼任務的性能。

語言模型訓練完成后,研究者凍結了語言模型,并實施「Mixture of LoRA」技術,繼續多模態訓練階段。

具體來說,在訓練特定模態編碼器和投影器的同時,還訓練了兩個額外的 LoRA 模塊,以實現與視覺相關的任務(如視覺 - 語言和視覺 - 語音)和與語音 / 音頻相關的任務(如語音 - 語言)。它們都包含預訓練和后訓練階段,分別用于模態對齊和指令微調。

截屏2025-02-27 09.55.24.png

Phi-4-Multimodal 模型架構。

性能評估

Phi-4-multimodal

雖然 Phi-4-multimodal 只有 5.6B 參數,但它將語音、視覺和文本處理無縫集成到一個統一的架構中,所有這些模態都在同一個表征空間內同時處理。

Phi-4 多模態能夠同時處理視覺和音頻。下表顯示了在圖表 / 表格理解和文檔推理任務中,當視覺內容的輸入查詢為合成語音時的模型質量。與其他可以將音頻和視覺信號作為輸入的現有最先進的全方位模型相比,Phi-4 多模態模型在多個基準測試中取得了更強的性能。

image.png

圖 1:所列基準包括 SAi2D、SChartQA、SDocVQA 和 SInfoVQA。進行對比的模型有:Phi-4-multimodal-instruct、InternOmni-7B、Gemini-2.0-Flash-Lite-prvview-02-05、Gemini-2.0-Flash 和 Gemini1.5-Pro。

Phi-4-multimodal 在語音相關任務中表現出了卓越的能力。它在自動語音識別 (ASR) 和語音翻譯 (ST) 方面都優于 WhisperV3 和 SeamlessM4T-v2-Large 等專業模型。該模型以令人印象深刻的 6.14% 的單詞錯誤率在 Huggingface OpenASR 排行榜上名列前茅,超過了 2025 年 2 月之前的最佳表現 6.5%。此外,它是少數幾個成功實現語音摘要并達到與 GPT-4o 模型相當的性能水平的開放模型之一。該模型在語音問答 (QA) 任務上與 Gemini-2.0-Flash 和 GPT-4o-realtime-preview 等接近的模型存在差距,因為模型尺寸較小導致保留事實 QA 知識的能力較弱。

image.png

圖 2:Phi-4 多模態語音基準。

在下方視頻中,Phi-4-multimodal 分析了語音輸入并幫助規劃西雅圖之旅:

Phi-4-multimodal 同樣在各種基準測試中都表現出了卓越的視覺能力,最顯著的是在數學和科學推理方面取得了優異的表現。盡管規模較小,但該模型在通用多模態能力(如文檔和圖表理解、光學字符識別 (OCR) 和視覺科學推理)方面仍保持著極具競爭性的表現,與 Gemini-2-Flash-lite-preview/Claude-3.5-Sonnet 等相當或超過它們。

image.png

Phi-4-multimodal 展示了強大的推理和邏輯能力,適合分析任務。參數量更小也使得微調或定制更容易且更實惠。下表中展示了 Phi-4-multimodal 的微調場景示例。

下方視頻展示了 Phi-4-multimodal 的推理能力:

Phi-4-mini:3.8B,小身材大能量

Phi-4-Mini 和 Phi-4-Multimodal 共享同一個語言模型骨干網絡。Phi-4-mini 雖然體積小巧,但它承襲了 Phi 系列前作的傳統,在推理、數學、編程、指令遵循和函數調用等任務上超越了更大的模型。

Phi-4-mini 在各種測試集中和較小模型的成績對比

更重要的是,開發者們可以基于 Phi-4-mini 構建出一個可擴展的智能體系統,它可以借函數調用、指令跟隨、長上下文處理以及推理能力來訪問外部知識,從而彌補自身參數量有限的不足。

通過標準化協議,Phi-4-mini 的函數調用可以與結構化的編程接口無縫集成。當用戶提出請求時,Phi-4-mini 能夠對查詢進行分析,識別并調用相關的函數以及合適的參數,接收函數輸出的結果,并將這些結果整合到最終的回應之中。

在設置合適的數據源、API 和流程之后,Phi-4-mini 可以部署在你家,當你的智能家居助手,幫你查看監控有沒有異常。

基于 Phi-4-mini 的家居智能體

通過標準化協議,函數調用使得模型可以與結構化的編程接口無縫集成。當用戶提出請求時,Phi-4-mini 可以對查詢進行分析,識別并調用相關的函數以及合適的參數,接收函數輸出的結果,并將這些結果整合到最終的回應之中。這樣一來,就構建了一個可擴展的基于智能體的系統,借助定義良好的函數接口,模型能夠連接到外部工具、應用程序接口(API)以及數據源,進而增強自身的能力。下面的例子就模擬了 Phi-4-mini 控制智能家居的場景。

因為體積較小,Phi-4-mini 和 Phi-4-multimodal 模型可以在計算資源有限的環境中使用,尤其是在用 ONNX Runtime 優化后。

訓練數據

Phi-4-mini 性能明顯優于近期類似規模的開源模型,有一個重要原因就是高質量的訓練數據。

相比上一代 Phi-3.5-Mini,研究人員選擇了更嚴格的數據過濾策略,加入了針對性的數學和編程訓練數據、特殊清洗過的 Phi-4 合成數據,還通過消融實驗重新調整了數據混合比例,增加推理數據的比例為模型帶來了顯著提升。

具體來說,研究人員從推理模型生成了大量合成的思維鏈(CoT)數據,同時采用基于規則和基于模型的兩種篩選方法來剔除錯誤的生成結果,將正確的采樣答案標記為首選生成,將錯誤的標記為非首選,并創建 DPO 數據。

不過,這些數據僅用于實驗性推理模型,所以正式發布的 Phi-4-Mini 版本檢查點中沒有這些 CoT 數據。

在后訓練階段,與 Phi-3.5-Mini 相比,Phi-4-Mini 使用了更大規模和更多樣化的函數調用和摘要數據。研究人員合成了大量的指令跟隨數據來增強模型的指令跟隨能力。

在編程方面,研究人員加入了大量的代碼補全數據,比如要求模型在現有代碼片段中間生成缺失代碼的任務。這挑戰了模型對需求和現有上下文的理解能力,帶來了顯著的性能提升。

Phi-4-Multimodal 模型的預訓練階段涉及豐富多樣的數據集,視覺 - 語言訓練數據包含 0.5T 圖像 - 文本文檔、OCR 數據、圖表理解等;語音相關的訓練數據涵蓋真實和合成數據,使用內部 ASR 模型轉錄音頻并計算原始文本與轉錄之間的詞錯率(WER)來衡量合成語音的質量。

更多詳情,請訪問原項目地址。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-12-03 17:17:29

AI圖像生成模型

2025-02-28 09:32:00

2025-09-24 08:53:10

2024-12-23 09:38:00

2025-10-28 02:11:00

2024-07-18 12:53:13

2025-07-14 09:00:00

2024-05-07 09:33:03

模型手機

2025-11-04 08:42:27

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2025-08-14 10:25:11

2025-01-10 12:58:37

2025-02-27 09:51:04

2024-12-13 13:04:13

模型Phi-4AI

2025-01-02 13:00:00

2025-10-24 12:07:12

2024-06-11 14:30:18

2024-10-06 09:00:00

AI訓練數據

2024-12-02 14:20:00

模型訓練

2024-04-02 09:17:50

AI數據開源
點贊
收藏

51CTO技術棧公眾號

av在线免费播放网站| 五月开心婷婷久久| 国产黄色精品| 欧洲亚洲在线| 欧美牲交a欧美牲交aⅴ免费真| 国产噜噜噜噜久久久久久久久| 国产三级电影在线观看| 国产精品欧美日韩一区二区| 视频在线观看国产精品| 91精品麻豆| 欧美jizz18性欧美| 亚洲免费看av| 欧美日韩免费精品| 国产精品直播网红| 欧美高清激情视频| 国产丝袜一区二区三区免费视频 | 国内精品美女在线观看| 电影久久久久久| 成人av影院在线观看| 一区精品视频| 久久综合网hezyo| 国产欧美精品区一区二区三区| 欧美一二区在线观看| 福利影院在线看| 欧美另类一区| 久久综合电影一区| 欧美嫩在线观看| 欧美精品日韩www.p站| 国产精品婷婷| 久久夜色精品国产噜噜av小说| 日韩理伦片在线| 黄网站app在线观看大全免费视频| 午夜精品久久久久久久无码| 成人漫画网站免费| 91精品在线播放| 日韩中文娱乐网| 欧美日韩亚洲高清一区二区| 精品成人乱色一区二区| 国产精品久久久久久一区二区三区| 日韩久久精品网| 人狥杂交一区欧美二区| 一本色道久久亚洲综合精品蜜桃 | 91精品国产乱码久久久久久 | 91麻豆精品一二三区在线| 一区二区三区伦理| 在线观看av中文| 高清hd写真福利在线播放| ijzzijzzij亚洲大全| a级免费在线观看| 日本888xxxx| 精品蜜桃传媒| 91精品国产一区| 国产亚洲欧洲在线| 日本精品一级二级| 精品国产一区探花在线观看| 波多野结衣亚洲| 欧美交换配乱吟粗大25p| 91精品国产91| 中文亚洲视频在线| 精品久久久网站| 中文字幕亚洲一区在线观看 | 蜜桃视频动漫在线播放| 成年女人的天堂在线| 成人午夜电影在线观看| 成人免费在线视频网| 91在线网址| 欧美xxxx免费虐| 中文字幕 在线观看| 超碰在线无需免费| 成人直播视频| 国产精品视频首页| 欧美13videosex性极品| 黄频免费在线观看| mm视频在线视频| 欧美性aaa| 亚洲宅男网av| 一区二区激情| 91蜜桃视频在线| 精品视频1区2区3区| 亚洲图片你懂的| 亚洲福利视频一区二区| 日本va欧美va欧美va精品| 狠狠色丁香婷综合久久| 一本大道久久a久久精品综合| 久久久久久一级片| 日韩激情一区二区| 日本一二三四高清不卡| 日本美女一区二区| 国产精品免费看片| 夜夜爽夜夜爽精品视频| 久久久久99精品国产片| 中文字幕在线观看一区| 91精品1区2区| 亚洲免费av电影| 午夜国产不卡在线观看视频| 亚洲国产精品人人做人人爽| 精品视频在线视频| 欧美乱妇23p| 色综合久久66| 欧美激情精品久久久久久变态| 亚洲精品456在线播放狼人| 欧美精品一区二区三区四区| 国产又大又长又粗又黄| 黄色成人在线看| 国产精品一区二区小说| 国产私拍精品| 91在线品视觉盛宴免费| 可以直接在线观看的av| 高清不卡一区二区三区| 欧美精品一区二区三区久久久| 亚洲欧美另类久久久精品2019| 久久成人国产| 免费亚洲一区| 日韩中文字幕区一区有砖一区| 亚洲天堂av影院| 日韩在线影院| 秋霞影视一区二区三区| 先锋影音久久| 国产精品家庭影院| 亚洲四色影视在线观看| 2019日本中文字幕| 欧美久久电影| 日本男女交配视频| 3p视频在线观看| 亚洲精品a区| 国产乱码精品一品二品| 精品国产乱码久久久久久天美| 精品中文视频在线| 日韩精品欧美国产精品忘忧草| 久久影院模特热| 九九九九免费视频| 中文字幕在线资源| 三级福利片在线观看| 精品一区二区三区免费看| 亚洲自拍欧美精品| 午夜精品免费在线观看| 欧美在线观看一二区| 日韩免费视频一区| 久久韩剧网电视剧| 日韩在线免费视频观看| 亚洲精品suv精品一区二区| 国产午夜精品视频| 国产精品女人网站| 特黄特色特刺激视频免费播放| 亚洲资源一区| 精品国产第一国产综合精品| 国产福利91精品| 伊人青青综合网站| 中文字幕av在线播放| 希岛爱理av免费一区二区| 欧美激情在线观看视频免费| 亚洲一区二区三区不卡国产欧美| 欧美日韩国产高清视频| 性欧美video高清bbw| 很黄很黄激情成人| 在线观看91av| 国产高清不卡无码视频| 日本三级电影网| 日韩中字在线| 亚洲国产精品99久久| 色阁综合av| av女同在线| 成人亚洲一区二区| 国产成人免费视频网站高清观看视频| 欧美丰满一区二区免费视频| 在线中文字幕观看| 日日嗨av一区二区三区四区| 欧美美女bb生活片| 亚洲国产精品日韩| 国产毛片精品久久| 欧美国产精品劲爆| 国产日韩一区欧美| 国产bdsm| 国产在线视视频有精品| 欧美成人精品在线观看| a在线观看免费视频| 天天色天天射综合网| 日韩av一区二区在线观看| 无码人妻精品一区二区三区99v| 18+激情视频在线| 性欧美videos另类喷潮| 国产成人综合精品在线| 伊人久久高清| 五月婷婷欧美视频| 91蝌蚪视频在线观看| 日韩成人免费av| 欧美一区二区三区在线电影| аⅴ资源天堂资源库在线| 久久一区二区三区超碰国产精品| 亚洲成人免费看| 精品国产免费久久久久久尖叫 | 国产网友自拍电影在线| 免费高清视频精品| 国产精品av电影| www.丝袜精品| 丝袜亚洲欧美日韩综合| 色综合久久影院| 欧美激情一区二区三区不卡| 在线观看日韩片| 久久久久久久久99精品大|