告別“參數(shù)內(nèi)卷”,文心開源全新輕量化多模態(tài)深度思考模型
11月11日,百度正式對外推出文心多模態(tài)思考模型ERNIE-4.5-VL-28B-A3B-Thinking,新模型全面開源。公開評測數(shù)據(jù)顯示,該模型在多項多模態(tài)理解與推理任務(wù)中表現(xiàn)優(yōu)異,僅需3B激活參數(shù),性能表現(xiàn)接近業(yè)界領(lǐng)先的GPT-5-High與Gemini-2.5-Pro。
作為文心大模型開源家族的最新成員,ERNIE-4.5-VL-28B-A3B-Thinking基于ERNIE-4.5-VL-28B-A3B訓(xùn)練而來,專注于提升多模態(tài)理解和跨模態(tài)推理能力。與傳統(tǒng)“越大越強”的范式不同,該模型通過高效的模型結(jié)構(gòu)設(shè)計和強化學(xué)習(xí)策略,在較小參數(shù)規(guī)模下實現(xiàn)了高精度的視覺理解與復(fù)雜推理。
從評測數(shù)據(jù)來看,該模型在STEM學(xué)科計算、文檔圖表解析、視覺問答及視頻理解等多個維度表現(xiàn)穩(wěn)定,大部分指標(biāo)達Gemini-2.5-Pro與GPT-5-High兩款海外頂級模型95%百分位水平,部分指標(biāo)表現(xiàn)如ChartQA和DocVQAval等文檔/圖表理解任務(wù)超過Gemini-2.5-Pro及GPT-5-High。

ERNIE-4.5-VL-28B-A3B-Thinking在多項多模態(tài)理解與推理任務(wù)中表現(xiàn)優(yōu)異
值得關(guān)注的是,ERNIE-4.5-VL-28B-A3B-Thinking引入了“圖像思考”(Thinking with Images)功能,使其具備更接近人類的認知方式——能夠主動放大、縮小圖像,聚焦細節(jié),并結(jié)合上下文進行多步推理。同時,該模型進一步加強了模型定位能力,擁有更強的指令遵循能力,在用戶需要時,能夠便捷的觸發(fā)視覺定位功能,適用于需要精確空間感知的應(yīng)用場景。
當(dāng)前ERNIE-4.5-VL-28B-A3B-Thinking模型以 Apache License 2.0 協(xié)議開源,允許商業(yè)使用。該模型的預(yù)訓(xùn)練權(quán)重、推理代碼和項目均已在 Hugging Face、Modelscope、飛槳星河社區(qū)發(fā)布,FastDeploy、 vLLM、Transformers 等開源工具已經(jīng)實現(xiàn)了對該模型的支持,可以直接加載模型并使用。

文心4.5系列開源模型
公開資料顯示,百度在模型開源方面持續(xù)發(fā)力,自6月30日開源10款文心大模型4.5系列模型以來,不斷豐富其開源模型矩陣。9月9日開源的ERNIE-4.5-21B-A3B-Thinking模型在發(fā)布三天后登上HuggingFace全球模型總趨勢榜和文本模型趨勢榜第一。
近期百度在大模型領(lǐng)域的進展也在加速。11月8日,LMArena最新排名顯示,百度文心最新模型ERNIE-5.0-Preview-1022在文本能力榜單中位列全球并列第二、國內(nèi)第一。此外有消息稱,百度將于11月13日舉行的2025百度世界大會上發(fā)布文心大模型全新版本。
相關(guān)鏈接:
Hugging Face:
https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
GitHub:
https://github.com/PaddlePaddle/ERNIE
飛槳星河社區(qū):
https://aistudio.baidu.com/overview
魔搭社區(qū):
https://modelscope.cn/organization/PaddlePaddle
文心大模型技術(shù)Blog:
































