告別“參數(shù)內(nèi)卷”，文心開源全新輕量化多模態(tài)深度思考模型

2025-11-11 13:50:17

11月11日，百度正式對外推出文心多模態(tài)思考模型ERNIE-4.5-VL-28B-A3B-Thinking，新模型全面開源。公開評測數(shù)據(jù)顯示，該模型在多項多模態(tài)理解與推理任務(wù)中表現(xiàn)優(yōu)異，僅需3B激活參數(shù)，性能表現(xiàn)接近業(yè)界領(lǐng)先的GPT-5-High與Gemini-2.5-Pro。

作為文心大模型開源家族的最新成員，ERNIE-4.5-VL-28B-A3B-Thinking基于ERNIE-4.5-VL-28B-A3B訓(xùn)練而來，專注于提升多模態(tài)理解和跨模態(tài)推理能力。與傳統(tǒng)“越大越強”的范式不同，該模型通過高效的模型結(jié)構(gòu)設(shè)計和強化學(xué)習(xí)策略，在較小參數(shù)規(guī)模下實現(xiàn)了高精度的視覺理解與復(fù)雜推理。

從評測數(shù)據(jù)來看，該模型在STEM學(xué)科計算、文檔圖表解析、視覺問答及視頻理解等多個維度表現(xiàn)穩(wěn)定，大部分指標(biāo)達Gemini-2.5-Pro與GPT-5-High兩款海外頂級模型95%百分位水平，部分指標(biāo)表現(xiàn)如ChartQA和DocVQAval等文檔/圖表理解任務(wù)超過Gemini-2.5-Pro及GPT-5-High。

ERNIE-4.5-VL-28B-A3B-Thinking在多項多模態(tài)理解與推理任務(wù)中表現(xiàn)優(yōu)異

值得關(guān)注的是，ERNIE-4.5-VL-28B-A3B-Thinking引入了“圖像思考”（Thinking with Images）功能，使其具備更接近人類的認知方式——能夠主動放大、縮小圖像，聚焦細節(jié)，并結(jié)合上下文進行多步推理。同時，該模型進一步加強了模型定位能力，擁有更強的指令遵循能力，在用戶需要時，能夠便捷的觸發(fā)視覺定位功能，適用于需要精確空間感知的應(yīng)用場景。

當(dāng)前ERNIE-4.5-VL-28B-A3B-Thinking模型以 Apache License 2.0 協(xié)議開源，允許商業(yè)使用。該模型的預(yù)訓(xùn)練權(quán)重、推理代碼和項目均已在 Hugging Face、Modelscope、飛槳星河社區(qū)發(fā)布，FastDeploy、 vLLM、Transformers 等開源工具已經(jīng)實現(xiàn)了對該模型的支持，可以直接加載模型并使用。