LLM省錢大測評！48塊GH200，首個百億級參數(shù)量實(shí)證

2025-05-30 08:50:00

EfficientLLM項(xiàng)目聚焦LLM效率，提出三軸分類法和六大指標(biāo)，實(shí)驗(yàn)包攬全架構(gòu)、多模態(tài)、微調(diào)技術(shù)，可為研究人員提供效率與性能平衡的參考。

近年來，大型語言模型（LLM）如GPT系列取得了革命性進(jìn)展，在自然語言處理、內(nèi)容創(chuàng)作、多語言翻譯乃至科學(xué)研究等眾多領(lǐng)域展現(xiàn)出驚人能力。

然而，模型參數(shù)量（如DeepseekR1的671B參數(shù)）和上下文窗口的急劇膨脹，帶來了巨大的計(jì)算力（GPT-3訓(xùn)練約需3640Petaflop/s-days）、能源消耗和資金投入（GPT-3訓(xùn)練成本估計(jì)超460萬美元）。

高昂的成本已成為制約LLM進(jìn)一步發(fā)展和廣泛應(yīng)用的關(guān)鍵瓶頸。

EfficientLLM項(xiàng)目應(yīng)「效率測評」需求而生，也是首個針對LLM效率技術(shù)進(jìn)行端到端、百億級參數(shù)規(guī)模的系統(tǒng)性實(shí)證研究。

項(xiàng)目詳情：https://dlyuangod.github.io/EfficientLLM/

模型庫：https://huggingface.co/Tyrannosaurus/EfficientLLM

研究人員在配備了48塊GH200和8塊H200 GPU的生產(chǎn)級集群上執(zhí)行效率測評，確保了對真實(shí)世界中LLM性能與能耗權(quán)衡的精確測量。

EfficientLLM的核心目標(biāo)是為學(xué)術(shù)界和工業(yè)界的研發(fā)人員提供一個清晰、數(shù)據(jù)驅(qū)動的導(dǎo)航圖，幫助研究人員在下一代基礎(chǔ)模型的「效率-性能」復(fù)雜地貌中找到最佳路徑。

EfficientLLM的三維評測框架與核心指標(biāo)

研究人員創(chuàng)新性地提出了一個統(tǒng)一的三軸分類法來系統(tǒng)評估LLM效率，覆蓋模型生命周期的關(guān)鍵階段：

架構(gòu)預(yù)訓(xùn)練(Architecture Pretraining)

此部分專注于為模型設(shè)計(jì)者和研究者在構(gòu)建新型LLM架構(gòu)時，提供關(guān)于計(jì)算資源和能源成本預(yù)算的精確分析，并深入評估了多種高效注意力機(jī)制變體（如多查詢注意力MQA、分組查詢注意力GQA、多頭潛在注意力MLA、原生稀疏注意力NSA）以及稀疏混合專家模型（MoE）的效率表現(xiàn)。

微調(diào)(Fine-tuning)

針對需要將預(yù)訓(xùn)練基礎(chǔ)模型適配到特定下游任務(wù)或?qū)I(yè)領(lǐng)域的實(shí)踐者，研究人員提供了參數(shù)高效微調(diào)（PEFT）方法的效率基準(zhǔn)。評估涵蓋了LoRA、RSLORA、DoRA等主流PEFT技術(shù)。

位寬量化(Bit-width Quantization)

面向模型部署工程師，研究人員評估了如何通過模型壓縮技術(shù)（特別是無需重訓(xùn)即可直接部署的訓(xùn)練后量化方法，如int4和float16）有效降低服務(wù)成本和推理延遲。

評估指標(biāo)

為全面刻畫效率，EfficientLLM還引入了六個相互正交的細(xì)粒度評估指標(biāo)：

1. 平均內(nèi)存利用率(Average-Memory-Utilization,AMU)

2. 峰值計(jì)算利用率(Peak-Compute-Utilization,PCU)

3. 平均延遲(Average-Latency,AL)

4. 平均吞吐量(Average-Throughput,AT)

5. 平均能耗(Average-Energy-Consumption,AEC)

6. 模型壓縮率(Model-Compression-Rate,MCR)這些指標(biāo)共同捕捉了硬件飽和度、延遲與吞吐量的平衡，以及碳排放成本等關(guān)鍵因素。

基準(zhǔn)測試涵蓋了超過100個「模型-技術(shù)」組合，納入從0.5B到72B參數(shù)規(guī)模的多種LLM。

EfficientLLM的三大核心洞見

效率優(yōu)化是「沒有免費(fèi)午餐」的量化權(quán)衡(Efficiency Involves Quantifiable Trade-offs)

百余項(xiàng)實(shí)驗(yàn)清晰地表明，不存在一種能在所有維度上都達(dá)到最優(yōu)的通用效率技術(shù)。

每一種被評估的方法，在提升至少一個效率指標(biāo)的同時，幾乎總會在其他某個或某些指標(biāo)上有所妥協(xié)。

以稀疏混合專家模型(MoE)為例，能有效降低推理時的FLOPs（浮點(diǎn)運(yùn)算次數(shù)）并提升下游任務(wù)的準(zhǔn)確率，但其代價(jià)是峰值顯存需求增加約40%（因?yàn)樾枰鎯λ袑＜揖W(wǎng)絡(luò)的參數(shù)）。

int4量化技術(shù)則展現(xiàn)了另一面：可以將模型的內(nèi)存占用和能耗降低高達(dá)3.9倍，模型壓縮率表現(xiàn)優(yōu)異，但根據(jù)實(shí)測數(shù)據(jù)，通常伴隨著約3-5%的任務(wù)平均得分下降。

最優(yōu)效率策略高度依賴于具體任務(wù)和模型規(guī)模(Optima are Task- and Scale-Dependent)

效率的「最優(yōu)解」并非一成不變，而是高度依賴于應(yīng)用場景、模型規(guī)模和硬件環(huán)境。

高效注意力機(jī)制：在架構(gòu)預(yù)訓(xùn)練階段，對于內(nèi)存資源極度受限的設(shè)備（如端側(cè)推理），MQA(多查詢注意力)因其共享鍵值頭設(shè)計(jì)，展現(xiàn)出最佳的內(nèi)存占用和延遲特性。

而當(dāng)追求極致的語言生成質(zhì)量時（以困惑度PPL為衡量標(biāo)準(zhǔn)），MLA(多頭潛在注意力)則表現(xiàn)更優(yōu)。若目標(biāo)是最低能耗部署，NSA(原生稀疏注意力)則是首選。

PEFT方法的規(guī)模效應(yīng)：在微調(diào)階段，對于1B到3B參數(shù)規(guī)模的較小模型，LoRA及其變體(如DoRA，統(tǒng)稱LoRA-plus）在特定的內(nèi)存約束下能達(dá)到最低的性能損失（即最佳的任務(wù)表現(xiàn)）。

然而，當(dāng)模型規(guī)模擴(kuò)展到14B參數(shù)以上時，RSLORA在效率上反超LoRA，展現(xiàn)出更低的延遲和功耗。

對于超大規(guī)模模型的微調(diào)，參數(shù)凍結(jié)（僅更新部分層或組件）策略雖然可能犧牲少量任務(wù)精度，但能提供最佳的端到端微調(diào)延遲。

量化精度選擇：在推理階段，測試（涵蓋Llama-3,DeepSeek,Qwen等1.5B至34B模型）表明，int4訓(xùn)練后量化能顯著提升資源效率。

內(nèi)存占用減少接近理論上的4倍，吞吐量（每秒處理詞元數(shù)）在內(nèi)存受限條件下可提升三倍，而平均任務(wù)性能得分僅有小幅下降（例如DeepSeek-R1-Distill-Qwen-14B的平均分從bf16的0.4719降至int4的0.4361）。

在16位浮點(diǎn)格式中，bfloat16在Hopper架構(gòu)GPU(GH200/H200)上，相較于float16，始終在平均延遲和能耗方面表現(xiàn)更優(yōu)，這得益于現(xiàn)代NVIDIA GPU對bfloat16運(yùn)算的原生硬件加速。

LLM效率技術(shù)可廣泛遷移至跨模態(tài)模型(Broad ApplicabilityAcrossModalities)

研究人員將EfficientLLM的評估框架成功擴(kuò)展到了大型視覺模型(LVMs)和視覺語言模型(VLMs)，如Stable Diffusion3.5、Wan2.1和Qwen2.5-VL等。

實(shí)驗(yàn)結(jié)果令人鼓舞：在LLM上得到驗(yàn)證的效率技術(shù)，如MQA/GQA等高效注意力機(jī)制，能夠有效地遷移并改進(jìn)LVM的生成質(zhì)量（以FID分?jǐn)?shù)為衡量標(biāo)準(zhǔn)）；PEFT方法同樣在LVM和VLM上取得了良好的性能-效率權(quán)衡，表明針對LLM的效率優(yōu)化研究成果具有更廣泛的適用性。

開放共享，賦能未來

研究人員即將開源完整的評估流程代碼以及排行榜，在為全球的學(xué)術(shù)研究者和企業(yè)工程師在探索下一代基礎(chǔ)模型的效率與性能平衡時，提供一個堅(jiān)實(shí)的、可復(fù)現(xiàn)的、值得信賴的「指南針」。

研究成果可以為從業(yè)者提供基于嚴(yán)謹(jǐn)實(shí)證數(shù)據(jù)的可操作建議，幫助研究人員在具體的任務(wù)需求和資源限制下，做出更明智、更高效的模型和技術(shù)選型決策，而不是僅僅依賴?yán)碚撏蒲莼蛴邢薜慕?jīng)驗(yàn)。

LLM的效率優(yōu)化是一個持續(xù)演進(jìn)的系統(tǒng)工程，EfficientLLM的探索也僅是其中的一部分，諸如訓(xùn)練基礎(chǔ)設(shè)施優(yōu)化、基于強(qiáng)化學(xué)習(xí)的訓(xùn)練后對齊、測試時擴(kuò)展策略等重要議題，開發(fā)團(tuán)隊(duì)計(jì)劃在未來進(jìn)行深入研究。

責(zé)任編輯：張燕妮來源：新智元