Meta:大規模分布式訓練中的硬件擴展趨勢與收益遞減
?標題:HardwareScalingTrendsandDiminishingReturnsinLargeScaleDistributedTraining作者:JaredFernandez,LucaWehrstedt,LeonidShamis,MostafaElhoushi,KalyanSaladi,YonatanBisk,EmmaStrubell,JacobKahn時間:Submittedon20Nov2024(lastrevised12Apr2025)鏈接:https:arxiv.orgabs2411.13055v2主要內容核心觀點:單純依賴FSDP(全分片數據并行)在超大規模集群下會遭遇嚴重的“收益遞減”;模型并行(張量流水線并行)實際上是...