摩爾線程正式發佈開源大模型分佈式訓練仿真工具SimuMax的1.1版本。該版本在完整繼承v1.0高精度仿真能力的基礎上,實現了從單一工具到一體化全棧工作流平台的重要升級,為大模型訓練的仿真與調優提供系統化支持。
本次更新聚焦三大核心創新:用户友好的可視化配置界面、智能並行策略搜索,以及融合計算與通信效率建模的System-Config生成流水線。新版本同時提升了對主流訓練框架Megatron-LM的兼容性,並增強了對混合並行訓練中複雜通信行為的建模精度,使仿真環境更貼近真實生產場景。
SimuMax是一款專為大語言模型(LLM)分佈式訓練負載設計的仿真模擬工具,可為單卡到萬卡集羣提供仿真支持。它無需實際執行完整訓練過程,即可高精度模擬訓練中的顯存使用和性能表現,幫助用户深入洞察訓練效率,探索提升計算效能的優化途徑。
根據介紹,SimuMax v1.1在高精度仿真能力的基礎上,通過以下多項功能構建了更完整、更智能的工作流:
- 智能並行策略搜索:引入策略搜索支持,自動探索並識別更優的並行化及執行策略,降低調參成本,提升訓練效率;
- 系統配置生成流水線:新增系統配置文件生成流水線,包含計算效率與通信效率的刻畫,以實現更真實的系統級建模;
- 增強的框架兼容性與優化:新增對Megatron-LM v0.14的支持,主要適配了新版本Moe Router的顯存優化特性;
- 精細化帶寬爭用建模:專門優化了在專家並行(EP)/張量並行(TP)與數據並行(DP)混合場景下的節點間網絡帶寬競爭模擬,提升大規模集羣仿真的準確性。
SimuMax v1.1引入了直觀的可視化配置界面。用户通過簡單交互,即可快速完成從單卡到萬卡集羣的訓練任務定義,極大簡化工作流,使工程師更專注於訓練策略設計與深層性能優化,提升模型研發與調優效率。