ML訓練

標籤

貢獻1

145

05:18 PM · Nov 21 ,2025

@lookingdream

暱稱yzy121403725

Last seen

@ML訓練 / 博客 RSS 訂閱

Nov 21 2025

yzy121403725 - kubeflow大規模ML訓練master單點故障方案

優化 Kubeflow 部署，配置多 Master、共享存儲，使用 PyTorchJob/TFJob 配合 checkpoint 策略，保留 MLOps 全流程能力這些優化的核心目標是： 1. 提高可用性 (HA)：通過多 Master 消除單點故障。 2. 提升效率：通過共享存儲和合理的 Checkpoint 策略，加速訓練、方便模型複用和故障恢復。

aigc , llama , Kubeflow , master單點故障 , ML訓練

收藏評論

ML訓練

@ML訓練 / 博客 RSS 訂閱

yzy121403725 - kubeflow大規模ML訓練master單點故障方案

Product

Company

Support

Company