yzy121403725 博客

Nov 21 2025

yzy121403725 - 常見模型部署環節優化技術微調、剪枝、蒸餾、量化等

模型優化技術 —— 目的都是讓訓練好的模型更適配部署環境（如低算力設備、低延遲場景），同時儘可能保留模型性能（精度、效果）一、微調（Fine-tuning）：讓模型 “適配新場景” 1. 核心定義微調是在預訓練模型（如 BERT、ResNet）的基礎上，用少量目標場景的數據集繼續訓練，調整模型參數以適配具體任務或環境的過程。可以理解為：預訓練模型已經 “學會

部署模型優化技術 , aigc , llama

Nov 21 2025

yzy121403725 - kubeflow大規模ML訓練master單點故障方案

優化 Kubeflow 部署，配置多 Master、共享存儲，使用 PyTorchJob/TFJob 配合 checkpoint 策略，保留 MLOps 全流程能力這些優化的核心目標是： 1. 提高可用性 (HA)：通過多 Master 消除單點故障。 2. 提升效率：通過共享存儲和合理的 Checkpoint 策略，加速訓練、方便模型複用和故障恢復。

aigc , llama , Kubeflow , master單點故障 , ML訓練

Nov 21 2025

yzy121403725 - kubeflow 大規模 ML 訓練

Kubeflow 的一個主要設計目標就是簡化和標準化在 Kubernetes 上進行大規模 ML 訓練的過程。它提供了一系列工具和組件，讓數據科學家和工程師能夠輕鬆地啓動、管理和監控分佈式訓練任務，而無需關心底層的 Kubernetes 集羣調度細節。 1. 核心組件：Kubeflow Training Operators Kubeflow 不直接調度訓練任

大規模ML訓練 , aigc , llama , Kubeflow

Nov 20 2025

yzy121403725 - kubeflow KSservice部署模型如何部署模型為推理服務

調整和管理自定義 Handler 在 KServe 中，自定義 Handler 的概念通常體現在Transformer組件上。Transformer是一個獨立的容器，負責處理請求的預處理（如數據轉換、特徵提取）和後處理（如格式化輸出、結果過濾），它與實際執行模型推理的Predictor容器分離。這種架構的好處是：關注點分離：模型推理和數據處理邏輯解

KSServe , aigc , llama , Kubeflow

Nov 20 2025

yzy121403725 - gitlab+kubeflow+minio/oss對象存儲搭建MLOps

核心思路我們將利用： • GitLab：作為代碼倉庫、CI/CD 流水線的編排者和觸發器。它負責監控代碼變更、運行自動化測試、構建鏡像並與 Kubeflow 交互。 • Kubeflow：作為運行在 Kubernetes 上的機器學習專用平台。它負責執行復雜的模型訓練（通過 Pipelines）和模型部署（通過 Serving）任務。整個 MLOps

gitlab+kubeflow , MLOps , aigc , llama

Nov 20 2025

yzy121403725 - MLOps

1. 定義與本質 MLOps 是一套將機器學習模型從開發（實驗）落地到生產環境，並實現全生命週期自動化、可觀測、可追溯的工程實踐體系。核心目標：解決 “模型訓練出來能用，但上線難、維護難、迭代慢” 的痛點（比如傳統 ML 流程中，數據科學家訓練的模型，運維人員難以部署，且上線後數據漂移、模型性能下降無法及時感知）。與傳統運維的區別：傳統運維聚焦

數據 , MLOps , aigc , llama , ML

yzy121403725 博客

博客 / 列表

yzy121403725 - 常見模型部署環節優化技術微調、剪枝、蒸餾、量化等

yzy121403725 - kubeflow大規模ML訓練master單點故障方案

yzy121403725 - kubeflow 大規模 ML 訓練

yzy121403725 - kubeflow KSservice部署模型如何部署模型為推理服務

yzy121403725 - gitlab+kubeflow+minio/oss對象存儲搭建MLOps

yzy121403725 - MLOps

Product

Company

Support

Company