博客 / 列表

zxxpeace - 由於線程數引發TKE 集羣節點故障的思考

事故的大概流程如下: 線程數耗盡 → Docker 卡死 → CSI 重連 → 系統掛掉。這個時候就需要我們異常去重啓cvm 操作系統。 [root@k8s-master01 log]# [root@k8s-master01 log]# grep Resource daemon.log Nov 18 13:56:05 localhost systemd[

kubernetes , 雲計算 , 重啓 , Docker

zxxpeace - 針對pod 重啓的思考

1、在k8s 的微服務的項目當中,有的時候會遇到pod 會進行重啓, 那pod 為啥進行重啓,根因是什麼呢? Pod 重啓的根本原因是其內部的容器停止了運行,而 Pod 的 restartPolicy 被設置為 Always 或 OnFailure,因此 Kubernetes 會嘗試重新啓動容器以維持預期的狀態。 下

Pod , kubernetes , 內存不足 , 雲計算 , 重啓

zxxpeace - Pod實際使用率(佔linit)超過閾值問題的思考

在日常的運維過程當中,我們會遇到pod的實際內存超過了閾值,出現這種問題,該怎麼處理呢 很多人都會説直接擴容副本數,就可以。但是,有的時候擴容副本數不一定靠譜,擴容了之後還在繼續增加,所以我們要找到它徹底的解決方案 第一步:即時檢查,評估業務影響 # 檢查pod的狀態 kubectl get pod pod-name -o w

Pod , kubernetes , 雲計算 , 重啓 , 解決方案

zxxpeace - 磁盤io 超過90%的思考

為什麼高IO會導致Pod重啓? 當節點IO使用率超過90%時,會直接導致Pod運行異常,包括重啓。 1.直接原因:節點壓力驅逐 當節點磁盤IO壓力過大時,kubelet會監測到並觸發節點壓力驅逐: bash # 查看節點狀態,通常會看到 DiskPressure kubectl describe node node-name # 輸出示例

Pod , kubernetes , 雲計算 , 重啓 , ci