动态

详情 返回 返回

雲原生週刊:在 Kubernetes 上運行機器學習 - 动态 详情

雲原生熱點

KGateway v2.1:面向 AI 場景的高可用網關全新升級

KGateway 是一個面向雲原生和 AI 場景的高性能網關,支持多租户、統一接入、智能路由與推理服務集成,兼容 Kubernetes Gateway API 標準。

在最新的 v2.1 版本中,KGateway 引入了 agentgateway 組件,增強了 AI 推理和多租户路由能力;全面支持 Gateway API v1.3.0 和 Inference Extension v1.0.0;新增全局策略掛載、加權路由、Pod 模板定製、請求頭修改、會話親和及自動擴縮容等功能。同時優化了監控與健康檢查機制,並啓用 Leader 選舉以提升高可用性。本次更新還廢棄舊版 Envoy AI Gateway 與 Inference Extension,為 v2.2 的架構升級做準備。

Cosign 3.0 發佈:軟件簽名工具全面升級,安全與兼容性再提升

Cosign 是 Sigstore 項目下的開源命令行工具,主要用於對容器鏡像、軟件包等進行簽名與驗證,以增強軟件供應鏈的安全性。

近日,Cosign v3.0 版本正式發佈,Cosign 將若干過去需要通過可選標誌才能使用的新功能(如捆綁格式、可信根管理、簽名配置支持)設為默認開啓,從而加強與 Sigstore 生態中主流部署(如 Homebrew、PyPI、Maven Central 等) 的兼容性。與此同時,Cosign 圍繞簡化 CLI 及移除舊功能進行了規劃,為未來 v4.0 版本的重大改動做好鋪墊。

技術實踐

文章推薦

在 Kubernetes 上運行機器學習:信任而非技術是最大門檻

本文介紹了,在將機器學習工作負載遷移至 Kubernetes 環境時,真正最大的挑戰往往不是技術複雜性本身,而是 信任問題——包括數據質量、模型行為可預測性、團隊間協作以及基礎設施是否可靠。作者指出,儘管 Kubernetes 提供了強大的調度、擴縮容和資源管理能力,但若數據科學團隊、平台團隊及運維團隊之間缺乏信任支撐、模型生命週期管理鬆散、監控與反饋機制不完善,那麼技術能力再強也難以落地。為此,文章建議優先構建治理和審計流程、搭建可觀察模型行為的反饋機制、明確責任邊界,從而為 AI 在 Kubernetes 上的可靠運行奠定信任基礎。

Kubernetes 7 大常見陷阱及其規避技巧

在這篇文章中,作者從自己在生產環境中管理 Kubernetes 的經驗出發,列舉了七類常見的部署與運維陷阱——包括未設置資源 requests/limits、忽視 liveness/readiness 探針、單靠 kubectl logs 進行排錯、開發與生產配置一模一樣、遺留無用資源、缺乏日誌/監控機制、以及環境隔離不足等——並針對每個陷阱提供了實踐建議,如從小量資源開始、使用自動擴縮容、統一日誌監控管道、為不同環境提供差異化配置等,以幫助運維工程師提升集羣穩定性、可觀察性與效率。

雲與 DevOps 趨勢:整合治理與智能化轉型再加速

本文介紹了 InfoQ 近日發佈的《Cloud & DevOps Trends Report 2025》,探討了雲計算與 DevOps 在智能化、平台化及治理領域的最新發展趨勢。報告指出,AI 驅動的自動化與智能代理正逐步融入運維與交付流程,推動從“人驅動”向“協同智能”轉變;平台工程持續升温,企業更加關注通過統一開發者平台(IDP)提升開發體驗與交付效率;混合雲與多雲架構成為主流實踐,以兼顧靈活性與成本控制。與此同時,FinOps 和可觀察性 進入成熟期,組織從單純關注工具選型轉向構建端到端的治理與可持續運營體系。總體來看,2025 年的雲與 DevOps 發展已從技術演進邁向體系化建設階段,重點在於“整合、優化與賦能”,以支撐更高效、安全、可控的數字化交付體系。

開源項目推薦

Proton

Proton 是由 Timeplus 開發的一款高性能流處理與分析的 SQL 引擎,採用 C++ 實現並內嵌 ClickHouse 引擎,目標為替代 Apache Flink 與 ksqlDB。它支持從 Kafka、Redpanda、ClickHouse 等多種源頭採集數據,提供多流 JOIN、增量物化視圖、時間窗口、水印、CDC 等實時流計算功能,同時具備查詢歷史數據的能力。特點包括:單二進制部署、無 JVM/ZooKeeper 依賴、低延遲高吞吐。適用於流式 ETL、實時分析、監控告警、推薦系統等場景。

Fission

Fission 是一個開源、Kubernetes 原生的 Serverless 函數框架,聚焦“只關心代碼”的開發體驗:通過 Functions、Environments 與 Triggers 三大概念,把 HTTP、消息隊列與定時任務等事件與函數解耦,支持多語言(如 Node.js、Python、Go 等),並提供自動伸縮與極低冷啓動(官方稱典型約 100ms)以便在 Kubernetes 上快速上線函數與應用。

Rook

Rook 是一個開源的雲原生存儲編排平台,專為 Ceph 分佈式存儲系統在 Kubernetes 中的原生化部署、管理、擴縮容而設計。它通過 Operator 模式自動化執行部署、配置、供給、監控、升級、災難恢復等流程,使存儲服務實現自管理、自修復、自擴展。Rook 支持文件、塊、對象三種存儲模式,適用於生產環境的大規模集羣。

Traefik

Traefik 是一個現代開源反向代理和負載均衡器,專為微服務架構設計,能無縫集成諸如 Docker、Kubernetes、Consul、Etcd 等多種編排和服務發現平台,並能通過自動配置來動態處理路由。它支持 HTTP/1-3、TCP、UDP、WebSocket、gRPC 等協議,內置中間件、自動 TLS、服務發現與指標監控等功能,使得在容器化、動態伸縮的環境下運行服務更加簡潔高效。

user avatar shumile_5f6954c414184 头像 aipaobudeshoutao 头像 jianghushinian 头像 shouke 头像 wisdomqq 头像 birenxuemou 头像 guangmingleiluodebaomihua 头像 mangrandedanche 头像 wb_64322745e6aa2 头像 seven97_top 头像 shu_jshu_jiashu_jianshu_jiang 头像 piano 头像
点赞 23 用户, 点赞了这篇动态!
点赞

Add a new 评论

Some HTML is okay.