CubeFS v3.5.3 已發佈,具體更新內容如下:
主要特性:
1、Client:針對大語言模型(LLM)和大語言多模態模型(MLLM)訓練,支持高吞吐(LLM checkpoint),可容忍計算、存儲分離訓練高延時場景(8ms+)。
- 全異步刷新能力,大幅提升大文件順序寫性能,寫入速度在1.2GB/s以上,訓練節點(H20高配)單客户端大文件併發(10個)寫入可達10GB/s+。
- 優化客户端預讀能力的內存佔用和性能,單個文件的讀取速度在2GB/s以上;
- 客户端元數據動態預熱能力,對於小文件元數據提前預熱;
注:以上特性啓用、調優需參考社區最新文檔。
2、分佈式緩存系統可獨立提供服務
- FlashGroupManager:將 Master 的分佈式緩存管理能力獨立為服務,負責 FlashNode 註冊/註銷與路由下發等,實現與 Master 解耦,提升伸縮性與穩定性。
- RemotecacheConfig:面向FlashGroupManager的運維管理工具,提供 FlashGroup 創建/刪除、信息查詢與狀態查看等功能。
- FlashNode:支持對象存儲數據塊的上傳/下載服務;支持對象存儲數據塊的熱度統計;支持文件存儲指定路徑的預熱能力。
- Client:提供FlashNode面向對象存儲數據塊的服務上傳/下載SDK。
Enhance:
- FlashNode:補充命中讀延遲、讀限流次數等運營指標,便於監控告警與容量/限流調優。
- Master:查詢磁盤或者節點下線進度的時候顯示剩餘dp數;多磁盤併發下線時增加對衝突dp的重試等dp下線的優化,提高自動化遷移成功率。
Bugfix:
- 修復兩副本dp下線過程中如果發生重啓,下線token可能會被消費兩次的問題。
- 修復了壞盤上報未顯示上報時間距當前時間的時間間隔的問題。
- 修復磁盤標記下線失敗時仍可能有部分dp未從下線隊列中移除,導致對後續磁盤下線造成影響的問題;
- 修復兩副本dp由於leader change導致磁盤和節點下線進度展示不正確的問題;修復客户端預讀時,部分命中場景時偏移計算錯誤的問題。
- 修復客户端在預讀和分佈式緩存同時開啓時,由於預讀內存不足導致的讀取錯誤。
- 修復其他一些歷史相關缺陷和問題
3.6.0 版本更新預告:
- metanode 元數據支持rocksdb管理
- 支持機架隔離能力
- 支持nodeset和rack自動均衡
- mp 支持使用learner模式遷移
- datanode 支持磁盤維度自適應限流
- mp 元數據支持自愈能力
- 分佈式緩存支持多域管理
詳情可查看:https://github.com/cubefs/cubefs/releases/tag/v3.5.3