博客 / 詳情

返回

JuiceFS 2025:邁入千億文件規模,開源第五年持續高速增長

又到了給大家彙報全年社區工作的時候。2025 年, JuiceFS 企業版發佈的第九年,社區版的第五年。這一年,我們專注一如既往,打造一款高效易用的文件系統。

各項使用指標延續了上一年的增長勢頭,社區版數據量增長 89%,超 1.3 EB;營收連續第三年 100% 增長,是我們持續投入社區的堅實保障。

2025 年,JuiceFS 社區版繼續聚焦通用性,尤其在支持各類 AI 場景的需求。發佈了 Python SDK、增強 Windows 客户端可用性,並加強了對雲原生生態的支持;此外,元數據引擎 SQL 和 TiKV 也進行了針對性優化。今年,團隊與社區成員一道推動了 JuiceFS 的持續迭代,共有 60 位貢獻者參與,新增了 305 個 Issue,合併了 601 個 PR。

在企業版的開發過程中,團隊今年面臨的最大挑戰來自於超大規模數據的管理。隨着自動駕駛等 AI 技術逐漸融入日常生活,數據規模的增長是空前的,在千億文件級別下,元數據管理、數據一致性等方面的管理複雜度指數級增加。為應對這些難題,企業版在元數據分區、網絡性能等核心特性上進行了全面升級。上半年發佈的企業版 5.2 已支持單卷千億規模,即將發佈的 5.3 版本更將支持 5,000 億規模,讓用户不必再為數據規模發愁,JuiceFS 的性能和穩定性也都能夠穩妥保障。

01 社區版:支持 Python SDK、 Windows 客户端可用性大幅提升

JuiceFS 自開源以來已在企業生產環境中得到了長時間的驗證,核心功能逐步趨於穩定。全年發佈了 9 個版本,其中 1.3 版本是繼 2021 年開源以來的第四個重要版本,並作為長期支持版本(LTS)。該版本的主要優化包括:

  • 支持 Python SDK ,提升了 AI 和數據科學場景下的靈活性和性能;
  • Windows 客户端的優化,增強了工具支持和系統服務掛載能力;
  • 備份機制優化,1 億文件備份分鐘級完成;
  • 集成 Apache Ranger,JuiceFS 支持大數據場景中的細粒度的權限管理;
  • 元數據引擎方面,SQL 和 TiKV 的性能提升,在超大規模場景下表現更加高效。

下半年,團隊開始積極籌備 1.4 ,計劃新增多個特性,包括用户和用户組 Quota 支持、Redis 客户端緩存支持、LRU 緩存支持、SMB/CIFS 支持、Hadoop Kerberos 支持、S3 Gateway 優化、Sync 工具斷點續傳,數據商業算法加密支持,預讀策略優化、批量刪除優化和周邊工具優化等 ,以進一步提升系統的性能和穩定性。

JuiceFS CSI Driver 在過去一年發佈了 18 個版本,持續優化 JuiceFS 在 Kubernetes 等環境中的存儲效率和穩定性。新增功能包括卷路徑健康狀態檢測、同一文件系統共享 Mount Pod 功能、支持 Kubernetes 原生 Sidecar,以及 Dashboard 的 CacheGroup 管理。此外,還進行了性能和可靠性優化,不僅提升了穩定性,同時改進了多 Pod 配置和容器化應用的兼容性。

JuiceFS Operator,新增了定時緩存預熱 功能,提升業務訪問數據的性能;支持按副本部署的 CacheGroup,實現了緩存高可用性;並引入 Sync 功能,在 Kubernetes 環境中高效同步數據,確保一致性。

02 企業版:單卷千億規模文件,強勁性能與穩定性保障

2025 年上半年,JuiceFS 企業版 5.2 版本發佈,單個文件系統突破千億文件的規模,並顯著提升了超大規模集羣的穩定性和分佈式緩存的網絡性能。為了實現這一目標,團隊投入了大量時間和精力進行優化,特別是在處理超大數據集和高併發訪問時的性能提升。該版本已在多個企業的生產環境中得到驗證,單卷千億文件規模下保持 1 毫秒元數據時延水平。同時,分佈式緩存網絡性能優化,TCP 網絡下大幅減少 CPU 開銷,同時提升網絡帶寬利用率。在 100 台 GCP 100Gbps 節點的環境下,聚合讀帶寬達到 1.2 TB/s,接近滿負荷利用 TCP/IP 網絡帶寬

此外, Python SDK 實現了 fsspec 兼容、按需導入對象存儲文件,可以更方便的訪問對象存儲存量數據、解決特殊場景中的讀放大問題以及提升全局 QoS 能力,進一步增強了系統的靈活性和性能。

多分區架構是 JuiceFS 應對千億文件規模的關鍵技術之一,保證了系統的高擴展性和高併發處理能力。下半年我們的核心工作集中在 5.3 版本,對多分區架構進行了全面優化,分區限制從 256 個提升至 1,024 個,可實現單卷超過 5,000 億文件的存儲和訪問需求

這背後是一系列複雜的工作,包括系統化整理跨分區鏈接實現,並實現後台自檢機制,提升集羣的可靠性與穩定性;開發熱點監測與自動遷移工具,高效處理熱點問題;優化分佈式緩存管理,減少緩存衝突並提高併發性能;此外,為了進一步優化分佈式網絡的性能,在這個版本中首次引入了 RDMA 技術,目前處於實驗階段,測試結果顯示其在穩定性和 CPU 使用率方面優於 TCP 協議。5.3 版本將於 1 月發佈,更多細節,歡迎關注。

03 社區發展,第 5 年高速成長,數據總量超 1.3EB

目前,JuiceFS GitHub star 超 12.6K;JuiceFS 下載量突破了 5 萬次,CSI Driver 的下載量超過了 500 萬次;中文社區已經有 10 個微信羣組,Slack 英文社區也達千人。

社區版開源的第 5 年,也是快速增長的第 5 個年頭。用户上報數據顯示,JuiceFS 的各項關鍵數據延續了增長趨勢:

  • 文件系統 590K+,增長 82%
  • 活躍客户端 150K+,增長 46%
  • 文件數量 4000 億+,增長 43%
  • 數據總量 1.3EiB+,增長 89%

今年,我們在多個行業大會分享實踐,KCD 、開源年會、CommunityOverCode Asia 等,感謝這些大會主辦方對 JuiceFS 的認可;在海外行業會議也展露頭腳,參與了 KubeCon+CloudNative Con North America、Opensource Summit Japan、SNIA Developer Conference 等。

為了更好地為用户提供支持,我們定期舉辦 Office Hours,介紹新功能、解答疑問;同時,舉辦了 11 場 Meetup,幫助不同行業的用户更有信心地將 JuiceFS 應用於生產環境。案例涵蓋自動駕駛、生成式 AI、AI 基礎平台、量化投資、生命醫藥等多個領域。(查看所有案例)

特別感謝以下今年參與分享的用户,他們的實踐經驗為社區提供了寶貴的參考:

  1. 丁聰,Lepton AI,加速 AI 訓推:構建多租户、低延遲雲存儲平台
  2. 孫瑋,中國科學院計算所,基於 JuiceFS 的大模型訓推平台存儲演進之路
  3. 鄭澤東,百圖生科,基於 JuiceFS 構建生命科學大模型存儲平台,成本降 90%
  4. 吳松林,攜程,穩定且高性價比的大模型存儲:攜程 10PB 級 JuiceFS 工程實踐
  5. 唐義凡,合合信息,基於 JuiceFS 構建統一存儲,支撐 PB 級 AI 訓練
  6. 繆昌新,階躍星辰,如何利用 JuiceFS 打造高效經濟的大模型存儲平台
  7. 可加,稿定科技,多雲架構下的 AI 存儲挑戰與 JuiceFS 實踐
  8. 鄧君宇,九識智能,基於 JuiceFS 的自動駕駛多雲億級文件存儲
  9. 高玉堂, Ariste AI,JuiceFS + MinIO:量化投資高性能存儲實踐
  10. 李威宇,光影煥像,基於 JuiceFS 搭建 3D AIGC 存儲平台,數據性能 2 倍提升
  11. 劉道全,始智 AI,基於 JuiceFS 打造高性能、低成本 AI 模型管理存儲平台
  12. 高楊,酷睿程,自動駕駛百 PB 級雲原生存儲案例
  13. 曾奧涵,智譜 AI,大模型訓練基礎設施落地實踐

親愛的社區夥伴們,我們一起度過了充實的一年。JuiceFS 從一個開源新秀,成長為今天 AI 業務中備受信任的選擇,衷心感謝每一位社區成員的參與與支持,感謝你們在羣裏解答問題、分享實踐、貢獻代碼!

新的一年裏,JuiceFS 將繼續為你的工作帶來更高效、更輕鬆的體驗。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.