博客 / 詳情

返回

當數據庫世界重新討論文件格式:TsFile 與工業高質量數據集的背後邏輯

在《2025 數據庫世界年度回顧》中,TsFile 等文件格式正在重新引發數據庫系統的關注。

最近,CMU(Carnegie Mellon University,卡耐基梅隆大學)數據庫系統領域的重要代表人物 Andy Pavlo,發佈了他一年一度的《2025 數據庫世界年度回顧》。

作為長期參與並觀察數據庫系統演進的學者,他的年度回顧常被業界視為判斷技術走向的重要參考。

在這篇年度回顧中,一個耐人尋味的現象被明確點出:文件格式這一長期相對沉寂的技術領域,正在重新進入數據庫系統的關鍵技術討論範圍,並逐漸引發更多關注。多個新的開源文件格式在短時間內集中出現,試圖從不同路徑迴應數據長期演進、互操作性與新硬件環境帶來的挑戰。

在文章中,TsFile 與多個來自學界和工業界的新一代開源文件格式一起,被列入近兩年出現的重要嘗試之中。

這並不是一次產品評測,而是一種趨勢層面的判斷——文件格式,正在從“實現細節”重新回到“系統基礎設施”的位置。

微信截圖_20260109120759
報告原文:https://www.cs.cmu.edu/~pavlo/blog/2026/01/2025-databases-retrospective.html

為什麼會出現這樣的變化?

過去十多年裏,數據庫系統的關注點更多集中在查詢引擎、執行框架與分佈式架構上,而文件格式一度被視為相對成熟、變化緩慢的領域。但隨着工業場景與 AI 應用的深入,這一前提正在被打破。

在越來越多真實生產環境中,新的問題變得突出:

  • 數據從終端設備產生,並匯聚到雲端進行分析;

  • 數據需要在不同系統、語言和工具之間反覆使用;

  • 數據不僅服務於查詢,也直接服務 AI 模型訓練與推理。

在這樣的背景下,“數據是否具備長期可用性與可複用性”,開始變得更加重要。這也是我們近期反覆討論“工業高質量數據集”的原因。

0aa4150d435dbeecbaefff312bdf71e7

當數據生命週期被拉長到十年甚至更久時,文件格式不再只是存儲效率問題,而成為承載時間語義、元數據、演進能力的基礎載體。

TsFile 正是在這樣的需求背景下逐步演進而來。它並非為某一個查詢引擎而生,而是試圖回答一個更基礎的問題:工業時序數據,如何被穩定、清晰、長期地保存,並在未來不斷被重新理解和利用。

從這個角度看,文件格式在數據庫世界中重新引發廣泛討論,並不令人意外。它反映的不是某一個項目的變化,而是整個行業對“數據長期價值”的重新認識。

點擊訪問 TsFile 官網,瞭解更多技術詳情!

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.