Andy Pavlo:2025 數據庫世界年度總結

新聞
HongKong
3
11:45 AM · Jan 06 ,2026

原文地址:https://www.cs.cmu.edu/~pavlo/blog/2026/01/2025-databases-retrospective.html
作者:Andy Pavlo,翻譯與評論:馮若航
譯者注: 本文翻譯自CMU Andy Pavlo 教授的博客

轉載自:https://vonng.com/db/db-year-review-2025/


又一年過去了。本來想多寫幾篇文章,而不是隻在年底發這種長篇大論,但春季學期我差點掛掉,時間全被佔用了。不管怎樣,還是來聊聊我眼中過去一年數據庫領域的重大趨勢和事件吧。

這一年數據庫世界發生了許多激動人心、前所未有的事。"氛圍編程"(Vibe Coding)這個詞進入了大眾視野。Wu-Tang Clan(武當派)宣佈了他們的時間膠囊項目。Databricks 今年沒有上市,而是連續完成了兩輪鉅額融資。

與此同時,還有一些意料之中的事。Redis 公司在背刺開源社區一年後,又把許可證改了回來(去年我就預判到了)。 SurrealDB 發佈了漂亮的基準測試數據,但後來被發現是因為他們壓根沒把寫入刷盤,數據丟了。 還有 Coldplay 能把你的婚姻搞砸(譯者注:此處指某CEO外遇被曝)。不過話説回來,Astronomer 倒是把這事兒做成了一個不錯的宣傳梗。

正式開始之前,我想回應一下每年評論區都會出現的問題。總有人問:為什麼沒提到系統X?為什麼不聊聊數據庫Y? 為什麼分析裏沒有公司Z?原因很簡單:我能寫的東西有限,除非過去一年發生了什麼有趣或值得關注的事,否則沒什麼好討論的。 但也不是所有數據庫大事件都適合我來評論。比如最近試圖揭露 AvgDatabase CEO 身份的事件算公共話題,但MongoDB 自殺訴訟案絕對不適合我置喙。

説完這些,咱們開始吧。這些年度總結一年比一年長,先説聲抱歉。

往年回顧:

  • 2024 數據庫年度回顧
  • 2023 數據庫年度回顧
  • 2022 數據庫年度回顧
  • 2021 數據庫年度回顧

PostgreSQL 持續稱霸

2021 年,我首次寫到 PostgreSQL 正在吞噬整個數據庫世界。這一趨勢絲毫沒有減緩,數據庫領域最有趣的進展大多數還是圍繞 PostgreSQL 展開。最新版本(v18)於 2025 年 11 月發佈,最亮眼的特性是新的異步 I/O 存儲子系統,這將最終讓 PostgreSQL 擺脱對操作系統頁面緩存的依賴。此外還增加了Skip Scan支持:即使缺少前導鍵(即前綴),查詢仍可使用多鍵 B+ 樹索引。查詢優化器也有一些改進(例如消除冗餘自連接)。

資深數據庫鑑賞家們肯定會急着指出:這些功能並不是什麼開創性的東西,其他數據庫早就有了。PostgreSQL 是唯一仍依賴操作系統頁面緩存的主流數據庫,而 Oracle 早在 2002 年(9i 版本)就支持 Skip Scan了!那你可能會問:為什麼我還説 2025 年數據庫領域最火熱的動作都發生在 PostgreSQL 身上?

收購與發佈

原因在於:數據庫領域的大部分能量和活動都涌向了 PostgreSQL 相關的公司、產品、項目和衍生系統。過去一年,最火的數據初創公司(Databricks)花了10 億美元收購了一家 PostgreSQL DBaaS 公司(Neon)。緊接着,全球最大的數據庫公司之一(Snowflake)又花了2.5 億美元買下另一家 PostgreSQL DBaaS 公司(CrunchyData)。然後,地球上最大的科技公司之一(Microsoft)推出了新的 PostgreSQL DBaaS(HorizonDB)。Neon 和 HorizonDB 沿用了 Amazon Aurora 在 2010 年代的原始高層架構:單主節點、計算存儲分離。目前 Snowflake 的 PostgreSQL DBaaS 使用的核心架構與標準 PostgreSQL 相同,因為他們基於Crunchy Bridge構建。

分佈式 PostgreSQL

上述服務都是單主節點架構——應用把寫請求發給主節點,主節點再把變更同步給從副本。但 2025 年,有兩個新項目宣佈要為 PostgreSQL 構建橫向擴展(即水平分片)服務。

2025 年 6 月,Supabase 宣佈聘請了Sugu(Vitess 聯合創始人、前 PlanetScale 聯合創始人/CTO)來領導Multigres項目,目標是為 PostgreSQL 創建類似 Vitess 為 MySQL 提供的分片中間件。Sugu 於 2023 年離開 PlanetScale,蟄伏了兩年。現在他大概已經避開了所有法律問題,可以在 Supabase 大展拳腳了。你知道當一個數據庫工程師加入公司時,官宣重點在人而不是系統,那就説明這是大事件。SingleStore 的聯合創始人/CTO於 2024 年加入 Microsoft領導 HorizonDB,但微軟(錯誤地)沒把這事當回事宣傳。Sugu 加入 Supabase,就像Ol’ Dirty Bastard(RIP,武當派説唱歌手)假釋出獄兩年後,在出獄第一天就宣佈簽約新唱片公司。

Multigres 消息發佈一個月後,PlanetScale宣佈了自己的 Vitess-for-PostgreSQL 項目Neki。PlanetScale 於 2025 年 3 月推出了其初始PostgreSQL DBaaS,但核心架構就是標準的PostgreSQL + pgBouncer。

商業格局

隨着 2025 年 Microsoft 推出 HorizonDB,所有主要雲廠商現在都有了自己認真打造的增強版 PostgreSQL 產品。Amazon 自 2013 年提供RDS PostgreSQL,2017 年推出Aurora PostgreSQL。Google 在 2022 年推出AlloyDB。就連老古董 IBM 也從 2018 年就有云版 PostgreSQL。Oracle 在 2023 年發佈了PostgreSQL 服務,但有傳言説其內部 PostgreSQL 團隊在 2025 年 9 月的MySQL OCI 裁員中被波及。ServiceNow 在 2024 年推出了RaptorDB 服務,基於其 2021 年對 Swarm64 的收購。

是的,我知道 Microsoft 在 2019 年收購了 Citus。Citus 在 2019 年被更名為Azure Database for PostgreSQL Hyperscale,然後在 2022 年又改名為Azure Cosmos DB for PostgreSQL。但還有個Azure Database for PostgreSQL with Elastic Clusters也使用 Citus,但它和 Citus 驅動的 Azure Cosmos DB for PostgreSQL 不是一回事。等等,我可能搞錯了。Microsoft 在 2023 年停用了Azure PostgreSQL Single Server,但保留了 Azure PostgreSQL Flexible Server。這有點像 Amazon 忍不住在DSQL名字裏加上"Aurora"一樣。不管怎樣,至少 Microsoft 這次聰明地把新系統就叫"Azure HorizonDB"(暫時)。

仍有一些獨立軟件供應商(ISV)的 PostgreSQL DBaaS 公司。Supabase按實例數量可能是最大的。其他包括YugabyteDB、TigerData(前身為 TimeScale)、PlanetScale、Xata、PgEdge和Nile。還有一些系統提供 Postgres 兼容的前端,但後端系統並非基於 PostgreSQL(例如CockroachDB、CedarDB、Spanner)。Xata 最初架構基於Amazon Aurora,但今年宣佈切換到自己的基礎設施。Tembo在 2025 年放棄了託管 PostgreSQL,轉型為可以做一些數據庫調優的編碼 Agent。ParadeDB尚未宣佈其託管服務。Hydra和 PostgresML 在 2025 年倒閉了(見下文),出局了。還有像Aiven和Tessel這樣的託管公司也提供 PostgreSQL DBaaS,但同時也提供其他系統。

Andy 的看法

在 Databricks 和 Snowflake 收購 PostgreSQL 公司之後,下一個大買家會是誰還不清楚。再説一遍,每家大科技公司都已經有了 Postgres 產品。EnterpriseDB 是最老牌的 PostgreSQL ISV,但錯過了過去五年最重大的兩筆 PostgreSQL 收購。不過他們可以繼續跟着 Bain Capital 混,或者指望 HPE 收購他們,儘管那個合作關係已經是八年前的事了。這種併購格局讓人想起 2000 年代末的 OLAP 收購潮,當時Vertica是最後一個在公交站等車的,等AsterData、Greenplum和DATAllegro都被收購之後。

兩個相互競爭的分佈式 PostgreSQL 項目(Multigres、Neki)的出現是個好消息。這不是第一次有人嘗試做這件事。當然,Greenplum、ParAccel和Citus在 OLAP 領域已經存在二十年了。是的,Citus 支持 OLTP 工作負載,但他們 2010 年起步時重點是 OLAP。對於 OLTP,15 年前 NTT 的 RiTaDB 項目與GridSQL聯手創建了 Postgres-XC。Postgres-XC 的開發者創立了StormDB,後來被Translattice在 2013 年收購。Postgres-X2是現代化 XC 的嘗試,但開發者放棄了這個努力。Translattice 將 StormDB 開源為Postgres-XL,但項目自 2018 年以來就處於休眠狀態。YugabyteDB誕生於 2016 年,可能是部署最廣泛的分片 PostgreSQL 系統(而且仍然開源!),但它是硬分叉,所以只兼容PostgreSQL v15。Amazon 在 2024 年宣佈了自己的分片 PostgreSQL(Aurora Limitless),但它是閉源的。

PlanetScale 那幫人對對手毫不客氣,公開懟Neon和Timescale。數據庫公司互噴不是什麼新鮮事(參見Yugabyte vs. CockroachDB)。我猜隨着 PostgreSQL 戰爭升温,以後這種情況會更多。我建議這些小公司把槍口對準大型雲廠商,而不是內鬥。


全民 MCP 時代

如果説 2023 年是每個 DBMS 都加入向量索引的一年,那麼 2025 年就是每個 DBMS 都加入 AnthropicModel Context Protocol(MCP)支持的一年。MCP 是一個標準化的客户端-服務器 JSON-RPC 接口,讓 LLM 無需自定義膠水代碼就能與外部工具和數據源交互。MCP 服務器充當數據庫前面的中間件,暴露它提供的工具、數據和操作列表。MCP 客户端(例如 Claude 或 ChatGPT 等 LLM 宿主)發現並使用這些工具,通過向服務器發送請求來擴展模型能力。對於數據庫來説,MCP 服務器將這些查詢轉換為適當的數據庫查詢(如 SQL)或管理命令。換句話説,MCP 就是那個讓數據庫和 LLM 互相信任並做生意的中間人,負責把賬算清楚。

Anthropic 在 2024 年 11 月宣佈MCP,但真正火起來是 2025 年 3 月 OpenAI 宣佈將在其生態系統中支持 MCP。接下來幾個月,所有類別的 DBMS 廠商都發布了 MCP 服務器:OLAP(如ClickHouse、Snowflake、Firebolt、Yellowbrick)、SQL(如YugabyteDB、Oracle、PlanetScale)和 NoSQL(如MongoDB、Neo4j、Redis)。由於沒有官方的 Postgres MCP 服務器,每個 Postgres DBaaS 都發布了自己的版本(如Timescale、Supabase、Xata)。雲廠商發佈了可以與其任何託管數據庫服務通信的多數據庫 MCP 服務器(如Amazon、Microsoft、Google)。允許單一網關與異構數據庫通信,這幾乎但還不完全是聖盃級別的聯邦數據庫。據我所知,這些 MCP 服務器的每個請求一次只針對單個數據庫,所以跨源連接還是應用自己負責。

除了官方廠商的 MCP 實現外,幾乎所有 DBMS 都有數百個第三方 MCP 服務器實現。有些試圖支持多個系統(如DBHub、DB MCP Server)。DBHub 發佈了一篇關於 PostgreSQL MCP 服務器的不錯的概述。

一個對 Agent 特別有用的有趣功能是數據庫分支。雖然不是 MCP 服務器特有的,但分支允許 Agent 快速測試數據庫變更而不影響生產應用。Neon 在 2025 年 7 月報告説 Agent創建了他們 80% 的數據庫。Neon 從一開始就設計為支持分支(Nikita 在系統還叫"Zenith“的時候給我展示過早期演示),而其他系統是後來才加入分支支持的。可以看看 Xata 最近關於數據庫分支的對比文章。

Andy 的看法

一方面,我很高興現在有了一個標準來將數據庫暴露給更多應用。但沒人應該信任一個對數據庫有不受限訪問權限的應用,無論是通過 MCP 還是系統的常規 API。最佳實踐仍然是隻給賬户最小權限。當無人監管的 Agent 可能在你的數據庫裏撒野時,限制賬户權限尤為重要。這意味着給每個賬户管理員權限、或所有服務使用同一賬户這種偷懶做法,在 LLM 開始胡來時會翻車。當然,如果你的公司把數據庫敞開給全世界的同時還讓最富有公司的股價暴跌 6000 億美元,那失控的 MCP 請求就不是你最大的問題了。

從我粗略檢查的幾個 MCP 服務器實現來看,它們都是簡單的代理,將 MCP JSON 請求翻譯成數據庫查詢。沒有深入的內省來理解請求的目的以及是否合適。總有人會在你的應用裏訂購 18000 杯水,你得確保這不會搞崩你的數據庫。一些 MCP 服務器有基本的保護機制(例如 ClickHouse 只允許只讀查詢)。DBHub 提供了一些額外的保護,如限制每個請求返回的記錄數和實現查詢超時。Supabase 的文檔提供了 MCP Agent 的最佳實踐指南,但這依賴於人類去遵守。當然,如果你指望人類做對的事,壞事就會發生。

企業級 DBMS 已經有了開源系統所缺乏的自動化護欄和其他安全機制,因此它們更好地為 Agent 生態做好了準備。例如,IBM Guardium和Oracle Database Firewall可以識別和阻止異常查詢。我不是在為這些大科技公司打廣告,我知道未來會有更多 Agent 毀掉生活的例子,比如不小心刪除數據庫。將 MCP 服務器與代理(如連接池)結合,是引入自動化保護機制的好機會。


MongoDB, Inc. 訴 FerretDB Inc.

MongoDB 二十年來一直是 NoSQL 的中堅力量。FerretDB 由 Percona 高管於 2021 年創立,提供一箇中間件代理,將 MongoDB 查詢轉換為 SQL 發送到 PostgreSQL 後端。這個代理讓 MongoDB 應用無需重寫查詢就能切換到 PostgreSQL。

他們共存了幾年,直到 2023 年 MongoDB 向 FerretDB 發送了律師函,指控 FerretDB 侵犯了 MongoDB 的專利、版權和商標,並違反了 MongoDB 對其文檔和線協議規範的許可。2025 年 5 月,MongoDB 對 FerretDB 提起聯邦訴訟,這封信才公開。他們的主要爭議之一是 FerretDB 對外聲稱擁有 MongoDB 的”即插即用替代品“而沒有獲得授權。MongoDB 的法庭文件包含所有標準投訴:(1) 誤導開發者,(2) 稀釋商標,(3) 損害聲譽。

故事因 Microsoft 宣佈將其 MongoDB 兼容的DocumentDB捐贈給Linux Foundation而更加複雜。項目網站提到 DocumentDB 與 MongoDB 驅動兼容,並旨在”構建一個 MongoDB 兼容的開源文檔數據庫"。Amazon 和 Yugabyte 等其他主要數據庫廠商也參與了該項目。粗略一看,這些措辭似乎與 MongoDB 指控 FerretDB 做的事情類似。

Andy 的看法

我找不到數據庫公司因複製 API 而起訴另一家的先例。最接近的是 Oracle 起訴 Google 在 Android 中使用潔淨室實現的 Java API。最高法院最終以合理使用為由判決 Google 勝訴,該案影響了重新實現在法律上的處理方式。

我不知道如果真的開庭,這場官司會怎麼發展。一羣隨機挑選的陪審員可能理解 MongoDB 線協議的細節,但他們肯定能理解 FerretDB 最初的名字叫MangoDB。當你只改了一個字母的公司名時,很難讓陪審團相信你不是在試圖截流客户。更別説這名字本身也不是原創的:已經有另一個叫MangoDB的惡搞數據庫,把所有東西都寫到/dev/null

説到數據庫系統命名,Microsoft 選擇"DocumentDB"這個名字很不幸。已經有Amazon DocumentDB(順便説一下,它也與 MongoDB兼容,但 Amazon 可能為此付了錢)、InterSystems DocDB和Yugabyte DocDB。Microsoft 在 2016 年"Cosmos DB"的原名也是DocumentDB。

最後,MongoDB 的法庭文件聲稱他們"……開創了’非關係型’數據庫的發展"。這種説法是錯誤的。第一批通用 DBMS 就是非關係型的,因為關係模型當時還沒被髮明。General Electric 的Integrated Data Store(1964)使用網狀數據模型,IBM 的Information Management System(1966)使用層次數據模型。MongoDB 也不是第一個文檔數據庫。那個頭銜屬於 1980 年代末的面向對象數據庫(如Versant)或 2000 年代的 XML 數據庫(如MarkLogic)。當然,MongoDB 是這些方法中最成功的(除了可能是 IMS)。


文件格式大戰

文件格式是數據系統中過去十年基本處於休眠狀態的領域。2011 年,Meta 發佈了用於 Hadoop 的列式存儲格式RCFile。兩年後,Meta 改進了 RCFile 並宣佈了基於 PAX 的ORC(Optimized Record Columnar File)格式。ORC 發佈一個月後,Twitter 和 Cloudera 發佈了Parquet的第一個版本。近 15 年後,Parquet 是主導的開源文件格式。

2025 年,有五個新的開源文件格式發佈,試圖挑戰 Parquet 的王座:

  • CWIFastLanes
  • CMU + 清華F3
  • SpiralDBVortex
  • 德國人的AnyBlox
  • MicrosoftAmudai

這些新格式加入了 2024 年發佈的其他格式:

  • MetaNimble
  • LanceDBLance
  • IoTDBTsFile

SpiralDB今年動靜最大,宣佈將Vortex 捐贈給 Linux Foundation並建立了多組織指導委員會。Microsoft 在 2025 年底某個時候悄悄砍掉了 Amudai(或至少閉源了)。其他項目(FastLanes、F3、Anyblox)是學術原型。Anyblox 今年獲得了VLDB 最佳論文獎。

這場新競爭點燃了 Parquet 開發者社區現代化其功能的熱情。可以看看 Parquet PMC 主席(Julien Le Dem)對列式文件格式現狀的深入技術分析。

Andy 的看法

Parquet 的主要問題不在於格式本身,規範可以而且已經在演進。沒人期望組織會重寫 PB 級的遺留文件來更新到最新 Parquet 版本。問題在於有太多不同語言的讀寫庫實現,每個都支持規範的不同子集。我們對野生 Parquet 文件的分析發現,94% 的文件只使用了 2013 年 v1 的功能,儘管它們的創建時間戳在 2020 年之後。這種最低公分母意味着,如果有人使用 v2 功能創建 Parquet 文件,不清楚系統是否有正確的版本來讀取它。

我與清華(曾星宇、張煥晨)、CMU(Martin Prammer、Jignesh Patel)和Wes McKinney等傑出人才一起開發了F3文件格式。我們的重點是解決這個互操作性問題,通過提供原生解碼器作為共享對象(Rust crates)和嵌入在文件中的 WASM 版本解碼器。如果有人創建了新的編碼方式而 DBMS 沒有原生實現,它仍然可以通過傳遞 Arrow 緩衝區使用 WASM 版本讀取數據。每個解碼器針對單個列,允許 DBMS 對單個文件混合使用原生和 WASM 解碼器。AnyBlox 採用了不同的方法,生成單個 WASM 程序來解碼整個文件。

我不知道誰會贏得文件格式戰爭。下一場戰役可能是 GPU 支持。SpiralDB 正在做出正確的舉措,但 Parquet 的普及性將是一個難以克服的挑戰。我甚至還沒討論DuckLake如何試圖顛覆 Iceberg…

當然,每當討論這個話題時,總有人會發這張xkcd 競爭標準漫畫。我看過了,不用再發給我了。


雜項動態

數據庫是大生意。讓我們逐一過一遍!

收購

今年的併購很多。Pinecone 在 9 月更換了 CEO以準備被收購,但之後我沒聽到任何消息。以下是已經完成的收購:

DataStax → IBM

Cassandra 的老牌公司在年初被 IBM 收購,估值約30 億美元。

Quickwit → DataDog

Lucene 替代品Tantivy(全文搜索引擎)背後的領先公司在年初被收購。好消息是 Tantivy 開發仍在繼續。

SDF → dbt

這次收購是 dbt 今年Fusion發佈的重要組成部分,使他們能夠在 DAG 中進行更嚴格的 SQL 分析。

Voyage.ai → MongoDB

Mongo 收購了一家早期 AI 公司,以擴展其雲產品中的 RAG 能力。我最好的學生之一在公告前一週加入了 Voyage。他以為沒簽數據庫公司就是背叛"家族",結果還是進了一家。

Neon → Databricks

顯然,這家 PostgreSQL 公司有競標戰,但 Databricks 以令人垂涎的 10 億美元拿下。Neon 今天仍作為獨立服務存在,但 Databricks 很快將其在生態系統中更名為Lakebase。

CrunchyData → Snowflake

你知道 Snowflake 不會讓 Databricks 獨佔夏天的頭條,所以他們花了 2.5 億美元收購了這家 13 年曆史的 PostgreSQL 公司 CrunchyData。Crunchy 近年來招募了頂尖的前 Citus 人才,並在被 Snowflake 收購前擴展其 DBaaS 產品。Snowflake 在 2025 年 12 月宣佈其Postgres服務的公開預覽。

Informatica → Salesforce

1990 年代的老牌 ETL 公司 Informatica 被 Salesforce 以80 億美元收購。這是在他們 1999 年上市、2015 年被 PE 私有化、2021 年再次上市之後。

Couchbase → 私募股權

説實話,我從來沒理解 Couchbase 2021 年是怎麼上市的。我猜是蹭 MongoDB 的熱度?Couchbase 幾年前通過整合UC Irvine AsterixDB 項目的組件做了一些有趣的工作。

Tecton → Databricks

Tecton 為 Databricks 提供了構建 Agent 的額外工具。我的另一個前學生是…

Tobiko Data → Fivetran

這個團隊是兩個實用工具的幕後:SQLMesh和SQLglot。前者是 dbt 唯一可行的開源競爭者(見下文他們與 Fivetran 的合併)。SQLglot 是一個方便的 SQL 解析器/反解析器,支持基於啓發式的查詢優化器。這些工具在 Fivetran 以及 SDF 在 dbt 中的組合,在未來幾年會是這個領域有趣的技術較量。

SingleStore → 私募股權

收購 SingleStore 的 PE 公司(Vector Capital)有管理數據庫公司的經驗。他們之前在 2020 年收購了 XML 數據庫公司 MarkLogic,並在 2023 年賣給了 Progress。

Codership → MariaDB

在 2024 年被 PE 收購後,MariaDB Corporation 今年開始了收購狂潮。首先是 MariaDBGalera Cluster橫向擴展中間件背後的公司。參見我 2023 年關於MariaDB 垃圾場火災的概述。

SkySQL → MariaDB

然後是第二筆 MariaDB 收購。讓大家搞清楚:支持 MariaDB 的原始商業公司在 2010 年叫"SkySQL Corporation",2014 年更名為"MariaDB Corporation"。然後在 2020 年,MariaDB Corporation 發佈了叫 SkySQL 的 MariaDB DBaaS。但因為他們在燒錢,MariaDB Corporation 在 2023 年將 SkySQL Inc.拆分為獨立公司。而現在,2025 年,MariaDB Corporation回購了 SkySQL Inc,繞了一圈。這步棋不在我今年的數據庫賓果卡上。

Crystal DBA → Temporal

自動化數據庫優化工具公司去了 Temporal,自動優化他們的數據庫!很高興聽到 Crystal 創始人、Berkeley 數據庫組校友Johann Schleier-Smith在那裏發展不錯。

HeavyDB → Nvidia

這個系統(前身為 OmniSci,更前身為 MapD)是最早的 GPU 加速數據庫之一,可追溯到 2013 年。除了一家併購公司列出的成功交易外,我找不到他們關閉的官方公告。然後我們與 Nvidia 開會討論潛在的數據庫研究合作,一些 HeavyDB 朋友出現了。

DGraph → Istari Digital

Dgraph 之前在 2023 年被Hypermode 收購。看起來 Istari 只買了 Dgraph 而不是 Hypermode 的其他部分(或者他們拋棄了)。我還沒遇到過任何正在積極使用 Dgraph 的人。

DataChat → Mews

這是最早的"與你的數據庫聊天"系統之一,來自 Wisconsin 大學和現 CMU-DB 教授 Jignesh Patel。但他們被一家歐洲酒店管理 SaaS 收購了。你自己理解這意味着什麼吧。

Datometry → Snowflake

Datometry 多年來一直在解決將遺留 SQL 方言(如 Teradata)自動轉換為較新 OLAP 系統這個棘手問題。Snowflake 收購他們以擴展其遷移工具。更多信息請參見 Datometry 2020 年的CMU-DB 技術講座。

LibreChat → ClickHouse

像 Snowflake 收購 Datometry 一樣,ClickHouse 的這次收購是改善高性能商用 OLAP 引擎開發者體驗的好例子。

Mooncake → Databricks

收購 Neon 後,Databricks 又收購了 Mooncake,使 PostgreSQL 能夠讀寫 Apache Iceberg 數據。更多信息請參見他們 2025 年 11 月的CMU-DB 講座。

Confluent → IBM

這是如何從草根開源項目打造公司的典範。Kafka 最初於 2011 年在 LinkedIn 開發。Confluent 於 2014 年作為獨立創業公司拆分出來。七年後的 2021 年 IPO。然後 IBM 寫了一張大支票接手。和 DataStax 一樣,還需要觀察 IBM 會不會對 Confluent 做 IBM 通常對被收購公司做的事,還是能像 RedHat 那樣保持自治。

Kuzu → ???

來自 Waterloo 大學的嵌入式圖數據庫被一家未具名公司在 2025 年收購。KuzuDB 公司隨後宣佈放棄開源項目。LadybugDB項目是維護 Kuzu 代碼分叉的嘗試。

合併

2025 年 10 月,Fivetran和dbt Labs宣佈合併為一家公司,這是意想不到的消息。

我能想到的數據庫領域上一次合併是 2019 年Cloudera 和 Hortonworks 的合併。但那筆交易就是廚房裏被摻了水的貨:兩家在 Hadoop 市場掙扎求存的公司合併成一家來尋找市場定位(劇透:他們沒找到)。2022 年 MariaDB Corporation 通過SPAC與Angel Pond Holdings Corporation的合併在技術上也算,但那筆交易是為了讓 MariaDB 走後門上市。而且投資者的結局並不好。Fivetran + dbt 合併不同(也更好),他們是兩家互補的技術公司合併成為 ETL 巨頭,為不久的將來正式 IPO 做準備。

融資

除非我漏掉了或者沒有公佈,今年數據庫初創公司的早期融資輪次沒有那麼多。向量數據庫的熱度已經消退,VC 只給 LLM 公司開支票。

  • Databricks-40 億美元 L 輪
  • Databricks-10 億美元 K 輪
  • ClickHouse-3.5 億美元 C 輪
  • Supabase-2 億美元 D 輪
  • Astronomer-9300 萬美元 D 輪
  • Timescale-1.1 億美元 C 輪
  • Tessel-6000 萬美元 B 輪
  • ParadeDB-1200 萬美元 A 輪
  • SpiralDB-2200 萬美元 A 輪
  • CedarDB-590 萬美元種子輪
  • TopK-550 萬美元種子輪
  • Columnar-400 萬美元種子輪
  • SereneDB-210 萬美元 Pre-Seed
  • Starburst-金額未公佈

改名

我年度總結中的新類別:數據庫公司改名。

HarperDB → Harper

這家 JSON 數據庫公司去掉了名字中的"DB"後綴,以強調其作為數據庫支持應用平台的定位,類似於 Convex 和 Heroku。我喜歡 Harper 的人。他們 2021 年的 CMU-DB 技術講座展示了我聽過的最糟糕的DBMS 想法。好在他們意識到這有多糟糕後就放棄了,轉向了 LMDB。

EdgeDB → Gel

這是個明智之舉,因為"Edge"這個名字讓人以為是邊緣設備或服務的數據庫(如Fly.io)。但我不確定"Gel"能傳達項目的更高層次目標。可以看看 CMU 校友關於Gel 查詢語言(仍叫 EdgeQL)的 2025 年講座。

Timescale → TigerData

這是數據庫公司將自己重命名以區別於其主要數據庫產品的罕見案例。通常是公司把自己重命名為數據庫的名字(如"Relational Software, Inc.“改為"Oracle Systems Corporation”,“10gen, Inc.“改為"MongoDB, Inc.")。但對公司來説,試圖擺脱被視為專業時序數據庫的印象,轉而被看作通用應用的增強版 PostgreSQL 是有意義的,因為後者的市場規模要大得多。

死亡

完全披露:我曾是其中兩家失敗創業公司的技術顧問。到目前為止,我作為顧問的成功率很糟糕。我也是Splice Machine的顧問,但他們 2021 年就關門了。在我辯護一下:我只和這些公司討論技術想法,不是商業策略。我確實告訴過 Fauna 他們應該添加 SQL 支持,但他們沒采納我的建議。

Fauna

一個有趣的分佈式 DBMS,基於Dan Abadi關於確定性併發控制的研究。他們在 NoSQL 潮流退去、Spanner 讓事務再次酷起來的時候提供了強一致性事務。但他們有專有查詢語言,還在 GraphQL 上下了大賭注。

PostgresML

這個想法看起來很明顯:讓人們在 PostgreSQL DBMS 內部運行 ML/AI 操作。挑戰在於説服人們把現有數據庫遷移到他們的託管平台。他們推廣pgCat作為鏡像數據庫流量的代理。其中一位聯合創始人加入了 Anthropic。另一位聯合創始人創建了新的代理項目pgDog。

Derby

這是最早用 Java 編寫的 DBMS 之一,可追溯到 1997 年(最初叫"Java DB"或"JBMS”)。IBM 在 2000 年代將其捐贈給 Apache Foundation,並更名為 Derby。2025 年 10 月,項目宣佈系統將進入"只讀模式”,因為沒人再積極維護了。

Hydra

雖然這家 DuckDB-inside-Postgres 創業公司沒有官方公告,但聯合創始人和員工已經分散到其他公司了。

MyScaleDB

這是 ClickHouse 的一個分叉,添加了使用 Tantivy 的向量搜索和全文索引。他們在 2025 年 5 月宣佈關閉。

Voltron Data

這本應該是數據庫公司的超級組合。想象一下Run the Jewels級別的重量級陣容。你有來自 Nvidia Rapids 的頂尖工程師、Apache Arrow 和 Python Pandas 的發明者,以及來自BlazingSQL的秘魯 GPU 奇才。再加上來自頂級公司的1.1 億美元 VC 資金,其中包括未來的 Intel CEO(也是卡內基梅隆大學董事會成員)。他們構建了一個 GPU 加速數據庫(Theseus),但未能及時推出。

最後,雖然不是商業公司,但我不得不提一下IBM Research Almaden的關閉。IBM 於 1986 年建造了這個園區,幾十年來一直是數據庫研究的聖地。我2013 年在 Almaden 面試時,發現那裏的風景很美。IBM Research 數據庫組已不是當年的樣子了。但這片神聖的數據庫土地的校友名單令人印象深刻:Rakesh Agrawal、Donald Chamberlin、Ronald Fagin、Laura Haas、Mohan、Pat Selinger、Moshe Vardi、Jennifer Widom和Guy Lohman。

Andy 的看法

有人聲稱我根據支持公司籌集的資金多少來判斷數據庫的質量。這顯然不對。我追蹤這些動態是因為數據庫研究領域競爭激烈、能量充沛。我不僅要與其他大學的學者"競爭",大科技公司和小型創業公司也在推出我需要關注的有趣系統。除了 Microsoft Research 仍在積極招聘頂尖人才並做出令人難以置信的工作外,行業研究實驗室已不是當年的樣子了。

我在 2022 年預測2025 年會有大量數據庫公司倒閉。是的,今年的倒閉比往年多,但規模沒有我預期的那麼大。

Voltron 的死亡和 HEAVY 的類似收購整合似乎延續了 GPU 加速數據庫不可行的趨勢。Kinetica多年來一直在榨取那些政府合同,Sqream似乎仍然活着。這些公司仍然是小眾的,沒有人能夠在 CPU 驅動的 DBMS 的主導地位上取得重大突破。我不能説是誰或什麼,但你會在 2026 年聽到廠商的一些重大 GPU 加速數據庫公告。這也進一步證明了 OLAP 引擎的商品化:現代系統在低級操作(掃描、連接)上已經變得如此之快,以至於它們之間的性能差異可以忽略不計,所以區分一個系統和另一個系統的是用户體驗和優化器生成的查詢計劃質量。

私募股權(PE)公司收購 Couchbase 和 SingleStore 可能預示着數據庫行業的未來趨勢。當然,PE 收購以前也發生過,但它們似乎都是近期的:(1) 2020 年的MarkLogic,(2) 2021 年的Cloudera,(3) 2023 年的MariaDB。2020 年之前我只能找到 2007 年的SolidDB和 2015 年的Informatica。PE 收購可能會取代停滯不前的數據庫公司被控股公司收購、榨取維護費直到永遠的趨勢(Actian、Rocket)。甚至 Oracle 在 30 年前收購RDB/VMS後仍在從中賺錢!

最後,向Nikita Shamgunov致敬。據我所知,他是唯一一個聯合創立的兩家數據庫公司(SingleStore和Neon)都在同一年被收購的人。就像 DMX(RIP)在同一年發行了兩張冠軍專輯(It’s Dark and Hell Is Hot、Flesh of My Flesh)一樣,我認為短期內不會有人打破 Nikita 的記錄。


巔峯男性的極致表現

對數據庫界 OG(元老)Larry Ellison 來説,這是輝煌的一年。這位 81 歲的老人在一年內取得的成就比大多數人一輩子都多。我按時間順序一一道來。

Larry 年初時是全球第三富有的人。比 Mark Zuckerberg 身價低這件事讓他夜不能寐。有人説 Larry 失眠是因為他買了一家著名的英國酒吧後改變了飲食,吃了更多的派。但我向你保證,Larry 30 年來的"素食海鮮“飲食沒有改變。然後在 2025 年 4 月,消息傳來:Larry 成為了全球第二富有的人。他睡得好了一點,但還是不夠。他生活中還有很多事讓他壓力很大。比如,Larry 終於決定出售他那輛稀有的、半合法上路的McLaren F1 超級跑車,附帶手套箱裏的原始車主手冊。

2025 年 7 月,Larry 發佈了他 13 年來的第三條推文(Larry 愛好者如我稱之為”#3")。這是關於 Larry 在牛津大學附近建立的Ellison Institute of Technology(EIT)的更新。從名字 EIT 及其與牛津的關聯來看,它聽起來像是一個純粹的研究性非營利機構,類似於斯坦福的SRI或 CMU 的SEI。但事實證明,它是一系列由加州有限責任公司持有的營利性公司的傘形組織。當然,一羣怪人回覆 #3,承諾區塊鏈驅動的冷凍保存或室温超導體。Larry 告訴我他忽略那些。還有像這位仁兄才是懂的。

年度(可能是世紀)最大的數據庫新聞在 2025 年 9 月 10 日星期三下午約 3:00(美東時間)降臨。在等待了幾十年之後,Larry Joseph Ellison 終於加冕為全球首富。$ORCL當天上午股價上漲 40%,由於 Larry 仍持有公司 40% 的股份,他的估計總身價達到3930 億美元。從這個角度來看,這不僅使他成為世界上最富有的人,也是人類歷史上最富有的人。John D. Rockefeller和Andrew Carnegie(是的,CMU 的那個"C")經通脹調整後的峯值淨資產分別只有3400 億美元和3100 億美元。

在 Larry 登頂世界之巔的同時,Oracle 還參與了收購控制 TikTok 的美國公司的交易,Larry 還資助 Paramount(由他第四次婚姻的兒子控制)競標收購華納兄弟。美國總統甚至敦促 Larry控制 CNN 新聞部門,因為 Larry 是 Paramount 的大股東。

Andy 的看法

我都不知道從哪裏開始。當然,當我得知 Larry Ellison 成為世界首富,而且全靠數據庫,我深受鼓舞,終於有好事發生在我們生活中了。我不在乎 Oracle 的股票是被大肆宣傳的 AI 數據中心交易而不是傳統軟件業務人為抬高的。我不在乎他在兩個月內個人損失了 1300 億美元后排名下滑。這就像你我把一個月工資全砸在 FortuneCoins 上。有點疼,我們不得不吃兩週混着從 Taco Bell 順來的過期辣醬包的米飯和豆子,但我們會沒事的。

有人聲稱 Larry與普通人脱節。或者説他迷失了方向,因為他參與了與數據庫不直接相關的事情。他們指出他的夏威夷機器人農場以 24 美元/磅的價格出售生菜(41 歐元/公斤)。或者 81 歲的人不會有天然金髮。

事實是,Larry Ellison 已經征服了企業數據庫世界、競技帆船和科技兄弟養生水療。顯而易見的下一步是接管一個每天有成千上萬人在機場等候時觀看的有線電視頻道。每次我和 Larry 交流,他都明確表示他一點也不在乎別人怎麼説或怎麼想他。他知道他的粉絲愛他。他(新)妻子愛他。歸根結底,這才是最重要的。


結語

在結束之前,我想簡單致敬幾位。首先是 PT,在監獄裏用 Turso保持數據庫技術的精進(出來再見)。向 JT 表示慰問,因為私藏KevoDB數據庫小三而丟了工作。我和我的博士生們也有一個新的創業公司。希望很快能分享更多。一言為定。


原文鏈接:https://www.cs.cmu.edu/~pavlo/blog/2026/01/2025-databases-retrospective.html

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.