在今年雲棲大會上,EMR Serverless Stella 1.0正式發佈,這是一款面向企業級場景深度優化的高性能數據分析引擎。阿里雲開源大數據平台OLAP引擎負責人周康系統性地分享了 Stella 在存算分離架構、Lakehouse 場景以及全文檢索等三大核心場景下的深度優化經驗,為業界提供了大規模 OLAP 系統工程化實踐的寶貴參考。Stella引擎的發佈將為企業級用户提供更加專業、高效的OLAP解決方案。


站在巨人肩膀上:與 StarRocks 開源社區的深度合作

阿里雲與StarRocks開源社區的合作可以追溯到2021年,從開源第一天起就建立了深度合作關係。在過去四年中,雙方在源碼共創、產品發佈和技術優化方面積累了豐富的經驗。

合作歷程回顧:

  • 2021年:開啓源碼共創,重點推動數據湖分析相關框架和性能優化
  • 2022年3月:推出EMR半托管StarRocks形態
  • 2023年:響應市場需求,推出全託管產品形態
  • 2024年:正式商業化存算分離版本

隨着產品的成熟,阿里雲EMR已積累數百家B端企業客户。“我們始終站在巨人的肩膀上,”阿里雲開源大數據平台OLAP引擎負責人周康表示,“Stella 所有功能和優化都會逐步回饋給社區,同時確保API層面與開源版本完全兼容。”

EMR Serverless Stella 1.0 技術分享:StarRocks企業級版本內核重大突破_Lakehouse

Lakehouse 成為業界共識:Stella 應運而生

2024年,阿里雲正式發佈 OpenLake 方案,標誌着 Lakehouse 架構在數據基礎設施領域的全面落地:

EMR Serverless Stella 1.0 技術分享:StarRocks企業級版本內核重大突破_Stella_02

2024雲棲大會重磅發佈OpenLake解決方案,StarRocks 為 OLAP場景核心組件

伴隨這一趨勢,Lakehouse(數據湖倉一體)已成為國內外頭部公司的業界共識:

EMR Serverless Stella 1.0 技術分享:StarRocks企業級版本內核重大突破_阿里雲_03

海外Lakehouse發展趨勢  Snowflake/Databricks/BigQuery + Iceberg/Delta/Hudi

阿里雲推出了 OpenLake 一體化湖倉解決方案,StarRocks 在其中擔任核心 OLAP 引擎角色。然而,在大規模生產環境中,StarRocks 在存算分離架構和湖表查詢方面仍有優化空間。Stella 項目正是為了應對這些挑戰而生。通過在調度、查詢優化、執行引擎和存儲引擎四個層面的全面改進,Stella 1.0 針對幾十 TB 甚至 PB 級數據場景,解決了事務機制、Compaction 效率、查詢性能、元數據管理等一系列生產環境痛點。


Stella 1.0 三大核心場景突破

EMR Serverless Stella 1.0版本於今年5月正式發佈,主要聚焦三大核心技術能力的重大突破:

一、存算分離:性能和穩定性大幅提升

Stella 1.0 在存算分離架構下實現了三大突破:

1. 冷查性能大幅提升

  • 實現 IO 合併,減少對象存儲訪問次數
  • 優化 Compaction 調度器,大幅減少小文件數量 
  • 針對輕量級 ETL 場景優化負載調度

2. 寫入性能保障

  • 開發 Batch Publish 能力,解決串行化導入瓶頸 
  • 推出 Collocated PK Index,避免緩存盤和索引盤互相影響 
  • 優化 FE 側 Tablet 創建刪除效率

3. 緩存利用率優化

  • 引入 Index Cache 和 Meta Data Cache,提升元數據訪問速度 
  • 實現自適應 IO Stream,智能選擇本地緩存或遠端訪問 
  • 針對 ETL 場景優化空間利用

在TPC-H 10T基準測試中,存算分離版本的Stella相比上一版本**性能提升超過120%**,充分展現了雲原生架構的技術優勢。

EMR Serverless Stella 1.0 技術分享:StarRocks企業級版本內核重大突破_StarRocks_04

二、Paimon 湖表查詢:Co-design 驅動性能飛躍

Stella 1.0在Paimon表分析方面,重點聚焦在三個方向的提升:

1. 數據讀寫效率提升 

  • 實現自適應 Batch Size 優化 
  • 支持Native Paimon Writer,性能大幅提升

2. 元數據訪問優化 

  • 針對 Manifest 數量眾多場景,實現分佈式解析能力 
  • 適配異步 Splits 調度框架 
  • 優化 Manifest Cache 策略

3. 深度集成阿里雲 DLF 2.x 

  • 與 Data Lake Formation 產品深度整合 
  • 藉助 DLF 能力提升 Paimon 查詢和寫入的性能與穩定性 
  • 針對DV表實現Native讀取優化

Stella在Lakehouse場景下查詢Paimon下性能的提升非常明顯:

EMR Serverless Stella 1.0 技術分享:StarRocks企業級版本內核重大突破_OLAP_05

雖然 Flink + Paimon 已成為成熟的實時入湖方案,但計算引擎與 Paimon 存儲的查詢優化結合仍有巨大提升空間。Stella 與 Paimon 將在多個方便持續進行Co-Design,更多優化成果將在後續版本中發佈。


三、全文檢索:打造高性能、高可用的文本分析能力

Stella 1.0 正式推出全文檢索能力,支持高效、精準的文本查詢。

  • 架構重構:對 Inverted Index(倒排索引) 整體解決方案進行架構優化
  • 存算分離主鍵表支持:新增主鍵表全文檢索能力,實現高效精準的查詢能力
  • 小文件合併:解決存算分離架構下的“性能殺手”問題(單個 Segment 產生十幾個小文件)

EMR Serverless Stella 1.0 技術分享:StarRocks企業級版本內核重大突破_Stella_06

文本過濾性能benchmark: Stella vs EMR StarRocks 3.3

目前,全文檢索功能已在阿里集團內部和雲上客户中投入使用,所有優化代碼已通過 PR 提交至 StarRocks 開源社區。


技術創新路線圖持續演進

面向未來,Stella引擎制定了清晰的技術發展路線圖,在四個關鍵領域持續深耕:

  • 邁向Stella 2.0時代:輕量 ETL Production Ready
    全面強化輕量級 ETL 能力,打通從數據接入、轉換到分析的端到端鏈路,使用户無需依賴外部調度系統即可高效完成日常數據加工任務,真正實現“開箱即用、生產就緒”。
  • Lake Optimizer:湖表性能全面對齊甚至超越內表
    推出專為開放數據湖設計的 Lake Optimizer,顯著提升 Apache Paimon 等湖表格式的查詢性能,讓湖表在複雜分析場景中媲美甚至超越傳統內表體驗。
  • 智能化 Background Job Service:徹底釋放用户運維負擔
    針對企業用户長期面臨的內表運維複雜、資源爭搶等問題,Stella 將推出智能化後台作業服務,自動處理 compaction、索引構建、統計信息收集等任務,實現高智能化的自治運維,大幅提升系統穩定性與資源效率。
  • 全文檢索與向量檢索能力持續提升
    在已有的高性能 OLAP 基礎上,進一步融合全文檢索與向量檢索能力,支持非結構化與多模態數據的統一分析,為 AI 原生應用、智能搜索等新興場景提供底層引擎支撐。

這四大方向不僅體現了 Stella 對 Lakehouse 架構的深度適配,更彰顯了其從“高性能分析引擎”向“智能數據平台核心引擎”演進的戰略決心。隨着這些能力的逐步落地,Stella 將為企業用户提供更開放、更智能、更易用的下一代實時分析體驗。


技術探索與社區協作深度融合

Stella引擎在技術架構探索方面持續深化與開源社區的合作:

Lakehouse架構能力的持續拓展體現了Stella引擎的前瞻性設計理念。在現有Lakehouse架構基礎上,系統將支持更多檢索功能,為企業的多元化分析需求提供全面支持。向量搜索技術是與Apache Paimon深度集成的創新探索,在AI和大數據時代,向量搜索能力將成為差異化的技術優勢。


開源社區貢獻亮點

  • JSON等半結構化數據處理能力持續增強,推動整個生態發展
  • 大規模場景技術實踐經驗分享,為社區貢獻寶貴技術智慧
  • 與Apache Paimon團隊深度技術合作,確保生態整合持續優化
  • 所有優化方案回饋開源社區,推動開源生態系統發展進步

開源社區的深度貢獻體現了Stella團隊的技術責任感和開放合作精神。JSON等半結構化數據處理能力的持續增強將推動整個生態的發展,為企業在數字化轉型過程中處理多樣化數據提供更強支持。大規模場景下的技術實踐經驗分享不僅展示技術實力,更為社區貢獻了寶貴的技術智慧。

“我們不僅要在雲上提供增值服務,更要推動整個開源生態的發展,”周康強調,“通過深度參與開源社區,確保所有用户都能從技術進步中受益。”

技術意義與未來規劃

EMR Serverless Stella 1.0的發佈標誌着阿里雲在湖倉一體技術領域達到新的里程碑,為用户提供從數倉加速、湖倉查詢到全文檢索的全方位OLAP能力支持。該版本不僅解決了企業在實際生產環境中遇到的關鍵技術挑戰,更通過持續的技術創新和社區貢獻,推動了整個StarRocks生態系統的發展。

未來,Stella將繼續圍繞Lakehouse架構演進,在緩存調度、查詢優化、存儲引擎和寫入能力等核心領域持續創新,為企業數字化轉型提供更加強勁的技術引擎。