從“開源開放”走向“高效智能”：阿里雲 EMR 年度重磅發佈详情 - 阿里雲,spark,starrocks 阿里雲大數據AI 日志

EMR 發展歷程回顧

自 2016 年首次發佈以來，阿里雲 EMR 始終以開源生態為基石，逐步構建起覆蓋 Hadoop、Hive、Spark、StarRocks 等主流開源計算和存儲引擎的公有云大數據平台。九年間，EMR 產品技術不僅支撐了阿里巴巴集團內部如淘寶閃購、A+等核心業務的海量數據處理需求，也服務了互聯網、金融、零售、製造等眾多行業的公有云客户。從最初的開源組件版本和服務管控，到如今面向湖倉一體、實時智能場景的企業級數據平台，EMR 的演進軌跡，本質上是在“開源開放”的基礎上向“高效智能”的持續躍遷。

AI 時代對大數據處理系統的新挑戰

隨着大模型和生成式 AI 的普及，數據系統的邊界正在被重新定義。用户不再滿足於編寫 SQL 或配置作業，而是期望通過自然語言直接表達分析意圖；系統也不再僅處理結構化表格，還需融合流數據、文本、向量、半結構化日誌等多模態信息。更重要的是，傳統的批處理、OLAP、機器學習、全文檢索等能力，正被要求在一個統一平台內協同工作。這種融合趨勢對底層架構提出了更高要求：既要極致性能，又要高度自治；既要開放兼容，又要開箱即用。而當前的大數據系統在存算分離架構下面臨的元數據風暴、串行 I/O、低效讀取等問題，已成為制約 AI 時代數據價值釋放的關鍵瓶頸。

高效：開箱即用，極致性能

面對上述挑戰，EMR 將“高效”作為核心突破方向。我們對 EMR on ECS 產品的 I/O 路徑進行了全鏈路優化，重點解決存算分離架構下的三大性能瓶頸。針對元數據風暴問題，通過批量併發處理機制，將元數據獲取時間從分鐘級降至秒級；針對計算與 I/O 串行等待，引入向量化異步預取和動態自適應預讀策略，使計算與數據加載並行執行；針對小文件和離散列讀帶來的零散 I/O，實現請求合併與並行預打開，顯著提升吞吐能力。實測表明，TPC-DS 1TB 查詢開箱性能提升 40%，小文件密集型場景算力節省高達 90%，真正實現“開箱即用”的高性能體驗。

在此基礎上，Stella——阿里雲自研的企業級 StarRocks 內核正式發佈。Stella 深度協同 DLF 與 Paimon，全面優化湖倉讀寫路徑，內表與湖表查詢性能均提升 100%，DV 表查詢性能更是提升 300%。在淘寶閃購業務中，系統支撐萬級 QPS，查詢耗時減少 80%；阿里愛橙業務整體性能提升 150%。尤為突出的是，EMR Serverless StarRocks 憑藉 Stella 內核登頂 TPC-H 10TB 世界性能榜單，相較第二名性能提升 111%，性價比提升 90%，數據加載效率提升 6200%。

與此同時，Fusion ——企業級 Spark 內核也完成 2.0 版本重大升級。其向量化算子與表達式覆蓋率達 100%，JSON 解析性能提升 78%，Paimon 讀寫性能翻倍，數據傾斜場景性能提升 10 倍。在 TPC-DS 10TB 測試中，性能領先開源 Spark 高達 500%。更進一步，EMR Serverless Spark 憑藉 Fusion 2.0 登頂 TPC-DS 100TB 世界榜單，相較 Databricks 2021 年紀錄，性能提升 100%，性價比提升 500%，充分驗證了其在超大規模數據湖分析中的領先優勢。

智能：AI 升級，高度自治

如果説“高效”解決了性能問題，那麼“智能”則致力於降低使用門檻。EMR AI 助手正式進入公測階段，旨在通過自然語言交互簡化運維與分析流程。用户可直接提問“集羣為什麼變慢了？”或“今天凌晨三點的彈性擴容為什麼出現了部分失敗的情況”，系統將自動分析日誌、指標與執行計劃，提供精準診斷與修復建議。該助手覆蓋EMR on ECS 集羣組件異常、資源瓶頸、集羣性能等常見問題，支持 7×24 小時自助服務，大幅減少對專業運維人員的依賴。

EMR Serverless StarRocks 智能平台也同步升級，集成健康診斷、業務洞察、事件通知與 AI 中心四大模塊。平台不僅提供集羣維度的 T+1 全局健康評估，還能實時定位問題組件並給出優化建議；SQL 診斷功能可生成詳細 Profiling 報告，輔助用户理解執行瓶頸；業務洞察則將查詢延遲、緩存效率等技術指標與業務結果關聯，幫助用户量化數據對實際業務的影響。

EMR AI Function：讓 SQL 擁抱大模型

為打通數據分析與 AI 能力的最後一公里，EMR Serverless StarRocks 與 Spark 同步啓動 AI Function 邀測。用户可在 SQL 中直接調用大模型函數，實現情感分析、敏感信息脱敏、文本摘要、語言翻譯、工單分類等常見任務。

例如，SELECT ai_mask('John Doe lives in New York. His email is john.doe@example.com.', ['person', 'email']) 可自動返回脱敏結果。這些函數默認集成阿里雲百鍊通用模型，也支持用户接入自定義模型，靈活適配不同場景需求。

EMR Serverless Spark 還全面支持 GPU 調度，實現作業級 GPU 資源分配、AI Function 本地推理、Spark ML（如 XGBoost、LightGBM）與 Spark SQL 的 GPU 加速，並支持對接百鍊、PAI EAS 或本地 GPU 模型服務，構建端到端的 AI 數據處理閉環。

阿里雲大數據AI 日志

@elhix0bg

标签

人工智能 (486)

Python (289)

深度學習 (133)

機器學習 (105)

大數據 (96)

SQL (72)

數據分析 (68)

阿里雲 (65)

雲計算 (56)

雲原生 (50)

elasticsearch (48)

分佈式 (36)

动态

從“開源開放”走向“高效智能”：阿里雲 EMR 年度重磅發佈 - 动态详情

EMR 發展歷程回顧

AI 時代對大數據處理系統的新挑戰

高效：開箱即用，極致性能

智能：AI 升級，高度自治

EMR AI Function：讓 SQL 擁抱大模型

Add a new 评论

阿里雲大數據AI 日志

@elhix0bg

标签

人工智能 (486)

Python (289)

深度學習 (133)

機器學習 (105)

大數據 (96)

SQL (72)

數據分析 (68)

阿里雲 (65)

雲計算 (56)

雲原生 (50)

elasticsearch (48)

分佈式 (36)

动态

從“開源開放”走向“高效智能”：阿里雲 EMR 年度重磅發佈 - 动态 详情

EMR 發展歷程回顧

AI 時代對大數據處理系統的新挑戰

高效：開箱即用，極致性能

智能：AI 升級，高度自治

EMR AI Function：讓 SQL 擁抱大模型

Add a new 评论

從“開源開放”走向“高效智能”：阿里雲 EMR 年度重磅發佈 - 动态详情