动态

详情 返回 返回

雲棲實錄 | 實時計算 Flink 全新升級 - 全棧流處理平台助力實時智能 - 动态 详情

本文根據 2025 雲棲大會演講整理而成,演講信息如下

演講人:
黃鵬程 阿里雲智能集團計算平台事業部實時計算Flink版產品負責人

引言

在數據驅動的時代,實時數據處理已成為企業數字化轉型的核心能力。阿里雲實時計算 Flink 版用了十年時間來進行產品發展,從技術引進到自主創新,已成為實時數據處理的行業標杆。在這次雲棲大會上,阿里雲發佈了實時計算 Flink 的全新升級,不僅在計算和存儲層面實現重大突破,更在 AI 時代開闢了實時智能的新篇章。

今天我的演講主要分為四個部分:首先簡單回顧一下產品發展和現在的情況,然後專門講一下這次雲棲大會我們在計算、存儲方面的全面升級和創新演進,接着談談在 AI 時代如何通過實時和 AI 的結合,讓數據更加準確、推理更加快速,獲得更新鮮的洞察,最後是產品發展的展望。

十年磨一劍:阿里雲實時計算 Flink 版的成長之路

阿里雲實時計算 Flink 的發展歷程經歷了十年的磨礪,可以分為四個關鍵發展階段。
image.png

內部技術應用

在早期的內部技術應用階段,我們首先在阿里巴巴集團內部廣泛採用了當時的 Flink 技術。當時我們還專門改過一個版本叫 Blink,瞭解這個產品的朋友應該都知道這段歷史。阿里巴巴首次在生產環境大規模部署 Apache Flink,內部上線了集團最核心的業務場景,開始了實時計算的內部大規模落地。

外部戰略佈局

到了2016年到2018年左右,我們進入了外部戰略佈局階段。我們收購了之前 Apache Flink 的原廠,當時叫 Data Artisans,現在叫 Ververica。通過把中德兩邊的團隊合併,我們把 Blink 貢獻給社區,同時作為社區的主導者,一起推動開源社區的發展以及雲產品的發展。我們也把 Flink Forward 大會帶入了中國。

雲上服務亮相

在2020年左右,我們的雲上服務正式亮相。2020年推出了實時計算 Flink 版,採用 Serverless 架構升級,實現了彈性計算與成本優化,Flink 成為實時流計算的標準。2021年我們通過了中國信通院的三個評測,包括基礎能力、性能、穩定性三項評測,成為完全國產自主可控,中國唯一進入 Forrester 象限的實時流計算產品。

蓬勃加速發展

到了2024年2025年,我們就更加蓬勃發展了。我們向海外的多雲發展,有了更大的影響力。我們把 Flink Forward Asia 大會開到了除中國大陸地區以外的印尼、新加坡這些地方,標誌着 Flink 社區在亞洲地區的深度影響力。同時 Ververica 產品登陸其他雲平台,開啓了多雲產品的新時代。
image.png

從產品現狀來看,阿里雲實時計算 Flink 版採用了兩層架構設計。首先是企業級增強引擎 Flash,這是位置偏下的核心部分,這個自研的向量化引擎在 Nexmark 標準測試中性能是開源 Flink 的 3-4倍,同時提供了自研存儲後端優化、SQL 算子優化等能力。企業級能力包括數據攝入、動態的 CEP、彈性擴縮容等功能,重要的是 100% 兼容 Apache Flink 內核,用户從開源版遷移過來也不用修改代碼。

第二層是作業開發和運行平台,這就是大家看到的那個 Console 管控平台頁面,包含了整個的資源管理、作業的全生命週期管理(從開發、運維、調優到診斷)、Open API、監控告警等可觀測性,以及調優診斷功能。左右兩邊是我們的生態系統,包含了我們可以從哪裏讀數據,然後可以把數據寫到哪裏。

產品現狀體現出四大核心優勢。首先是一站式實時任務開發運維平台,這是一個全託管的 Serverless 平台,用户完全不用管下面的集羣,提供實時任務開發、調試、部署、管理、診斷調優全流程服務,計費模式靈活支持包年包月或按量付費與混合計費。
image.png
其次是 Serverless 架構,用户以 CU (Compute Unit,即計算資源)為單位進行相關的資源擴縮容,無需預置資源,按需彈性擴縮容,能夠降低資源使用成本達30%以上。用户支持動態擴縮容,秒級彈性增減作業資源,保證業務連續性,用户不用為擴展 CU 時的作業重啓而擔心,作業級別的資源隔離保證業務穩定性。

第三是企業級內核能力,為用户提供極致的性能和豐富的功能。實時計算 Flink 版 100% 兼容 Apache Flink,支持用户平滑遷移,在性能方面 Nexmark 流計算標準測試性能是開源 Flink 的 3-4倍,企業級增強功能能夠構建入湖入倉、實時數倉數據湖、CEP動態規則配置等更多業務場景。

最後是全面可觀測性,具備高穩定性、高可用的特點,提供豐富的作業監控指標、日誌洞察,智能調優與診斷功能,支持同城災備,全局高可用,故障自動恢復,提供產品級同城災備能力,99.9%服務可用性保障,能夠給企業級實時業務賦能。

全面升級:計算與存儲的創新演進

實時計算 Flink 版這次雲棲大會的發佈一共分了兩個部分:計算和存儲的全面升級。

計算升級:增量計算技術革新

Flink 從流計算起家,後來也開始慢慢做批計算,我們也提出了流批一體的概念。現在用户在更精細化的場景下,希望在一定的時效性和一定成本之間取得比較完美的平衡。

傳統的流計算和批計算各有優劣。流計算能夠提供秒級時效性,但成本較高;批計算成本較低,但時效性差,通常是小時級或天級。用户在精細化場景下,需要在時效性和成本之間找到完美平衡。阿里雲實時計算 Flink 版推出的增量計算技術,正是為了解決這一痛點。
image.png

增量計算的核心思想是是通過 Epoch(微批次) 將連續的數據流劃分為有限的數據集合,每個 Epoch 由框架定時觸發,並通過 Epoch Marker 標識邊界。該方案引入 DamStage 作為執行計劃的最小並行單元,由“只進不出”的 Dam 算子(如聚合、連接等)構成,確保數據處理僅在 Epoch 邊界處向下遊輸出。方案通過 AutoPilot 自動調優機制,根據業務對數據新鮮度(Freshness)的要求和dataLag (統計數據從在作業上游創建,到被作業處理完成下游可見的延遲),動態計算 Epoch 大小並調度資源。
image.png

根據阿里雲公有云實際統計數據,增量計算在性能方面表現優異。在聚合計算方面,分鐘級、十分鐘級的增量計算與秒級(Record by Record)處理相比,吞吐能夠提升10倍左右。在 Join(關聯計算)方面,吞吐能夠提升15倍左右。增量計算能夠在用户的成本和一定時效性上取得比較好的平衡。如果業務不需要秒級,但希望比天級或半天級都要好,增量計算是很好的選擇。在分鐘級的時候,增量計算已經很好地優於流計算。

傳統的 Lambda 架構存在批處理和流處理割裂的問題,有批處理作業和實時作業,存儲、計算都是割裂的。阿里雲推出的 UniFlow 統一計算架構通過 Materialized Table 概念,實現了流批一體。通過聲明式語法把秒級、分鐘級以及天級的計算統一到一起,用户只用調整 Freshness,就能得到不同新鮮度的數據。這個架構基於 Apache Paimon 湖存儲,使用 Flink CDC 做數據接入。整體架構更加統一、優雅,成本、效率和正確性都能得到很好的平衡和保證。開發人員不再需要人工手動選擇,而是基於業務時效性自動推導,實現了數據計算全場景覆蓋秒級、分鐘級、小時級。

存儲升級:Fluss 流存儲創新

傳統 Flink + Kafka 架構在實時計算場景下存在諸多限制。傳統 Kafka 存在 IO 開銷大的問題,如果 Record 是 JSON 格式有100列,Flink 處理時需要把所有 Record 都消費出來,即使只用其中10列,這就造成了很大的浪費。同時伸縮性差,Kafka 的伸縮性與實時計算伸縮性完全獨立,很難做統一伸縮。在延遲方面,基於 Kafka 一般是分鐘級,做秒級運維成本很高,異常概率高。架構也比較複雜,流存儲和湖存儲割裂,運維複雜。
image.png

流存儲 Fluss 版是阿里雲推出的面向實時流的、面向湖流一體的流存儲,計劃今年開始全網公測(目前邀測階段),其背後的開源項目 Apache Fluss (incubating) 現已在 Apache 社區孵化。這個產品專門面向過去 Flink + Kafka 客户場景,解決 Kafka 架構限制導致的實時方面開銷和能力不足。
image.png
Fluss 解決方案具有四大核心優勢。首先是流查詢下推和裁剪,Fluss 支持直接只取需要的部分數據,不需要全部取過來,基於 Apache Arrow 列存儲,支持列裁剪、分區下推、條件下推、聚合下推,大幅降低 IO 成本,實現10倍性能提升,整體 IO 成本和性能顯著優化。

其次是全託管伸縮性,Fluss 面向流設計,可以與 Flink 計算做更好的伸縮性配合。與 Flink 計算引擎協同伸縮,採用 Serverless 架構,自動資源部署、運維、監控,根據業務負載自動調整資源。

第三是秒級數據延遲,流存儲 Fluss 版採用雲原生架構,設計之初就考慮穩定性和低延遲性,能做到秒級。支持更新和 binlog 訂閲,數據寫入即可見,端到端秒級完成,相比傳統方案異常概率更低,運維成本更低。

最後是湖倉一體能力,數據先流入本地盤(Fluss 集羣),再通過 Tiered Storage 以 Paimon 格式流到湖存儲。以 Paimon 格式存儲,支持多種分析引擎,內置湖流通道服務,流存儲數據通過文件到文件轉換高效入湖,元數據變化自動同步,一份數據,流存儲保留 1 小時內數據即可,其餘數據可歸檔到數據湖中,從而簡化鏈路,開發運維成本更低。Serverless Spark、StarRocks、Flink 都可以做進一步分析,提供統一的數倉搭建能力,降低用户複雜度。

Flink + Fluss 組合形成了高性能低成本的流處理方案。除了前面提到的優勢外,還有實時寬表新方案。支持部分列更新,且更新後仍能生成 binlog,支持基於主鍵的多流實時拼接,即獨有 delta join 能力(注:阿里雲上實時計算 Flink 版+流存儲 Fluss 版現已支持 Delta join,無需依賴 Apache Flink 2.1),避免大狀態造成 Flink 作業高成本和穩定性問題。淘天集團應用 Flink+Fluss 方案後,成功減免 100TB+  的大狀態作業,CU 降低86%,CP 耗時從90秒降低到1秒。
image.png
通過計算存儲的全面融合,實時計算 Flink 版產品全新升級為一站式流處理平台。產品集成了 Flink CDC 數據攝入、Flink 數據實時讀取、流存儲 Fluss、湖流一體等能力。在控制枱層面提供作業開發、監控告警、集羣管理、數據治理、調試部署、診斷調優、作業管理、OpenAPI 等功能。引擎層面包括流計算流存儲引擎,支持數據攝入、動態擴縮容、大模型調用、數據存儲、數據ETL、動態CEP、連接器、元數據等能力。

AI 時代的實時智能:Flink 與大模型融合

現狀挑戰與機遇

現在很多用户都面臨挑戰:數據總量越來越大,數據種類越來越多樣化,數據來源越來越多樣化。但是 AI 模型的訓練、推斷、應用還主要靠離線數據和批處理數據,這就導致 AI 模型新鮮度非常差,準確性就會越差,最終效果非常差。

在 AI 時代,企業面臨新的數據處理挑戰。數據爆炸式增長帶來了數據總量、種類、來源的指數級增長。模型滯後問題嚴重,AI 模型主要依賴離線數據,新鮮度差。準確性下降,數據新鮮度差導致模型準確性降低。同時業務對實時 AI 推理的需求日益迫切。

解決方案:實時 + AI 全鏈路能力

阿里雲實時計算 Flink 版專門為實時計算開發了從數據到智能的全鏈路能力,包括數據接入、特徵工程、模型推斷、模型部署、整個模型管理的全鏈路能力。
image.png

在 AI Function 函數方面,提供強大的 AI Function 函數支持在 SQL 流處理中直接調用大語言模型服務。支持 Chat Model 實時調用,實現文本理解,兼容 OpenAI API,各種模型可無縫接入,全面支持阿里雲百鍊、Platform for AI(PAI)等大模型服務。

在向量化處理方面,支持 Embedding Model 調用,實現文本向量化,提供毫秒級流數據相似性搜索,與 Apache Flink SQL 生態系統無縫集成,讓非結構化與結構化數據綜合分析成為可能。內置 Milvus 連接器,支持高性能寫入向量數據。

在非結構化數據處理方面,提供豐富的上游生態,對數據庫實時變化、對象存儲文件變化實時捕捉。內置提供多種數據、文本函數方便數據切分,支持結構化與非結構化數據綜合分析。

這些能力覆蓋實時情感分析、智能推薦、異常檢測、語義搜索、智能客服等多樣化 AI 場景。基於實時 + AI 能力,可支持多樣化的智能場景,包括實時情感分析(社交媒體、客户反饋的實時情感監控)、智能推薦(基於用户實時行為的個性化推薦)、異常檢測(業務指標、系統性能的實時異常識別)、語義搜索(基於向量相似性的智能搜索)、智能客服(結合實時上下文的對話機器人)等。

實際應用案例:AI 風控革新

傳統 AI 風控存在嚴重問題。基於一小時以前或半天以前的數據進行風控,信用卡盜刷過了半天才發現,已經盜刷了幾十次,造成很大損失。延遲發現、誤報率高、響應滯後等問題突出,無法實時阻斷可疑交易。

實時 AI 風控解決方案通過整合多元數據源來解決這些問題。數據源包括登錄流量、購買流量、支付流量、系統交互流量、物流信息流量等各種行為流量。

處理流程是:全部接入實時計算,用實時計算做特徵工程,直接用實時計算結果餵給 AI 模型,實現分鐘級乃至秒級的實時風控。具體來説,所有數據流實時接入計算平台,使用實時計算進行特徵提取和工程,直接將實時特徵輸入 AI 模型,實現分鐘級乃至秒級的風控決策。

技術優勢體現在 Flash 增強引擎上。自研的向量化增強引擎在做向量化、模型推斷時,比傳統模型有更強的性能、更低的延遲、更低的計算成本,相比傳統方案延遲更低,成本控制更好,資源利用率更高。

阿里雲在 Apache Flink 社區發起了事件驅動型 AI 多智能體框架 Flink Agents,可以支持事件驅動型 AI 智能體、AI 編程、Chat BI、Deep Research 等多種應用場景。這個框架能夠處理購買、評論、點擊等各種用户觸發和系統觸發的指標事件,支持會話型 AI 智能體和事件驅動型 AI 智能體。
image.png

在典型應用場景方面,以直播評論的實時智能情感分析為例。通過 Flink SQL AI 大模型調用,結合外部大語言模型服務和 Fluss 湖流一體存儲,可以進行情感分析、話題變化風險追蹤、潛在商機挖掘等分析。同時用 Flink SQL 進行結構化數據增強,將結果寫入向量數據庫。具體的 SQL 語句示例展示瞭如何通過 ML\_PREDICT 函數調用 AI 模型進行實時情感分析。
image.png

產業落地案例:某頭部車企客户之聲

在某頭部車企的客户之聲實時市場輿情分析項目中,VOC(Voice of Customer)應用場景涵蓋高層戰略、產品介紹、試乘試駕、售後維修、召回、APP使用、論壇、車友會、會員體系、線上線下活動、權益使用等各種場景下,使用大模型進行語音和文字數據的結構化打標和處理工作,提供情感分析、信息提取、VOC標註、標籤挖掘能力,用於輿情監控、活動介紹、售後維修等場景。
image.png

項目需求與痛點包括:效率方面,傳統的方式依靠人工抽檢或者針對每個場景訓練 NLP 小模型來應對,併發和吞吐較低,客户要求達到百萬條推理每小時;效果方面,常見 NLP 小模型應對多數據源、多目標場景的泛化能力不足,無法滿足所有需求;成本方面,要求在控制成本、不依靠堆積資源的前提下,滿足生成效率的需求。

架構方案採用多種源端數據(評價文本)清洗後以 Json 格式推送至消息通道 Kafka,Flink 流式消費 Kafka 中數據,使用 AI Function 異步 http call 形式調用阿里雲百鍊大模型服務,結果返回異步隊列,將生成的三級標籤數據回寫至 Kafka,Kafka 中數據推送給下游業務消費,做進一步分析。

方案價值與成果顯著:高吞吐方面,依託實時計算 Flink 版+阿里雲百鍊+Kafka 的流式推理架構,在 Kafka 分區數1200個、Flink 併發度100時,可實現240萬條數據每小時的處理效率,遠超客户百萬條每小時的預期;低成本方面,整條鏈路未大幅增加 Kafka 分區或 Flink 併發度,僅優化超時參數與異步吞吐;高精確度方面,藉助 Flink AI Function 調用大模型能力,調用阿里雲百鍊做到高質量標籤生成,提升後續標籤挖掘、輿情分析等場景的準確度。

產品發展展望

image.png
在產品未來發展的展望中,我們將持續深化AI與流計算的融合,重點打造更強大的實時Agent平台,並拓展更多AI應用場景,尤其是實時視頻流理解。針對社區、工廠或工地等場景,我們正構建高效方案,實現對海量攝像頭數據的持續監控與智能分析,準確捕捉畫面中發生的動態事件,該功能預計將在不久後上線。同時,雲原生能力的增強也是核心方向之一,通過優化存儲與計算的Serverless 架構,進一步提升資源利用率和彈性伸縮能力,以支持更廣泛的業務需求。此外,我們還將持續推進流批一體架構的完善,覆蓋分鐘級、秒級乃至小時級和天級的處理需求,幫助用户在統一的計算與存儲體系下釋放更多場景價值。

總結

阿里雲實時計算 Flink 版的全新升級,標誌着流處理技術進入了新的發展階段。通過增量計算技術實現時效性和成本的完美平衡,通過 Fluss 流存儲構建湖流一體架構,通過 AI Function 開啓實時智能新紀元。

在 AI 時代,實時數據處理不再只是基礎設施,而是驅動智能化轉型的核心引擎。阿里雲實時計算 Flink 版正在幫助企業構建面向未來的實時智能平台,讓數據的價值得以實時釋放,讓 AI 的能力得以實時展現。

實時即未來,這不僅是技術趨勢,更是數字化轉型的必然選擇。隨着阿里雲實時計算 Flink 版的持續演進,我們有理由相信,一個更加智能、更加實時的數據處理時代正在到來。

user avatar yqyx36 头像 quanzhikeji 头像 nbidashuju 头像
点赞 3 用户, 点赞了这篇动态!
点赞

Add a new 评论

Some HTML is okay.