動態

詳情 返回 返回

雲棲實錄 | 馳騁在數據洪流上:Flink+Hologres 驅動零跑科技實時計算的應用與實踐 - 動態 詳情

本文根據 2025 雲棲大會演講整理而成,演講信息如下

_演講人:_ 聶清 零跑汽車大數據高級專家

零跑科技的快速發展與數據挑戰

image.png
零跑科技成立於2015年12月,總部位於浙江杭州,是國內造車新勢力中唯一具備全域自研自造能力及垂直整合度最高的智能電動車企業。業務涵蓋整車設計、研發製造、智能駕駛等領域,始終致力於為用户創造價值。

特別值得一提的是,就在演講前一天,零跑迎來了第100萬台量產車的下線。從50萬台到100萬台,零跑僅用343天時間,標誌着零跑汽車已經邁入規模化發展的新階段。這種跨越式的增長速度在行業內實屬罕見。

隨着近幾年零跑銷量逐年翻倍增長及車型矩陣持續豐富,業務端對數據的需求也發生了本質性變化。過去,企業提供的基本都是T+1的離線數據,這種延遲在當時的業務場景下尚可滿足需求。但如今,分鐘級甚至秒級的數據已經成為業務剛需。正是業務對數據實效性的強烈需求,推動了零跑科技實時計算的構建與落地。

在智能網聯汽車的發展中,實時計算至關重要。隨着大數據、物聯網和人工智能等技術的飛速發展,實時計算在數據處理領域的重要性日益凸顯。它不僅能夠提高數據處理效率、支持實時決策,還能優化業務流程、提升客户體驗,推動創新應用的持續發展。

為什麼選擇Flink?

在Flink出現之前,業界已經有兩款主流的流處理框架。最早是Storm,由Twitter在2011年開源。Storm的ACK機制很好地解決了"至少一次"語義的問題,確保了數據不丟失。然而,大多數業務場景更需要"精確一次性"語義來保證數據的一致性。

隨後出現的Spark Streaming通過微批模式實現了精確一次性語義,但存在天然缺陷:本質上仍是將流數據細分成微批進行計算,導致最低延遲只能達到分鐘級別,無法滿足更高實時性要求的場景。

直到2014年Flink的出現,才真正解決了在大數據應用場景下強一致性與低延時之間的矛盾。Flink是分佈式流處理框架,旨在提供高吞吐、低延遲、高性能的流數據處理能力。它統一了流處理和批處理,設計之初就認為"批是流的特例",整個系統採用Native Streaming設計,每條數據都能夠觸發計算。
image.png
Flink具有四大核心優勢:低延遲與高吞吐的完美結合、精確一次性語義的可靠保障、強大的狀態管理能力、靈活的時間語義與窗口機制。正是基於這些優秀特性,零跑科技最終選擇Flink作為實時計算的核心引擎。

零跑科技大數據平台架構

image.png
零跑汽車的大數據平台總體架構自下而上分為五層。最底層是數據源層,主要覆蓋三類核心數據:業務系統類的關係型數據,如ERP、MES等多達幾十種業務系統;IoT設備上的數據,以車機信號類傳感器數據為主,這類數據多呈現為半結構化形式;文件、視頻、圖片等非結構化數據。

第二層是基礎設施層,包括計算、存儲及開發算法平台,為上層提供強大的資源支撐。平台採用OSS、MaxCompute、Hologres、Hbase、Doris、HDFS、Paimon等多種存儲方案,計算層包括MaxCompute、Hologres、Flink、Hive、Spark等組件,還配備GPU/CPU算力資源,以及DataWorks和AiWorks等開發平台。

第三層是數據資產層,由數據倉庫分層建模及算法訓練模型和推理組成,為上層的數據服務及數據應用提供數據支撐。數據倉庫採用標準的分層架構,包括數據貼源層、數據清洗層、公共維度層和數據集市層,同時建設了模型廣場、模型訓練和模型推理能力。

第四層是數據服務層,提供BI報表、即席查詢、數據服務API等能力,同時具備完善的數據管理體系,包括用户管理、元數據管理、數據質量管理、任務調度管理和指標監控等功能。

最上層是數據應用層,包括觀遠BI、APP應用、營銷大屏、電池故障報警、質量故障檢測等多種應用場景,真正實現了數據價值的釋放。

車機信號實時分析的挑戰與實踐

image.png
車機信號實時分析是零跑科技實時計算應用的核心場景之一。車輛啓動後,CAN總線會產生大量傳感器數據。這些數據通過T-Box傳輸到雲端Kafka,經過Flink進行解析清洗,實時場景數據寫入實時數倉Hologres,離線場景數據寫入MaxCompute進行分層加工,最終供各類實時應用使用。

在數據流轉過程中,面臨着多重挑戰。數據量巨大,目前已達PB級規模;大多數應用場景下,需要對信號數據進行實時切片處理;信號數量眾多,高端車型的信號數遠超8000個;需求應用場景繁多;數據結構極為複雜。

這些挑戰對實時計算平台提出了極高要求,必須在保證數據準確性的前提下,實現高吞吐、低延遲的數據處理能力。

車輛故障診斷的實時應用

image.png
車輛故障診斷是典型的實時計算應用場景。Flink與Hologres高吞吐低延遲的性能特性,完美支撐了該場景下的三大核心任務。

實時故障解析是第一項任務。Flink將計算後的數據寫入Hologres,並對故障進行狀態更新。這裏充分利用了Hologres主鍵模型的UPSERT能力,能夠高效進行數據更新操作。

質量規則監控是第二項任務。業務層將質量標準配置成規則,Flink通過Flink CDC讀取這些規則,關聯車輛信號數據,最終寫入Hologres,支撐質量問題的追溯分析。

AI智能預測預警是第三項任務。Flink實時解析信號並及時計算特徵,輸入AI模型預測故障發生概率。針對高風險車輛的異常數據,系統主動觸發服務維護,形成從監測到預測再到用户服務的完整業務循環。

在該場景中,Hologres的重要特性凸顯出來——實時寫入即可見。相比之下,ClickHouse、Doris等OLAP型數據庫,數據可見性更多依賴於Flink的checkpoint時長。在生產環境中,checkpoint一般設置為幾十秒甚至一兩分鐘級別,因為過短的checkpoint時長會影響計算性能。而Hologres完全不受此限制,數據寫入後立即可見,這對於實時性要求極高的故障診斷場景至關重要。

基於Flink的一體化實時計算平台

image.png
在構建一體化實時計算平台之前,零跑科技的常規開發運維情況是:Flink作業部署在Kubernetes及Yarn上,由開發人員或運維人員通過命令行創建Flink Session,或直接通過命令行提交JAR作業進行部署。

這種方式產生了一系列問題。部署在Yarn上的部分作業中,離線任務與實時任務混部,導致在高峯期離線任務會擠佔實時任務資源,造成狀態丟失,最終導致數據不一致。此外還存在作業種類繁多、研發人員眾多導致管控困難、監控分散等問題。

基於阿里雲的Flink一體化實時計算平台後,這些問題得到了明顯改善。平台提供統一界面,支撐Flink SQL及JAR作業的提交,具備可視化的資源配置及彈性擴縮容能力。一致性的狀態管理保證了數據的一致性。特別值得一提的是,Flink全鏈路的監控指標非常完善,能夠進行實時告警,同時簡化了開發人員的操作流程。

總結來看,有了這個平台後,零跑科技實現了從分散管控到集中管控的轉變,顯著提升了研發效率及系統穩定性。

信號業務實時離線一體化實踐

image.png
在正式落地該場景之前,零跑科技在去年的POC階段進行了大量性能測試,主要涵蓋三大類任務。Flink的JAR作業將信號解析後寫入Kafka,供後續分層應用計算使用;Flink將信號變寬表寫入Hologres;對信號進行切片處理後寫入MaxCompute的大寬表。此外還包括複雜場景的測試,如MaxCompute裏的複雜計算、多表join,以及Hologres的併發性能測試等。
image.png
經過POC驗證,性能提升效果非常顯著。Flink作業解析信號寫入Kafka,相比開源產品性能提升約60%。該環節主要為CPU解析過程,所以在三種作業中提升相對最小。Flink作業寫入MaxCompute的大寬表,對比Hive性能提升200%。Flink JAR作業寫入Hologres,對比ClickHouse性能提升高達400%。
image.png
經過這一系列試驗,總結出三大優勢。首先是降本增效,通過提升作業性能、提高存儲壓縮比(壓縮率提升五倍)及合理的定價策略,整體作業平均提升3倍以上,部分任務提升5倍以上,有效降低了存儲成本。

其次是架構升級。將開源Flink替換為雲上全託管Flink,底層採用Flash向量化引擎進一步提升性能。ClickHouse替換為Hologres後,在分佈式計算、多表join及高QPS場景下優勢明顯,能夠支撐更多應用場景。Hive與Spark替換為MaxCompute後,6000字段以上的大寬表查詢及寫入性能實現翻倍提升。

第三是運維簡化。雲託管產品無需專門的運維人員,且具備自動調優能力,非常適合車機信號波峯波谷場景,能夠明顯節約資源。DataWorks提供開發、運維、治理全生命週期管理能力,極大提高了運維管控效率,同時實現了租户隔離、精細化訪問控制等安全能力。

未來規劃與展望

目前,基於Flink的實時計算體系已基本覆蓋零跑科技的核心業務場景。但面向未來,零跑科技還將在兩個方向繼續發力。
image.png
Flink與數據湖的深度融合是第一個方向。該方面已開始預研,部分小場景已基於Flink加數據湖實現了流批一體。未來希望擴大應用範圍,通過Flink與Paimon的深度集成,實現統一元數據管理、統一存儲及統一查詢引擎,真正做到實時寫入也能全量讀取的流批一體數倉架構,最終實現降本增效的目標。

Flink與AI的深度融合是第二個方向,主要包括三個方面。提升決策時效性,通過Flink實時處理流數據,為AI模型提供最新特徵,將決策時效性從小時級提升至秒級。探索Flink Agents場景,嘗試Flink與多模態數據管理、Agent、模型預訓練場景的落地,同時提供多種研發範式,降低研發門檻。構建實時特徵計算平台,結合數據流優化、計算優化、狀態管理、資源調度等多方面技術,針對長窗口特徵計算進行進一步優化,提升實時特徵計算的效率。

總結

零跑科技的實時計算實踐始終遵循原則——從業務剛需出發,以技術為支撐,最終迴歸業務價值。這也是零跑科技能夠在短短几年內實現從0到100萬台量產車跨越的重要原因之一。

通過Flink與Hologres的深度應用,零跑科技不僅解決了智能網聯汽車場景下海量數據的實時處理難題,更為整個行業提供了寶貴的實踐經驗。在數據洪流中馳騁,零跑科技正在用技術創新驅動智能汽車產業的數字化轉型。

user avatar wanshoujidezhuantou 頭像
點贊 1 用戶, 點贊了這篇動態!
點贊

Add a new 評論

Some HTML is okay.