關於數據分發
數據分發,簡而言之,就是將數據從源頭高效、可靠地傳輸到一個或多個指定目的地的過程。其核心目的在於,確保需要數據的人或系統能夠在正確的時間、以恰當的形式獲取到準確的數據,實現數據的共享與同步。
為什麼需要數據分發?
• 實時數據共享
集團各部門協同合作,需確保所有數據部門獲取最新數據,避免因數據延遲導致的業務決策偏差,如供應鏈協同場景、IoT 設備運維、營銷自動化等。
• 雲邊端數據協同
終端設備產生的海量原始數據按需(全量或者預處理)同步至雲端分佈式集羣,進行全局數據的建模、預測、分析。
• 實時計算與告警
實時將變更數據主動推送出去,客户端根據業務需求自由訂閲數據,進行數據的實時計算、展示與告警。
設計理念與架構
1、 核心設計理念
KaiwuDB 數據分發以"數據價值最大化"為核心設計原則,在源端與多目標端之間搭建高效、靈活、可靠的流轉橋樑,以最小化傳輸帶寬、時間成本實現最大傳輸效率,發揮最大數據價值。
• 實時數據驅動,賦能業務即時決策
以 "數據實時流轉為業務價值服務" 為核心,確保數據從產生到分發的延遲控制在毫秒級。讓業務能基於最新數據做即時決策,將數據的 "時間價值" 最大化。
• 業務場景導向,降低實時數據集成門檻
圍繞 "讓實時數據集成更簡單" 的理念,設計了開箱即用的訂閲發佈能力:無需用户開發複雜的自定義同步邏輯,通過配置化的方式即可實現跨集羣、跨系統的數據實時同步,同時兼容多種技術生態(時序引擎、消息隊列、業務應用),讓不同業務場景能快速複用該能力。
• 雲邊端一體化
以 "本地計算 + 按需同步"為核心,邊緣側過濾冗餘數據、雲端匯聚核心信息,適配工業物聯網、車聯網等分佈式場景。
2、 數據分發流程
KaiwuDB 數據分發流程圖
• 核心層
藉助 CDC(Change Data Capture,變更數據捕獲)技術,精準捕獲數據變更,支持基於 SQL 的訂閲規則定義(如 WHERE vibration \> 閾值的異常數據過濾)。
• 傳輸層
支持 DDL(數據定義語言,用於數據庫結構變更)和業務數據同步分發:
• 發送至 Kafka(分佈式消息隊列),供第三方應用消費主題數據,支持多端異步數據消費場景;
• 傳遞至 KaiwuDB 集羣 B 的數據訂閲模塊,實現跨集羣的數據同步。
核心功能特性
1、 多維度數據訂閲
• 提供全量初始化 + 增量同步雙模式;
• 支持基於 SQL 條件的行過濾和列級投影同步。
2、 高可靠傳輸機制
• 基於 Raft 協議的多副本機制,單點故障後仍可從其它正常節點繼續同步;
• 邊緣節點斷網時本地緩存數據,恢復後自動續傳,保障弱網場景可用性。
3、 斷點續傳
定期保存已處理日誌的時間點,在故障恢復時從斷點繼續同步,避免數據重複或遺漏。
4、 元數據智能映射
自動識別源庫表結構變更(如字段增刪),同步更新目標端 Schema,保持上下游數據結構一致性。
5、 高效傳輸
通過實時捕獲數據的增量變更,僅傳輸變化部分,提升數據同步效率。
應用場景與核心價值
1、 部分典型應用場景
2、 核心業務價值
• 提升實時決策
• 打破設備廠商數據壁壘,實現跨部門協同優化,實時數據共享打破信息孤島,生產、運維、供應鏈等部門可基於同一數據源協同決策;
• 動態分析與預測,結合歷史數據分析趨勢並預測潛在問題,提前制定維護計劃,減少非計劃停機時間。
• 降低系統資源消耗
• 按需訂閲關注數據信息,避免全量數據傳輸,減少 70%+ 雲端傳輸量,帶寬成本降低 30%\~50%+;
• 邊緣計算預處理,進行濾波、聚合或降採樣處理,降低雲端計算壓力。
• 增強業務靈活性
• 支持靈活增減數據源或訂閲主題,無需重構系統架構;
• 允許第三方開發者基於實時數據流開發增值應用,加速創新並豐富業務生態。
• 安全合規
支持數據脱敏訂閲,符合 GDPR 數據最小化原則,保障車聯網等場景的數據安全。