副本_副本_副本_副本_副本_副本_副本_副本_副本_副本_副本_副本_副本_Oracle-課程封面__2025-11-29+11_35_29.png DataWorks是阿里雲重要的PaaS(Platform as a Service)平台產品,為用户提供數據集成、數據開發、數據地圖、數據質量和數據服務等全方位的產品服務,一站式開發管理的界面,幫助企業專注於數據價值的挖掘和探索。

DataWorks支持多種計算和存儲引擎服務,包括離線計算MaxCompute、開源大數據引擎E-MapReduce、基於Flink的實時計算、機器學習PAI、圖計算服務Graph Compute和交互式分析服務等,並且支持用户自定義接入計算和存儲服務。DataWorks可以為用户提供全鏈路智能大數據及AI開發和治理服務。

用户可以使用DataWorks,對數據進行傳輸、轉換和集成等操作,從不同的數據存儲引入數據,並進行轉化和開發,最後將處理好的數據同步至其它數據系統。

image.png
點擊這裏查看視頻講解:【趙渝強老師】阿里雲大數據集成開發平台DataWorks

DataWorks提供以下九個核心功能模塊。

一、 數據集成

DataWorks的數據集成功能模塊是穩定高效、彈性伸縮的數據同步平台,致力於提供複雜網絡環境下、豐富的異構數據源之間高速穩定的數據移動及同步能力。DataWorks數據集成支持離線同步、實時同步,以及離線和實時一體化的全增量同步。其中:

  • 離線同步場景下,支持設置離線同步任務的調度週期。
  • 支持數據庫、數倉、NoSQL數據庫、文件存儲、消息隊列等近50多種不同異構數據源之間的數據同步。
  • 支持在各類複雜網絡環境下,連通數據源的網絡解決方案,在各種網絡環境下均可使用DataWorks數據集成實現網絡連通。
  • 支持安全控制與運維監控,保障數據同步的安全、可控。

下圖展示了DataWorks的數據集成頁面。 image.png

二、 數據加工

DataWorks的數據開發是數據加工的開發平台,運維中心是數據加工的管理平台。基於這兩個功能模塊,用户可以在DataWorks上規範、高效地構建和運維數據開發工作流。 DataWorks的數據開發平台可以使用工具DataStudio進行支持。DataStudio的數據開發工具提供的功能如下:

  • DataStudio支持MaxCompute、EMR、CDH、Hologres、AnalyticDB、Clickhouse等多種計算引擎,支持在統一的平台上進行各類引擎任務的開發、測試、發佈和運維等操作。
  • DataStudio支持智能編輯器、可視化依賴編排,調度能力經過阿里集團內調度任務、複雜業務依賴的反覆驗證。
  • DataStudio提供隔離的開發和生產環境,結合版本管理、代碼評審、冒煙測試、發佈管控、操作審計等配套功能,幫助企業規範地完成數據開發。

下圖展示了DataStudio數據開發工具的主頁面。 image.png

DataWorks運維中心支持數據時效性保障、任務診斷、影響分析、自動運維、移動運維等功能。下圖展示了DataWorks運維中心的主頁面。 image.png

三、 數據建模

數據建模是阿里雲DataWorks自主研發的智能數據建模產品,沉澱了阿里巴巴十多年來數倉建模方法論的最佳實踐,包含數倉規劃、數據標準、維度建模及數據指標四大模塊,幫助企業在搭建數據中台、數據集市建設過程中提升建模及逆向建模的能力,並通過數據建模快速構建企業數據資產。 DataWorks數據建模可助力企業構建自身建模能力,挖掘企業的數據資產價值。它支持以下的場景:

  • 海量數據的標準化管理:企業業務越龐大數據結構就越複雜,企業數據量會隨着企業業務的快速發展而迅速增長,如何結構化有序地管理和存儲數據是每個企業都將面臨的一個挑戰。
  • 業務數據互聯互通,打破信息壁壘:公司內部各業務、各部門之間數據獨立自主形成了數據孤島,導致決策層無法清晰、快速地瞭解公司各類數據情況。如何打破部門或業務領域之間的信息孤島是企業數據管理的一大難題。
  • 數據標準整合,統一靈活對接:同一數據不同描述,企業數據管理難、內容重複、結果不準確。如何制定統一的數據標準又不打破原有的系統架構,實現靈活對接上下游業務,是標準化管理的核心重點之一。
  • 數據價值最大化,企業利潤最大化:在最大程度上用好企業各類數據,使企業數據價值最大化,為企業提供更高效的數據服務。

下圖展示了DataWorks數據建模的主頁面。 image.png

image.png

四、 數據分析

數據分析基於“人人都是數據分析師”的產品目標,旨在為更多非專業數據開發人員,如數據分析、產品、運營等工作人員提供更加簡潔高效的取數、用數工具,提升大家日常取數分析效率。數據分析支持基於個人視角的數據上傳、公共數據集、表搜索與收藏、在線SQL取數、SQL文件共享、SQL查詢結果下載及用電子表格進行大屏幕數據查看等產品功能。

下圖展示了DataWorks數據分析的主頁面。 image.png

五、 數據質量

DataWorks的全流程數據質量監控功能為用户提供多種預設表級別、字段級別和自定義的監控模板。數據質量可以幫助用户第一時間感知到源端數據的變更與ETL(Extract Transformation Load)中產生的髒數據,自動攔截問題任務,有效阻斷髒數據向下遊蔓延。 數據質量以數據集(DataSet)為監控對象,支持監控MaxCompute數據表和DataHub實時數據流。當離線MaxCompute數據發生變化時,數據質量會對數據進行校驗,並阻塞生產鏈路,以避免問題數據污染擴散。同時,數據質量提供歷史校驗結果的管理,以便用户對數據質量進行分析和定級。

下圖展示了DataWorks數據質量管理中的任務查詢頁面。 image.png

六、 數據地圖

DataWorks的數據地圖功能可以實現對數據的統一管理和血緣的跟蹤。數據地圖以數據搜索為基礎,提供表使用説明、數據類目、數據血緣、字段血緣等工具,幫助數據表的使用者和擁有者更好地管理數據、協作開發。下圖展示DataWorks的數據地圖。 image.png

image.png

七、 數據服務

DataWorks的數據服務功能模塊是靈活輕量、安全穩定的數據API構建平台,旨在為企業提供全面的數據共享能力,幫助用户從發佈審批、授權管控、調用計量、資源隔離等方面實現數據價值輸出及共享開放。下圖展示DataWorks的數據服務。 image.png

八、 數據遷移

DataWorks的數據遷移通過使用遷移助手支持將開源調度引擎的作業遷移至DataWorks,支持作業跨雲、跨Region、跨賬號遷移,實現DataWorks作業快速克隆部署,同時DataWorks團隊聯合大數據專家服務團隊,上線遷雲服務,幫助用户快速實現數據與任務的上雲。下圖展示DataWorks的數據遷移助手。 image.png

九、 開放平台

DataWorks開放平台是DataWorks對外提供數據和能力的開放通道。DataWorks開放平台提供開放API(OpenAPI)、開放事件(OpenEvent)、擴展程序(Extensions)的能力,可以幫助用户快速實現各類應用系統對接DataWorks、方便快捷的進行數據流程管控、數據治理和運維,及時響應應用系統對接DataWorks的業務狀態變化。 image.png

下圖展示DataWorks的開放平台。 image.png