Stories

Detail Return Return

雲棲實錄 | DataWorks 發佈下一代 Data+AI 一體化平台,開啓企業智能數據新時代 - Stories Detail

本文根據 2025 雲棲大會 DataWorks 產品年度發佈實錄整理而成

演講人:田奇銑,阿里雲智能集團計算平台事業部 DataWorks 產品負責人

 DataWorks 下一代 Data+AI 數據開發與治理平台,全面邁向“數據驅動智能、智能反哺數據”的新階段。作為中國大數據平台公有云市場份額和中國數據治理平台市場份額連續四年排名第一的領軍產品,DataWorks 不僅見證了企業數字化轉型過程,更在生成式 AI 浪潮中,構建起支撐企業智能化升級的核心數據基礎設施。

此次發佈標誌着 DataWorks 從傳統數據平台工具,進化為面向 AI 時代的 “智能數據中樞”,致力於幫助企業應對多模態數據爆發、AI 模型和 AI 應用迭代頻繁、組織協同複雜等挑戰,實現“Data+AI”的深度融合與高效協同。
image.png

為什麼需要 Data+AI?企業智能化升級的關鍵路徑

過去十五年,DataWorks 持續為阿里巴巴集團及數萬家雲上企業客户提供穩定可靠的數據底座,支撐了從互聯網、電商、金融到製造、政務等廣泛場景的數據平台建設。然而,在生成式 AI 快速落地的今天,我們正面臨一個全新的技術挑戰:

  • 數據類型多元化:除結構化數據之外,文本、圖像、音視頻、傳感器數據等非結構化與多模態數據激增;
  • AI工作流複雜化:數據標註、數據合成、大模型預訓練、微調、推理、Agentic AI、Physical AI 構建等場景對數據供給提出更高要求;
  • 不確定性加劇:AI 時代異構數據、技術路線、AI 應用路徑、組織協同等均處於快速演變中,極易形成新的“煙囱式”架構,造就新的“數據孤島”。

與此同時,越來越多客户明確提出:“要用 AI 提升數據建設效率”,甚至設定“通過 AI 將數倉開發效率提升50%”的目標。整個數據平台的Data+AI 演進,既是技術發展的必然趨勢,也是企業走向智能化的關鍵路徑。

因此,DataWorks 提出 “Data+AI一體化”戰略——讓數據平台不僅是 AI 的“燃料供應商”,更是其“發動機與調度中心”,真正實現數據與 AI 的雙向賦能,打造企業在 AI 時代的數據中樞。

全面升級:三大核心能力構築 Data+AI 數智平台基石

1、DataWorks Data+AI一體化開發平台:打通數據工程與 AI 工程的全鏈路 Pipeline

為解決數據科學、AI 工程與傳統數據開發割裂的問題,DataWorks 實現了與阿里雲人工智能平台 PAI 的深度集成,打造統一的 Data+AI 一體化開發環境,覆蓋從數據準備、數據處理到模型訓練的完整閉環。
image.png

  • Data Studio 雲原生 WebIDE + 個人開發環境   基於容器化技術,為每位開發者分配專屬計算資源,支持 CPU 和 GPU 資源按需使用,支持自定義容器鏡像。開發者可在雲端獲得接近本地 VS Code 的開發體驗,直接運行 Python 代碼、調試代碼、執行 Notebook 任務,徹底告別“寫完提交、等待運行”的低效模式。
  • "增強版" Notebook 支持 SQL 與 Python 融合編程   DataWorks Notebook 在 Jupyter Notebook 基礎上深度優化,實現 SQL 查詢結果與 Python 數據處理流程無縫銜接。例如,用户可通過 Spark SQL 查詢 PB 級數據,再用 Python 進行數據處理、數據可視化或 AI 模型訓練,並一鍵提交至 MaxCompute 分佈式 Python 計算框架 MaxFrame 或 PAI DLC 大規模 GPU 算力集羣進行分佈式運行。
  • AI工程化編排與調度能力   Data Studio 內置文檔切分、Embedding 等 AI 數據處理算子,可視化編排為 PAI Flow,幫助用户輕鬆構建 RAG 應用的數據處理鏈路。同時,與 PAI LangStudio 深度打通,DataWorks 構建的知識庫可直接用於生成式 AI 應用開發,實現“數據更新 → 知識庫同步 → AI 應用調用”的自動化聯動。更為重要的是,DataWorks Data Studio可以直接編排 PAI DLC 任務,藉助 DataWorks 自研的大規模任務調度引擎,實現 Data+AI 任務一體化、高效、穩定的調度。
  • AI Function與大模型服務

在數據處理過程中經常需要藉助 AI 來處理數據本身,如像文本打標、情感識別這些以前需要專業算法工程師才能實現的工作,現在只需簡單的調用 AI Function 即可實現,並且可非常方便的集成到 ETL 工作流中。Data Studio 不僅可以直接使用各類計算引擎的 AI Function ,同時在數據集成和工作流中直接提供了AI Function,可進行 Embedding 和調用 LLM 進行數據處理。為了提供更高效的 AI Function 調用,DataWorks Serverless 資源組全新支持大模型服務一鍵部署,我們提供了包含 Qwen3、DeepSeek 系列模型及各類 Embedding 模型,提供了豐富的 GPU 規格,可通過 Serverless 資源組的 CU 進行按量抵扣,並且具備更低調用時延,更高調用性能。

2、智能調度引擎:從“週期性執行”到“事件驅動型調度”

傳統大數據任務以 T+1 週期調度為主,而 AI 任務則更具動態性和響應性——當新數據到達、模型性能下降或業務指標波動時,系統應能自動觸發數據更新或者重新訓練。
image.png
為此,DataWorks 對任務調度引擎進行了重大升級,全新升級了觸發式調度的能力,用來高效穩定的驅動 AI 工作負載。

  • 支持事件觸發調度、API 觸發調度、手動觸發調度等多種觸發式調用能力
  • 單集羣每日可驅動千萬級任務實例,相比 Airflow 等開源方案,在同等資源下調度吞吐能力提升近50倍,可應對大規模AI數據生產任務;
  • 調度延遲縮短至秒級,可應對實時性要求更高的 AI 數據生產場景;
  • 故障恢復時間縮短至分鐘級,保障高可用性;

這一能力已在多個客户場景中驗證價值。例如,在自動駕駛領域,某車企利用該機制實現了“數據標註 → 數據合成 → 數據融合 → 模型訓練”的全自動閉環,通過 DataWorks 替代原有的自建 Airflow 方案,實現單日處理 clips 突破百萬級,顯著加速模型迭代節奏。

3、多模態數據管理:統一目錄 + 語義檢索 + 全鏈路血緣

面對日益增長的非結構化數據,DataWorks 推出全新 多模態數據管理體系,幫助企業實現“看得見、找得到、管得住”。

image.png

  • 多模態統一數據目錄(Data Catalog)   支持結構化表、AI 數據集、Lance Table 格式等多種資產類型,統一納入 DataWorks 數據地圖管理,實現跨源、跨域、跨團隊的統一數據資產目錄。
  • 自然語言語義檢索   可通過描述性自然語言(如“一輛黑色轎車正在斑馬線前右轉”)快速檢索相關圖片或視頻片段,極大降低非結構化數據的使用門檻。
  • 在線預覽   支持表格、圖像、文本、文檔等多模態數據內容的在線瀏覽,幫助用户快速理解數據。
  • 全鏈路多模態數據血緣   追蹤數據從採集、清洗、標註、訓練到推理的完整流轉路徑,支持版本化管理。例如,可追溯某一模型效果變化是否源於特定批次的訓練數據修改,助力模型可解釋性與合規審計。

智能進化:從輔助編碼到自主執行,邁向 Agentic AI 時代

如果説 Copilot 是“智能助手”,那麼 Agent 則是“自主智能體”,是一個問題解決者,能夠以目標驅動的方式自主進行任務規劃並自動執行。DataWorks 正式推出 DataWorks Agent——面向數據開發與數據治理的 AI 智能體。

1、NL2SQL 全球領先,交互體驗全面升級

DataWorks  Copilot的 NL2SQL 服務在被譽為"最接近真實企業場景"的權威基準測試 Spider 2.0 榜單中位列全球第一。

截屏2025-10-09 下午3.58.08.png

來源:Spider 2.0 官網,2025-10-13

在此基礎上,智能 SQL IDE 進一步優化:

  • DataWorks Copilot 深度集成 SQL 編輯器,支持上下文感知(如當前打開的表結構、節點上下游關係、知識庫內容);
  • SQL 編輯器全新推出 NES(Next Edit Suggestion)能力,當你在編輯器中編寫和修改SQL代碼, Copilot 會智能推薦下一步需要修改的代碼位置並給出修改建議,顯著提升 SQL Coding 效率和體驗。

2、DataWorks Agent 加速“自動化”數據開發

DataWorks Agen t能夠理解需求、自主規劃、自動執行,輕鬆串聯多種工具,解決傳統 GUI 工具來回跳轉操作的低效問題,並且支持接入第三方 MCP Server ,輕鬆擴展 Agent 的能力邊界。

image.png

DataWorks 數據開發 Agent,可實現輸入 ETL 需求文檔,輸出 ETL 工作流。用户只需輸入自然語言需求或者需求描述文檔,DataWorks Agent 可以理解用户意圖,深度思考和自主制定規劃,然後自動化執行規劃,最終生成所需 ETL 工作流及任務代碼。讓 ETL 工程師從繁複的 SQL 開發和工具操作中解放出來,有更多時間來思考業務本身。

3、DataWorks Agent 驅動“自主式”數據治理

在大模型廣泛落地之前,DataWorks 數據治理提出了治理健康分、主動式數據治理等方法論和產品能力,並得到了廣泛認同,幫助上千家企業實現主動式數據治理。今天,DataWorks 藉助 Agentic AI 技術,將驅動企業數據治理從“主動式”邁向“自主式”數據治理的新階段。

image.png

DataWorks 數據治理Agent將 AI 深度融入數據治理全流程:

  • AI 搜索與元數據增強:通過對話查找數據資產,AI自動補全字段説明、業務口徑等缺失信息;
  • 數據質量 Agent:基於 SQL 邏輯、歷史運行日誌與元數據特徵,自動批量生成質量規則,並對質量檢測異常結果進行根因分析;
  • 治理檢查項實時診斷與優化:將數據資產治理的檢查項、治理項深度集成到 SQL IDE 中的代碼檢查功能中,在你編寫 SQL 代碼過程中,實時檢測代碼中的語義錯誤、代碼規範、SQL 性能等問題,實時診斷分析和給出修復建議。
  • 數據治理計劃 Agent:設定目標(如“提升高頻訪問表的質量健康分至90以上”),系統自動識別治理對象、制定週期性計劃並執行,實現“目標 → 分析 → 執行 → 驗證”的閉環治理。

4、DataWorks ChatBI:AI 原生,人人皆可洞察數據價值

為了讓數據分析能力惠及每一位業務人員,DataWorks 推出 ChatBI——一款輕量級、AI 原生的數據洞察產品。

  • 個人用户可上傳本地 Excel、CSV 文件,通過自然語言提問(如“今年銷售額下降有哪些可能的原因”),即時獲得數據洞察報告。
  • 企業管理員可預先連接數據倉庫、設置權限策略、注入企業知識庫(如指標定義、組織架構),授權給銷售、運營等角色後,他們即可“開箱即用”,無需依賴數據團隊取數問數。

DataWorks ChatBI 的核心理念是讓每個人都能用最樸素的方式——説話,從數據中獲取洞見。

展望未來:AI時代的數據中樞

15年來,DataWorks 始終堅持“讓數據產生價值”的初心,數萬家阿里雲客户信賴和選擇 DataWorks 來構建企業數據平台。今天,我們正站在一個新的起點——讓數據平台成為 AI 時代的數據中樞,讓企業加速智能化升級,助力企業在市場中贏得競爭優勢。

user avatar dewujishu Avatar zyx178 Avatar seatunnel Avatar wszgrcy Avatar smartbidashuju Avatar
Favorites 5 users favorite the story!
Favorites

Add a new Comments

Some HTML is okay.