背景
在數字化時代,企業數據呈爆炸式增長,但大多數業務人員因不懂SQL語言而無法直接獲取數據洞察。近年來,隨着AI技術的飛速發展,基於大語言模型強大的自然語言理解和代碼生成能力的 NL2SQL 技術應運而生——它能將"查詢上個月銷售額最高的產品"這樣的自然語言,自動轉換為複雜的SQL查詢語句。
然而,現實企業環境中的數據庫結構複雜、SQL方言多樣、查詢邏輯深度嵌套,單純靠大模型能力的 NL2SQL 方法往往力不從心。
權威認證:Spider 2.0榜單第一
面對這些挑戰,阿里雲 PAI 與 DataWorks 團隊共同研發了 NL2SQL Agent,該 Agent 使用 PAI團隊首創的面向真實業務場景的端到端 NL2SQL 框架 DB-Surfer,能夠在自然語言轉換為SQL場景中具有優越表現。在被譽為"最接近真實企業場景"的 Spider 2.0-Snow (spider2-sql.github.io/)評測中,以59.78%的執行準確率榮獲榜單第一,超越了多個頂尖競爭對手,展現了阿里雲大數據AI平台在 Agentic NL2SQL 技術領域的領先實力。這一結果也表明,NL2SQL 技術在複雜真實場景中的落地正逐步成為可能。
Spider 2.0 是面向 企業級複雜場景 的文本到 SQL(Text-to-SQL)評估基準,旨在突破傳統評測對簡單單表查詢的侷限性。其基於 632 個真實企業數據庫工作流問題 構建,覆蓋金融、醫療、電商等 18 個垂直領域,要求模型在多表關聯、長上下文理解、複雜邏輯推理等維度展現工業化級能力,被譽為"最接近真實企業場景"的Text-to-SQL評測。
DB-Surfer Agent:NL2SQL 技術框架新範式
DB-Surfer,一個面向複雜真實場景的 NL2SQL 框架,採用“總—分—總”的協同架構,專為超大規模、高複雜度的數據庫查詢任務設計。系統整體分為三個核心階段:查詢意圖預處理、代碼智能體執行 和 多源路徑後處理,在任務規劃的引導下,實現對複雜數據庫環境的高效、可控探索,最終生成用户所需的SQL查詢語句。
DB-Surfer的核心突破可歸納為以下三點:
在公開基準上取得了最先進的性能。 DB-Surfer在Spider 2.0-Snow基準^[1]^上取得了59.78%的執行準確率,截至2025年8月27日,位列該榜單第一,證明了該方法的有效性,能在真實、複雜的場景下解決用户數據庫查詢問題。
DB-Surfer通過聯合的任務規劃與元數據鏈接,為Agent提供了明確的執行指引。這種“先規劃、後執行”的機制顯著提升了Agent探索的效率與目的性,證明了有指導的Agent是解決複雜NL2SQL任務的一條可行技術路線。
為構建具備持續進化能力的NL2SQL系統提供了可擴展範式。DB-Surfer的模塊化設計與數據飛輪知識沉澱機制,為系統的長期優化奠定了基礎。其分階段架構便於未來集成多樣化的外部工具。這為NL2SQL技術從單一的查詢生成工具,向更具挑戰性的、能在開放場景下泛化的數據分析助手演進,提供了一個可遷移的系統化解決方案。
為了進一步驗證 DB-Surfer 的有效性,我們將其與一系列當前最先進的方法在 Spider 2.0-Snow 數據集上進行了全面對比。這些基線方法代表了 NL2SQL 領域的主流技術路徑,涵蓋了從靜態提示到動態交互式智能體的不同範式。其中包括基於 ReAct 框架的基線方法 Spider-Agent、當前榜單排名靠前的閉源 Agent 方法 WindAgent 與 ByteBrain-Agent、基於硬編排工作流和自洽性的 ReFoRCE 框架,以及提示工程方法的代表工作如 Dail-SQL 。
在與眾多基線方法的對比下,DB-Surfer 取得了 59.78% 的執行準確率,達到了該基準上當前的SOTA。這一成績不僅超越了 WindAgent (59.05%) 等基於商業大模型的 Agent 方法,更顯著優於基於固定工作流的 ReFoRCE (37.11%) 和基線智能體方法 Spider-Agent (31.08%)。超過20個百分點的巨大性能優勢充分證明,在處理極端複雜的數據庫環境時,DB-Surfer 的動態、自適應交互框架遠比固化的流程或簡單的“思考-行動”循環更為有效。
產品落地:DataWorks Copilot 體驗升級
目前,Agentic NL2SQL DB-Surfer技術已深度集成至大數據開發治理平台DataWorks的Copilot, Copilot作為DataWorks平台的智能助手,能夠根據上下文快速理解業務需求,幫助開發者通過自然語言高效完成多種代碼相關操作及DataWorks產品操作。用户通過在DataWorks界面的頂部導航欄點擊 Copilot 圖標即可開始體驗,點擊查看指導手冊。
現在,DataWorks Copilot已累計生成並被採納的代碼行數超3200萬,覆蓋分析師和開發者超60000人,數據開發分析效率平均提升35%。
總結
從登頂 Spider2.0 的技術突破,到 DataWorks Copilot 體驗的深度升級,DB-Surfer 的出現與落地不僅是阿里雲 PAI 在 NL2SQL 技術領域的一次里程碑式跨越,更標誌着DataWorks企業級數據開發交互進入 “智能體驅動” 的全新時代。當複雜 SQL 查詢轉化為自然語言對話,當數據洞察從 “技術特權” 變為 “業務標配”,阿里雲大數據AI平台將持續通過技術與場景的雙輪驅動,助力每一家企業輕鬆駕馭數據浪潮。
[1] Lei F, Chen J, Ye Y, et al. Spider 2.0: Evaluating language models on real-world enterprise text-to-sql workflows[J]. arXiv preprint arXiv:2411.07763, 2024.