從 SQL 到自然語言，下一代 Lakehouse 為何必須「AI 優先」詳情 - 物化視圖,大數據,olap,人工智能,ai-agent 鏡舟科技博客

過去三十年，OLAP 引擎的發展核心始終圍繞結構化數據的處理與分析，當然也取得了顯著的進步，比如分佈式架構、存算分離及 cloud native、查詢性能大幅提升等。然而，隨着大模型（LLM）技術的爆發，數據分析的範式正在發生根本性重構。行業預測顯示，未來五年內，非結構化數據（文本、圖像、音視頻等）在企業數據資產中的佔比將達到 80%。

未來的數據形態將趨於多模態，分析需求將更加複雜，查詢方式也將從單一的 SQL 轉向自然語言與多模態混合檢索。因此，我們需要在現代大數據分析平台基礎上，全面擁抱 AI，構建下一代 AI-First Lakehouse。

一、基礎設施演進：異構融合的存儲與計算層

1. 存儲層統一：管理多模態數據

目前大數據體系與 AI 體系存在嚴重的物理與邏輯割裂。

大數據團隊習慣維護基於 Hive、OLAP、Lakehouse 等大數據平台來處理分析結構化數據，也誕生出業界主流的存儲格式如 Parquet、ORC 等，能很好的支持結構化數據分析需求。

而 AI 團隊習慣在單機服務器或配備獨立顯卡的個人電腦（Laptop）上開發調試，數據以本地文件形式散落。

這種割裂導致數據無法統一存儲，治理困難，且跨系統調用的性能極低，需先查數據庫再調 AI 模型。

但大數據時代的存儲格式如 Parquet 的 Row Group 設計專為結構化數據優化，不再適配 AI 場景，AI 場景非結構化數據異構特性明顯，同一批數據裏，部分字段內容小，部分 embedding 後的字段會很大。

為此，可以考慮引入如 Lance 等專為 AI 設計的存儲引擎，支持對文本、圖像、視頻等多模態數據的高效索引與存取。以實現統一管理分散在各處的非結構化數據，使得 Lakehouse 不僅是數據存儲庫，更是 AI 資產的統一底座。

2. CPU/GPU 異構計算統一調度

傳統 OLAP 依賴 CPU 進行聚合、排序與過濾，而 AI 負載（如 Embedding 生成、非結構化數據解析、模型推理）高度依賴 GPU 資源。

計算引擎需從單一的 CPU 架構向 CPU/GPU 異構架構演進。系統應具備智能調度能力，根據任務類型自動分配計算資源，實現結構化查詢與非結構化推理的混合執行。

典型場景：直播電商實時分析

單場直播會上架數十至上百個商品，每個商品展示時長僅 1-2 分鐘。系統需同時處理兩類數據：

結構化計算（CPU）：五維四率數據（曝光進房率、商品曝光率、商品點擊率、成交轉化率）等實時指標；
非結構化計算（GPU）：主播語音講解分析、主播商品展示視頻分析、助播互動表現、用户彈幕評論分析

業務方需要將“點擊率”與“主播當時説了什麼/做了什麼”進行關聯分析，以判斷推薦是否精準，以及多種因素對成單的影響。

這要求計算引擎具備異構資源管理能力，能夠靈活調度 CPU 處理統計指標，調度 GPU 處理特徵提取與推理，實現多模態數據的實時融合計算。實時融合計算。

二、內核能力構建：AI 原生的查詢與 In-Database 推理

1. 原生向量檢索，從外掛到內核的能力下沉

簡單的語義檢索已無法滿足高精度的業務需求，且外掛式的向量庫方案會導致數據冗餘與延遲，向量能力已經是多模態處理的必備項（Must-have）。

同時引擎內核需要原生支持混合檢索，並具備混合召回能力，結合關鍵詞匹配（通過倒排索引實現）與語義檢索（通過向量檢索實現），通過粗排與精排的組合策略，滿足如“搜合同關鍵條款”、“電商以圖搜圖”、“在線教育以圖搜題”等高精度業務需求。

更進一步，隨着越來越多不同類型、不同領域、不同維度的數據攝入 Lakehouse，內嵌知識圖譜搜索能力也變得越來越重要，以便高效快捷的挖掘數據之間的關係。

2. In-Database AI ，寫入即處理，查詢即分析

（1）寫入時處理

傳統架構中，非結構化數據的 ETL 依賴外部腳本或獨立工具鏈，維護成本高且容易形成數據孤島。

下一代系統應將 AI 能力內置於寫入路徑，系統自動調用內核級的解析（Parse）、分塊（Chunking）、向量化（Embedding），實現從原始非結構化文件到可查詢數據資產的自動化轉換，無需人工深度介入即可完成打標與關聯。

（2）查詢時推理

將 LLM 能力內嵌至數據庫內核，實現“查詢即分析”。用户無需將數據導出至外部模型處理，而是直接在 SQL 中調用 AI 函數。

還是以直播評論分析為例，系統應能直接通過 SQL 調用內置 AI 能力，對海量彈幕進行情感分析，如：

自動過濾“扣 1”、“扣 2”等無意義評論；
識別具有購買意向的負面/正面反饋，甚至觸發內置 Chatbot 進行自動回覆；

相比調用外部 API，內置推理可利用本地數據過濾機制，僅對篩選後的高價值數據進行推理，大幅降低延遲與成本，並提升吞吐量。

將 AI 能力貫穿寫入和查詢全流程，讓數據處理成為數據庫的內置本能。這種架構下，數據從接入到分析的每個環節都被 AI 增強，消解了傳統“先存儲、後處理”模式的滯後性，使數據在落盤時即具備智能檢索和分析能力。

三、面向 Agent 架構適配：從確定性查詢到探索式執行

隨着 AI Agent 應用的普及，數據交互模式將從“確定性查詢”轉向“探索式執行”。Agent 具有多輪推理、自我修正及高併發的特點，這對底層系統提出了新要求：

1. 極致彈性與高併發

Agent 通過多輪推理、自我修正來完成任務，且存在 Multi-Agent 場景，這將導致會產生海量、突發性的查詢請求。系統需要具備毫秒級的彈性伸縮能力，支持多路 Agent 併發協作，來實現計算資源的即用即取與成本隔離。

2. 高效智能元數據管理

Agent 會頻繁探索數據的 Schema 信息以理解數據結構，系統需提供高性能元數據管理服務，快速響應 Schema 查詢。同時在查詢元數據時除了常規的庫表結構信息外，還應包含豐富的語義數據。

另外，不同於精確的 SQL，Agent 生成的查詢往往很模糊。執行引擎需要支持描述性約束信息（例如，Agent 指令包含“精度要求>80%”或“查詢超時<2 秒”），可以根據約束動態調整策略，允許在精度與資源消耗之間做權衡，而非僵硬地執行全量掃描。

四、平台自治：AI 反哺系統的自我進化

在基礎層、內核層、以及架構層升級後，還可以思考進一步利用 AI 技術反哺 Lakehouse 自身的魯棒性與性能。

學習最佳實踐： 系統應自動學習內部海量日誌中的 Best Practice，將其內化為引擎的管理能力。
智能故障排查： 利用 AI 自動定位數據庫運行中的隱性問題，替代人工排查。

智能物化視圖（Auto-MV）加速洞察

目前的物化視圖依賴業務方手動創建，門檻較高。未來系統將結合慢查詢分析與數據量特徵，自動識別性能瓶頸，同時，學習用户的查詢行為，自動創建並維護物化視圖，從底層透明地加速查詢響應，無需用户感知。

流暢開發：避免複雜的 UDF 依賴

對於複雜的業務邏輯與非結構化數據處理，不應強行依賴傳統的 UDF，而應通過上述的內核級 AI 能力與開放接口來解決，提供更流暢的開發體驗。

結語

下一代 AI-first Lakehouse 的構建是一個系統性工程，需要從數據處理、存儲引擎、計算架構、Agent 支持以及平台生態進行全方位升級。核心目標是打破結構化與非結構化數據的壁壘，將 AI 能力從應用層下沉至內核層，構建真正面向 AI 時代的新一代數據平台。

鏡舟科技博客

鏡舟科技博客

博客 / 詳情