阿里雲大數據AI 博客

Nov 04 2025

阿里雲大數據AI - 雲棲實錄 | 阿里雲助力金山辦公打造智能搜索新標杆：WPS 雲文檔搜索技術全面升級

隨着大模型時代到來，用户需求從“關鍵詞匹配”轉向“自然語言交互與問答式搜索”。2025年9月26日，杭州雲棲大會“AI搜索與向量引擎”分論壇上，金山辦公雲搜索技術總監——陳海榮宣佈，其核心產品WPS雲文檔搜索功能結合阿里雲搜索引擎完成重大升級，正式邁入3.0時代。此次升級以阿里雲Elasticsearch混合檢索與AI語義搜索能力為核心，全面解決海量文檔場景下的檢索效率、語義理解與成本優化難題，

elasticsearch , 搜索 , wps , 阿里雲

Nov 04 2025

阿里雲大數據AI - 雲棲實錄 | AI原生搜索引擎：Elasticsearch 換“芯”——AI原生搜索內核增強技術

9月26日，雲棲大會AI搜索與向量引擎分論壇上，阿里雲智能集團技術專家魏子珺和愛橙科技技術專家周文喆，詳細闡釋了“AI原生搜索引擎：Elasticsearch換芯”技術主題，重點圍繞AI原生搜索內核增強技術的升級與替換。通過核心能力重構，讓Elasticsearch在AI原生時代具備更強的多模態理解、自然語言處理以及深度任務執行能力，為搜索場景帶來性能、智能化與可擴展性的大幅提升。這標誌着AI搜索

elasticsearch , 搜索 , 阿里雲

Nov 04 2025

阿里雲大數據AI - ODPS 十五週年實錄 | Data + AI，MaxCompute 下一個15年的新增長引擎

ODPS十五週年實錄|Data+AI，MaxCompute下一個15年的新增長引擎本文根據ODPS十五週年·年度升級發佈實錄整理而成，演講信息如下：於得水（得水）：阿里雲智能集團計算平台事業部資深技術專家活動：【數據進化·AI啓航】ODPS年度升級發佈此次演講內容共分為三個部分：第一部分，介紹MaxCompute面向Python和AI生態計算的演進歷史。從最初的SDKLibrary到表示

大數據 , 人工智能 , 分佈式 , SQL , Python

Nov 01 2025

阿里雲大數據AI - 雲棲實錄 | 阿里雲發佈Elasticsearch Serverless 2.0，重塑AI搜索時代基礎設施

2025年9月26日，在杭州雲棲大會“AI搜索與向量引擎”分論壇上，阿里雲智能集團高級技術專家——賈新禹正式發佈ElasticsearchServerless2.0，並首次系統性闡述其技術架構與產品價值。這一全新升級的Serverless解決方案，以“極致彈性、智能核心、AI生態融合”三大技術基石，直面AI搜索時代的工程化挑戰，為企業提供一站式構建AI搜索能力的基礎設施。時代鴻溝：AI搜

elasticsearch , 搜索 , 阿里雲 , 人工智能

Nov 01 2025

阿里雲大數據AI - 雲棲實錄 | AI 搜索引擎如何驅動億級物流：貨拉拉 x 阿里雲 Elasticsearch

在數字化與智能化浪潮的推動下，海量數據的高效檢索與實時分析，正成為各行業核心競爭力的關鍵之一。作為覆蓋全球14+市場、服務數千萬用户的智慧物流與同城貨運平台，貨拉拉不僅在業務規模與運營效率上追求卓越，也在技術底座上不斷革新。 9月26日，雲棲大會AI搜索與向量引擎分論壇上，貨拉拉Elasticsearch技術負責人——陳敏華先生分享了Elasticsearch在全球化高併發業務場景下的深度實踐，以

elasticsearch , 阿里雲 , 人工智能

Sep 30 2025

阿里雲大數據AI - 兩項世界第一！阿里雲EMR登頂全球數據倉庫性能及性價比排行榜

節前，和大家分享一個好消息：阿里雲EMR在全球數據倉庫性能及性價比排行榜中斬獲兩項全球冠軍！在“數據分析”性能測試TPC-H榜單中，阿里雲EMRServerlessStarRocks（Stella1.2.0內核）以QphH超754萬分的性能結果斬獲全球冠軍，領先第二名111%；在“決策支持類”性能測試TPC-DS榜單中，阿里雲EMRServerlessSpark（Fusion2.0內

spark , 阿里雲 , starrocks

Sep 28 2025

阿里雲大數據AI - 阿里雲AI搜索年度發佈：開啓Agent時代，重構搜索新範式

AI搜索年度發佈——AgenticSearch創新、雲原生搜索引擎進化、AI搜索產品融合升級_ 年初大模型技術的爆發式發展，使得傳統用户搜索場景被顛覆，據某權威研究機構數據顯示，超58%的美國用户使用Google時不再點擊搜索結果，傳統搜索流量逐漸轉向AI驅動工具，這一轉變背後將重構用户搜索的交互邏輯、數據形態與技術架構。 9月26日杭州舉行的雲棲大會AI搜索專場上，阿里雲智能集團計算平台事業部A

雲棲大會 , 搜索 , 阿里雲 , 人工智能

Sep 10 2025

阿里雲大數據AI - Lazada 如何用實時計算 Flink + Hologres 構建實時商品選品平台

本文整理自 Lazada Group EVP 及供應鏈技術負責人陳立羣在 Flink Forward Asia 2025 新加坡實時分析專場的分享。引言：實時數據驅動，海外電商競爭的新高地在電商行業，用户行為瞬息萬變，促銷節奏日益緊湊，能否在毫秒級做出數據驅動的決策，已成為決定成敗的關鍵。作為東南亞領先的電商平台，Lazada 面臨着一項巨大挑戰：在六個國家管理數十億商品 SKU，同時為不同市

flink

Sep 10 2025

阿里雲大數據AI - 淘寶閃購基於Flink&Paimon的Lakehouse生產實踐：從實時數倉到湖倉一體化的演進之路

摘要：本文整理自淘寶閃購(餓了麼)大數據架構師王沛斌老師在FlinkForwardAsia2025城市巡迴上海站的分享。引言在數字化轉型的浪潮中，企業對實時數據處理的需求日益增長。傳統的實時數倉架構在面對業務快速變化和數據規模爆炸性增長時，逐漸暴露出數據孤島、成本高企、研發效率低下等問題。淘寶閃購（餓了麼）作為阿里巴巴集團重要的本地生活服務平台，在數據架構演進過程中積累了豐富的實踐經驗

阿里雲 , flink

Aug 28 2025

阿里雲大數據AI - Elasticsearch 8.17 智能檢索升級全攻略

Elasticsearch 作為一款強大的搜索與分析引擎，支持傳統檢索、AI 搜索（如語義檢索、RAG、多模態檢索）及智能運維場景，結合阿里雲AI搜索開放平台提供一站式解決方案。本文介紹了最新發布的 Elasticsearch 8.17 檢索增強型應用在性能和功能上的特性。同時本文介紹了 Elacticsearch 選購指南，幫助用户根據業務需求選擇版本和節點配置，利用容量規劃工具優化資源分配，

搜索

Aug 21 2025

阿里雲大數據AI - MaxCompute聚簇優化推薦功能發佈，單日節省2PB Shuffle、7000+CU！

Shuffle優化利器｜聚簇優化推薦在MaxCompute每日EB級規模的計算場景中，Join、Group By、Window等算子所產生的Shuffle數據流量已佔據整體網絡傳輸的60%以上，成為影響大數據計算成本的核心因素。以阿里內部某業務為例，單日Shuffle數據量高達2 PB，直接消耗7000+ CU資源——這一數字僅是問題的冰山一角。 MaxCompute 哈希聚簇（Hash Clu

hash , shuffle

Aug 12 2025

阿里雲大數據AI - 基於PAI-ChatLearn的GSPO強化學習實踐

引言近期，阿里通義千問團隊創新性提出了 GSPO 算法，PAI-ChatLearn 框架第一時間支持並復現了GSPO的強化學習訓練過程，本文將介紹在 PAI 平台復現 GSPO 的最佳實踐。 GSPO 算法介紹強化學習(Reinforcement Learning， RL)是拓展語言模型、增加其深度推理與問題求解能力的關鍵技術範式。為了持續拓展 RL，首要前提是確保穩定、魯棒的訓練過程。現有的

大數據處理 , 強化學習 , 最佳實踐 , 人工智能 , 模型

Aug 04 2025

阿里雲大數據AI - DataWorks千萬級任務調度與全鏈路集成開發治理賦能智能駕駛技術突破

一、智能駕駛數據預處理的行業挑戰隨着智能駕駛技術的逐級演進，數據驅動的模型訓練範式對數據預處理環節提出三大挑戰：數據孤島化：需整合攝像頭、LiDAR、毫米波雷達、V2X通信等多模態數據，傳統ETL工具難以實現高效集成。任務爆炸式增長：單輛測試車每日產生可達50TB 數據，需支持百萬甚至千萬級任務併發調度與彈性擴容。開發運維一體化需求：要求數據流水線具備高可用性（99.99% SLA

大數據處理 , 大數據 , 自動駕駛 , 數據庫 , 人工智能

Jul 17 2025

阿里雲大數據AI - Post-Training on PAI (4)：模型微調SFT、DPO、GRPO

引言 Post-Training（即模型後訓練）作為大模型落地的重要一環，能顯著優化模型性能，適配特定領域需求。相比於 Pre-Training（即模型預訓練），Post-Training 階段對計算資源和數據資源需求更小，更易迭代，因此備受推崇。近期，我們將體系化地分享基於阿里雲人工智能平台 PAI 在強化學習、模型蒸餾、數據預處理、SFT等方向的技術實踐，旨在清晰地展現 PAI 在 Post

大數據處理 , 雲計算 , 算法 , 人工智能 , 模型

Jul 16 2025

阿里雲大數據AI - 跨國數倉遷移背後的統一存儲格式創新-Append Delta Table

本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開，逐步拆解BigQuery遷移至MaxCompute過程中的關鍵挑戰與技術創新。本篇為第一篇，跨國數倉遷移背後MaxCompute的統一存儲格式創新。注：客户背景為東南亞頭部科技集團，文中用GoTerra表示背景當東南亞頭部科技集團GoTerra決定將其集團數據倉庫從BigQuery遷移至阿里雲MaxCompute時，這一決策背後折射出更深

大數據處理 , 大數據 , 存儲技術 , 數據遷移 , 人工智能

Jul 15 2025

阿里雲大數據AI - 阿里雲 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 產品

作者：玄橙 - 阿里雲 EMR Serverless Spark 產品專家 EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 產品。它為企業提供了一站式的數據平台服務，包括任務開發、調試、調度和運維等，極大地簡化了數據處理和模型訓練的全流程。同時，它100%兼容開源 Spark 生態，能夠無縫集成到客户現有的數據平台。使用 EMR Serverle

spark , 大數據 , 人工智能 , serverless , 數據處理

Jul 10 2025

阿里雲大數據AI - OpenSearch 視頻 RAG 實踐

背景 RAG（Retrieval-Augmented Generation）技術通過結合信息檢索與大模型生成能力，可以有效降低“幻覺率”，提升回答的準確性。目前，RAG 技術已廣泛應用於多個領域，但主要集中於文本數據的處理。隨着視覺語言模型（Vision-Language Models, VLM）和多模態向量模型的快速發展，RAG 的應用邊界正在不斷擴展，逐步從傳統的純文本場景延伸至多模態場景，其

音視頻 , 算法 , 數據庫 , 人工智能 , 視頻處理

Jul 07 2025

阿里雲大數據AI - Post-Training on PAI (2)：Ray on PAI，雲上一鍵提交強化學習

1. 前言 1.1 Ray Ray是一個開源的分佈式計算框架，集成了多個AI庫，擁有豐富的生態系統，包括Ray Tune（超參數調優）、Ray RLlib（強化學習）、Ray Serve（模型部署）、RaySGD 的分佈式運行環境，提供了全面的AI解決方案，使得AI並行訓練更容易和高效。 OpenAI 聲明使用了 Ray 作為ChatGPT 大模型訓練的底層平台，參考 How Does Ray

開發 , 標註 , 數據庫 , 人工智能 , 模型

Jul 07 2025

阿里雲大數據AI - Post-Training on PAI (2)：Ray on PAI，雲上一鍵提交強化學習

1. 前言 1.1 Ray Ray是一個開源的分佈式計算框架，集成了多個AI庫，擁有豐富的生態系統，包括Ray Tune（超參數調優）、Ray RLlib（強化學習）、Ray Serve（模型部署）、RaySGD 的分佈式運行環境，提供了全面的AI解決方案，使得AI並行訓練更容易和高效。 OpenAI 聲明使用了 Ray 作為ChatGPT 大模型訓練的底層平台，參考 How Does Ray

大數據處理 , 開發 , 標註 , 人工智能 , 模型

Jul 04 2025

阿里雲大數據AI - AI搜索 MCP最佳實踐

背景那些 LLM 不知道的事嘗試直接詢問LLM“今天天氣如何”時，會發現LLM無法回答——它既不知道“今天”是哪天，也無法獲取地理位置信息。這揭示了LLM的侷限：缺乏與外部工具和實時數據的交互能力。為解決這一問題，MCP（Model Context Protocol）應運而生。通過標準化協議，MCP使LLM能夠自主調用工具（如天氣API、地理位置服務），並解耦Agent與Tools的開發，顯

大數據 , 搜索 , 人工智能 , 檢索系統 , 數據處理

Jun 23 2025

阿里雲大數據AI - 【新模型速遞】PAI-Model Gallery雲上一鍵部署MiniMax-M1模型

MiniMax-M1 模型是由 MiniMax 公司6月17日全新推出的大語言模型，使用hybrid Mixture-of-Experts (MoE) 架構，並使用了 lightning attention 機制。 MiniMax 公司稱其為世界上第一個開源的大規模混合架構的推理模型。 MiniMax-M1 模型原生支持 1 百萬個 token 的上下文長度，並且 lightning atten

llm , 大數據處理 , 雲計算 , 人工智能 , 模型

Jun 10 2025

阿里雲大數據AI - 一體系數據平台的進化：基於阿里雲 EMR Serverless Spark的持續演進

作者：億緹希技術（上海）有限公司馬博、王建春一、背景介紹一體系汽配供應鏈平台（以下簡稱一體系），專注提供高品質發動機、變速箱、底盤技術零部件，融匯優質實體資源和創新互聯網科技，為上游品牌商提供高效的下沉渠道，為下游零售商帶來可信賴的產品和服務，讓採購更便捷可靠，實現行業數字化轉型。隨着企業對實時數據分析、AI 能力和大規模數據處理的需求不斷增長，平台數據量龐大且持續增長、數據呈現半結構

spark , 大數據處理 , 雲計算 , 數據庫 , serverless

May 30 2025

阿里雲大數據AI - Fusion引擎賦能：流利説如何用阿里雲Serverless Spark實現數倉計算加速

作者：流利説 Ibson（大數據負責人）/ Bruce（數據工程師）背景介紹行業流利説是領先的科技驅動的教育公司，公司自主研發了領先的英語口語評測、寫作打分引擎和深度自適應學習系統，致力於為用户提供一整套系統性的英語學習解決方案，從聽、説、讀、寫多個維度提升用户的英語水平。業務特徵 AI 打分：利用大數據和人工智能算法對用户英語口語評測、

spark , 大數據 , 數據庫 , 人工智能 , 數據處理

May 06 2025

阿里雲大數據AI - AI 搜索開放平台 x Qwen3：智能搜索全棧解決方案新升級

隨着 AI 技術的飛速發展，搜索已不僅是“查找信息”，更是“創造價值”的核心引擎。阿里雲 AI 搜索開放平台與 Qwen3 模型的深度融合，為企業和開發者提供了從基礎能力到複雜場景的全棧解決方案，讓智能搜索的落地門檻更低、效率更高、體驗更佳。一、AI 搜索開放平台介紹阿里雲 AI 搜索開放平台面向企業及開發者提供豐富的 AI 搜索組件化服務，用户可靈活調用多模態數據解析、大語言模型、效果測評等

大數據 , 搜索 , 阿里雲 , 人工智能

阿里雲大數據AI 博客

博客 / 列表

阿里雲大數據AI - 雲棲實錄 | 阿里雲助力金山辦公打造智能搜索新標杆：WPS 雲文檔搜索技術全面升級

阿里雲大數據AI - 雲棲實錄 | AI原生搜索引擎：Elasticsearch 換“芯”——AI原生搜索內核增強技術

阿里雲大數據AI - ODPS 十五週年實錄 | Data + AI，MaxCompute 下一個15年的新增長引擎

阿里雲大數據AI - 雲棲實錄 | 阿里雲發佈Elasticsearch Serverless 2.0，重塑AI搜索時代基礎設施

阿里雲大數據AI - 雲棲實錄 | AI 搜索引擎如何驅動億級物流：貨拉拉 x 阿里雲 Elasticsearch

阿里雲大數據AI - 兩項世界第一！阿里雲EMR登頂全球數據倉庫性能及性價比排行榜

阿里雲大數據AI - 阿里雲AI搜索年度發佈：開啓Agent時代，重構搜索新範式

阿里雲大數據AI - Lazada 如何用實時計算 Flink + Hologres 構建實時商品選品平台

阿里雲大數據AI - 淘寶閃購基於Flink&Paimon的Lakehouse生產實踐：從實時數倉到湖倉一體化的演進之路

阿里雲大數據AI - Elasticsearch 8.17 智能檢索升級全攻略

阿里雲大數據AI - MaxCompute聚簇優化推薦功能發佈，單日節省2PB Shuffle、7000+CU！

阿里雲大數據AI - 基於PAI-ChatLearn的GSPO強化學習實踐

阿里雲大數據AI - DataWorks千萬級任務調度與全鏈路集成開發治理賦能智能駕駛技術突破

阿里雲大數據AI - Post-Training on PAI (4)：模型微調SFT、DPO、GRPO

阿里雲大數據AI - 跨國數倉遷移背後的統一存儲格式創新-Append Delta Table

阿里雲大數據AI - 阿里雲 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 產品

阿里雲大數據AI - OpenSearch 視頻 RAG 實踐

阿里雲大數據AI - Post-Training on PAI (2)：Ray on PAI，雲上一鍵提交強化學習

阿里雲大數據AI - Post-Training on PAI (2)：Ray on PAI，雲上一鍵提交強化學習

阿里雲大數據AI - AI搜索 MCP最佳實踐

阿里雲大數據AI - 【新模型速遞】PAI-Model Gallery雲上一鍵部署MiniMax-M1模型

阿里雲大數據AI - 一體系數據平台的進化：基於阿里雲 EMR Serverless Spark的持續演進

阿里雲大數據AI - Fusion引擎賦能：流利説如何用阿里雲Serverless Spark實現數倉計算加速

阿里雲大數據AI - AI 搜索開放平台 x Qwen3：智能搜索全棧解決方案新升級

Product

Company

Support

Company

博客 / 列表

阿里雲大數據AI - 雲棲實錄 | 阿里雲助力金山辦公打造智能搜索新標杆：WPS 雲文檔搜索技術全面升級

阿里雲大數據AI - 雲棲實錄 | AI原生搜索引擎：Elasticsearch 換“芯”——AI原生搜索內核增強技術

阿里雲大數據AI - ODPS 十五週年實錄 | Data + AI，MaxCompute 下一個15年的新增長引擎

阿里雲大數據AI - 雲棲實錄 | 阿里雲發佈Elasticsearch Serverless 2.0，重塑AI搜索時代基礎設施

阿里雲大數據AI - 雲棲實錄 | AI 搜索引擎如何驅動億級物流：貨拉拉 x 阿里雲 Elasticsearch

阿里雲大數據AI - 兩項世界第一！阿里雲EMR登頂全球數據倉庫性能及性價比排行榜

阿里雲大數據AI - 阿里雲AI搜索年度發佈：開啓Agent時代，重構搜索新範式

阿里雲大數據AI - Lazada 如何用實時計算 Flink + Hologres 構建實時商品選品平台

阿里雲大數據AI - 淘寶閃購基於Flink&Paimon的Lakehouse生產實踐：從實時數倉到湖倉一體化的演進之路

阿里雲大數據AI - Elasticsearch 8.17 智能檢索升級全攻略

阿里雲大數據AI - MaxCompute聚簇優化推薦功能發佈，單日節省2PB Shuffle、7000+CU！

阿里雲大數據AI - 基於PAI-ChatLearn的GSPO強化學習實踐

阿里雲大數據AI - DataWorks千萬級任務調度與全鏈路集成開發治理賦能智能駕駛技術突破

阿里雲大數據AI - Post-Training on PAI (4)：模型微調SFT、DPO、GRPO

阿里雲大數據AI - 跨國數倉遷移背後的統一存儲格式創新-Append Delta Table

阿里雲大數據AI - 阿里雲 EMR Serverless Spark： 面向 Data+AI 的高性能 Lakehouse 產品

阿里雲大數據AI - OpenSearch 視頻 RAG 實踐

阿里雲大數據AI - Post-Training on PAI (2)：Ray on PAI，雲上一鍵提交強化學習

阿里雲大數據AI - Post-Training on PAI (2)：Ray on PAI，雲上一鍵提交強化學習

阿里雲大數據AI - AI搜索 MCP最佳實踐

阿里雲大數據AI - 【新模型速遞】PAI-Model Gallery雲上一鍵部署MiniMax-M1模型

阿里雲大數據AI - 一體系數據平台的進化：基於阿里雲 EMR Serverless Spark的持續演進

阿里雲大數據AI - Fusion引擎賦能：流利説如何用阿里雲Serverless Spark實現數倉計算加速

阿里雲大數據AI - AI 搜索開放平台 x Qwen3：智能搜索全棧解決方案新升級

阿里雲大數據AI - 阿里雲 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 產品