博客 / 列表

阿里雲大數據AI - 雲棲實錄 | 阿里雲助力金山辦公打造智能搜索新標杆:WPS 雲文檔搜索技術全面升級

隨着大模型時代到來,用户需求從“關鍵詞匹配”轉向“自然語言交互與問答式搜索”。2025年9月26日,杭州雲棲大會“AI搜索與向量引擎”分論壇上,金山辦公雲搜索技術總監——陳海榮宣佈,其核心產品WPS雲文檔搜索功能結合阿里雲搜索引擎完成重大升級,正式邁入3.0時代。 此次升級以阿里雲Elasticsearch混合檢索與AI語義搜索能力為核心,全面解決海量文檔場景下的檢索效率、語義理解與成本優化難題,

elasticsearch , 搜索 , wps , 阿里雲

阿里雲大數據AI - 雲棲實錄 | AI原生搜索引擎:Elasticsearch 換“芯”——AI原生搜索內核增強技術

9月26日,雲棲大會AI搜索與向量引擎分論壇上,阿里雲智能集團技術專家魏子珺和愛橙科技技術專家周文喆,詳細闡釋了“AI原生搜索引擎:Elasticsearch換芯”技術主題,重點圍繞AI原生搜索內核增強技術的升級與替換。通過核心能力重構,讓Elasticsearch在AI原生時代具備更強的多模態理解、自然語言處理以及深度任務執行能力,為搜索場景帶來性能、智能化與可擴展性的大幅提升。這標誌着AI搜索

elasticsearch , 搜索 , 阿里雲

阿里雲大數據AI - ODPS 十五週年實錄 | Data + AI,MaxCompute 下一個15年的新增長引擎

ODPS十五週年實錄|Data+AI,MaxCompute下一個15年的新增長引擎 本文根據ODPS十五週年·年度升級發佈實錄整理而成,演講信息如下: 於得水(得水):阿里雲智能集團計算平台事業部資深技術專家 活動:【數據進化·AI啓航】ODPS年度升級發佈 此次演講內容共分為三個部分: 第一部分,介紹MaxCompute面向Python和AI生態計算的演進歷史。從最初的SDKLibrary到表示

大數據 , 人工智能 , 分佈式 , SQL , Python

阿里雲大數據AI - 雲棲實錄 | 阿里雲發佈Elasticsearch Serverless 2.0,重塑AI搜索時代基礎設施

2025年9月26日,在杭州雲棲大會“AI搜索與向量引擎”分論壇上,阿里雲智能集團高級技術專家——賈新禹正式發佈ElasticsearchServerless2.0,並首次系統性闡述其技術架構與產品價值。這一全新升級的Serverless解決方案,以“極致彈性、智能核心、AI生態融合”三大技術基石,直面AI搜索時代的工程化挑戰,為企業提供一站式構建AI搜索能力的基礎設施。 時代鴻溝:AI搜

elasticsearch , 搜索 , 阿里雲 , 人工智能

阿里雲大數據AI - 雲棲實錄 | AI 搜索引擎如何驅動億級物流:貨拉拉 x 阿里雲 Elasticsearch

在數字化與智能化浪潮的推動下,海量數據的高效檢索與實時分析,正成為各行業核心競爭力的關鍵之一。作為覆蓋全球14+市場、服務數千萬用户的智慧物流與同城貨運平台,貨拉拉不僅在業務規模與運營效率上追求卓越,也在技術底座上不斷革新。 9月26日,雲棲大會AI搜索與向量引擎分論壇上,貨拉拉Elasticsearch技術負責人——陳敏華先生分享了Elasticsearch在全球化高併發業務場景下的深度實踐,以

elasticsearch , 阿里雲 , 人工智能

阿里雲大數據AI - 兩項世界第一!阿里雲EMR登頂全球數據倉庫性能及性價比排行榜

節前,和大家分享一個好消息: 阿里雲EMR在全球數據倉庫性能及性價比排行榜中斬獲兩項全球冠軍! 在“數據分析”性能測試TPC-H榜單中,阿里雲EMRServerlessStarRocks(Stella1.2.0內核)以QphH超754萬分的性能結果斬獲全球冠軍,領先第二名111%; 在“決策支持類”性能測試TPC-DS榜單中,阿里雲EMRServerlessSpark(Fusion2.0內

spark , 阿里雲 , starrocks

阿里雲大數據AI - 阿里雲AI搜索年度發佈:開啓Agent時代,重構搜索新範式

AI搜索年度發佈——AgenticSearch創新、雲原生搜索引擎進化、AI搜索產品融合升級_ 年初大模型技術的爆發式發展,使得傳統用户搜索場景被顛覆,據某權威研究機構數據顯示,超58%的美國用户使用Google時不再點擊搜索結果,傳統搜索流量逐漸轉向AI驅動工具,這一轉變背後將重構用户搜索的交互邏輯、數據形態與技術架構。 9月26日杭州舉行的雲棲大會AI搜索專場上,阿里雲智能集團計算平台事業部A

雲棲大會 , 搜索 , 阿里雲 , 人工智能

阿里雲大數據AI - Lazada 如何用實時計算 Flink + Hologres 構建實時商品選品平台

本文整理自 Lazada Group EVP 及供應鏈技術負責人陳立羣在 Flink Forward Asia 2025 新加坡實時分析專場的分享。 引言:實時數據驅動,海外電商競爭的新高地 在電商行業,用户行為瞬息萬變,促銷節奏日益緊湊,能否在毫秒級做出數據驅動的決策,已成為決定成敗的關鍵。作為東南亞領先的電商平台,Lazada 面臨着一項巨大挑戰:在六個國家管理數十億商品 SKU,同時為不同市

flink

阿里雲大數據AI - 淘寶閃購基於Flink&Paimon的Lakehouse生產實踐:從實時數倉到湖倉一體化的演進之路

摘要: 本文整理自淘寶閃購(餓了麼)大數據架構師王沛斌老師在FlinkForwardAsia2025城市巡迴上海站的分享。 引言 在數字化轉型的浪潮中,企業對實時數據處理的需求日益增長。傳統的實時數倉架構在面對業務快速變化和數據規模爆炸性增長時,逐漸暴露出數據孤島、成本高企、研發效率低下等問題。淘寶閃購(餓了麼)作為阿里巴巴集團重要的本地生活服務平台,在數據架構演進過程中積累了豐富的實踐經驗

阿里雲 , flink

阿里雲大數據AI - Elasticsearch 8.17 智能檢索升級全攻略

Elasticsearch 作為一款強大的搜索與分析引擎,支持傳統檢索、AI 搜索(如語義檢索、RAG、多模態檢索)及智能運維場景,結合阿里雲AI搜索開放平台提供一站式解決方案。 本文介紹了最新發布的 Elasticsearch 8.17 檢索增強型應用在性能和功能上的特性。同時本文介紹了 Elacticsearch 選購指南,幫助用户根據業務需求選擇版本和節點配置,利用容量規劃工具優化資源分配,

搜索

阿里雲大數據AI - MaxCompute聚簇優化推薦功能發佈,單日節省2PB Shuffle、7000+CU!

Shuffle優化利器|聚簇優化推薦 在MaxCompute每日EB級規模的計算場景中,Join、Group By、Window等算子所產生的Shuffle數據流量已佔據整體網絡傳輸的60%以上,成為影響大數據計算成本的核心因素。以阿里內部某業務為例,單日Shuffle數據量高達2 PB,直接消耗7000+ CU資源——這一數字僅是問題的冰山一角。 MaxCompute 哈希聚簇(Hash Clu

hash , shuffle

阿里雲大數據AI - 基於PAI-ChatLearn的GSPO強化學習實踐

引言 近期,阿里通義千問團隊創新性提出了 GSPO 算法,PAI-ChatLearn 框架第一時間支持並復現了GSPO的強化學習訓練過程,本文將介紹在 PAI 平台復現 GSPO 的最佳實踐。 GSPO 算法介紹 強化學習(Reinforcement Learning, RL)是拓展語言模型、增加其深度推理與問題求解能力的關鍵技術範式。為了持續拓展 RL,首要前提是確保穩定、魯棒的訓練過程。現有的

大數據處理 , 強化學習 , 最佳實踐 , 人工智能 , 模型

阿里雲大數據AI - DataWorks千萬級任務調度與全鏈路集成開發治理賦能智能駕駛技術突破

一、智能駕駛數據預處理的行業挑戰 隨着智能駕駛技術的逐級演進,數據驅動的模型訓練範式對數據預處理環節提出三大挑戰: 數據孤島化:需整合攝像頭、LiDAR、毫米波雷達、V2X通信等多模態數據,傳統ETL工具難以實現高效集成。 任務爆炸式增長:單輛測試車每日產生可達50TB 數據,需支持百萬甚至千萬級任務併發調度與彈性擴容。 開發運維一體化需求:要求數據流水線具備高可用性(99.99% SLA

大數據處理 , 大數據 , 自動駕駛 , 數據庫 , 人工智能

阿里雲大數據AI - Post-Training on PAI (4):模型微調SFT、DPO、GRPO

引言 Post-Training(即模型後訓練)作為大模型落地的重要一環,能顯著優化模型性能,適配特定領域需求。相比於 Pre-Training(即模型預訓練),Post-Training 階段對計算資源和數據資源需求更小,更易迭代,因此備受推崇。 近期,我們將體系化地分享基於阿里雲人工智能平台 PAI 在強化學習、模型蒸餾、數據預處理、SFT等方向的技術實踐,旨在清晰地展現 PAI 在 Post

大數據處理 , 雲計算 , 算法 , 人工智能 , 模型

阿里雲大數據AI - 跨國數倉遷移背後的統一存儲格式創新-Append Delta Table

本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解BigQuery遷移至MaxCompute過程中的關鍵挑戰與技術創新。本篇為第一篇,跨國數倉遷移背後MaxCompute的統一存儲格式創新。 注:客户背景為東南亞頭部科技集團,文中用GoTerra表示 背景 當東南亞頭部科技集團GoTerra決定將其集團數據倉庫從BigQuery遷移至阿里雲MaxCompute時,這一決策背後折射出更深

大數據處理 , 大數據 , 存儲技術 , 數據遷移 , 人工智能

阿里雲大數據AI - 阿里雲 EMR Serverless Spark: 面向 Data+AI 的高性能 Lakehouse 產品

作者:玄橙 - 阿里雲 EMR Serverless Spark 產品專家 EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 產品。它為企業提供了一站式的數據平台服務,包括任務開發、調試、調度和運維等,極大地簡化了數據處理和模型訓練的全流程。同時,它100%兼容開源 Spark 生態,能夠無縫集成到客户現有的數據平台。使用 EMR Serverle

spark , 大數據 , 人工智能 , serverless , 數據處理

阿里雲大數據AI - OpenSearch 視頻 RAG 實踐

背景 RAG(Retrieval-Augmented Generation)技術通過結合信息檢索與大模型生成能力,可以有效降低“幻覺率”,提升回答的準確性。目前,RAG 技術已廣泛應用於多個領域,但主要集中於文本數據的處理。隨着視覺語言模型(Vision-Language Models, VLM)和多模態向量模型的快速發展,RAG 的應用邊界正在不斷擴展,逐步從傳統的純文本場景延伸至多模態場景,其

音視頻 , 算法 , 數據庫 , 人工智能 , 視頻處理

阿里雲大數據AI - Post-Training on PAI (2):Ray on PAI,雲上一鍵提交強化學習

1. 前言 1.1 Ray Ray是一個開源的分佈式計算框架,集成了多個AI庫,擁有豐富的生態系統,包括Ray Tune(超參數調優)、Ray RLlib(強化學習)、Ray Serve(模型部署)、RaySGD 的分佈式運行環境,提供了全面的AI解決方案,使得AI並行訓練更容易和高效。 OpenAI 聲明使用了 Ray 作為ChatGPT 大模型訓練的底層平台,參考 ​​How Does Ray

開發 , 標註 , 數據庫 , 人工智能 , 模型

阿里雲大數據AI - Post-Training on PAI (2):Ray on PAI,雲上一鍵提交強化學習

1. 前言 1.1 Ray Ray是一個開源的分佈式計算框架,集成了多個AI庫,擁有豐富的生態系統,包括Ray Tune(超參數調優)、Ray RLlib(強化學習)、Ray Serve(模型部署)、RaySGD 的分佈式運行環境,提供了全面的AI解決方案,使得AI並行訓練更容易和高效。 OpenAI 聲明使用了 Ray 作為ChatGPT 大模型訓練的底層平台,參考 ​​How Does Ray

大數據處理 , 開發 , 標註 , 人工智能 , 模型

阿里雲大數據AI - AI搜索 MCP最佳實踐

背景 那些 LLM 不知道的事 嘗試直接詢問LLM“今天天氣如何”時,會發現LLM無法回答——它既不知道“今天”是哪天,也無法獲取地理位置信息。這揭示了LLM的侷限:缺乏與外部工具和實時數據的交互能力。 為解決這一問題,MCP(Model Context Protocol)應運而生。通過標準化協議,MCP使LLM能夠自主調用工具(如天氣API、地理位置服務),並解耦Agent與Tools的開發,顯

大數據 , 搜索 , 人工智能 , 檢索系統 , 數據處理

阿里雲大數據AI - 【新模型速遞】PAI-Model Gallery雲上一鍵部署MiniMax-M1模型

MiniMax-M1 模型是由 MiniMax 公司6月17日全新推出的大語言模型,使用hybrid Mixture-of-Experts (MoE) 架構,並使用了 lightning attention 機制。 MiniMax 公司稱其為世界上第一個開源的大規模混合架構的推理模型。 MiniMax-M1 模型原生支持 1 百萬個 token 的上下文長度, 並且 lightning atten

llm , 大數據處理 , 雲計算 , 人工智能 , 模型

阿里雲大數據AI - 一體系數據平台的進化:基於阿里雲 EMR Serverless Spark的持續演進

作者:億緹希技術(上海)有限公司 馬博、王建春 一、背景介紹 一體系汽配供應鏈平台(以下簡稱一體系),專注提供高品質發動機、變速箱、底盤技術零部件,融匯優質實體資源和創新互聯網科技,為上游品牌商提供高效的下沉渠道,為下游零售商帶來可信賴的產品和服務,讓採購更便捷可靠,實現行業數字化轉型。 隨着企業對實時數據分析、AI 能力和大規模數據處理的需求不斷增長,平台數據量龐大且持續增長、數據呈現半結構

spark , 大數據處理 , 雲計算 , 數據庫 , serverless

阿里雲大數據AI - Fusion引擎賦能:流利説如何用阿里雲Serverless Spark實現數倉計算加速

作者:流利説 Ibson(大數據負責人)/ Bruce(數據工程師) 背景介紹 行業 流利説是領先的科技驅動的教育公司,公司自主研發了領先的英語口語評測、寫作打分引擎和深度自適應學習系統,致力於為用户提供一整套系統性的英語學習解決方案,從聽、説、讀、寫多個維度提升用户的英語水平。 業務特徵 AI 打分:利用大數據和人工智能算法對用户英語口語評測、

spark , 大數據 , 數據庫 , 人工智能 , 數據處理

阿里雲大數據AI - AI 搜索開放平台 x Qwen3:智能搜索全棧解決方案新升級

隨着 AI 技術的飛速發展,搜索已不僅是“查找信息”,更是“創造價值”的核心引擎。阿里雲 AI 搜索開放平台與 Qwen3 模型的深度融合,為企業和開發者提供了從基礎能力到複雜場景的全棧解決方案,讓智能搜索的落地門檻更低、效率更高、體驗更佳。 一、AI 搜索開放平台介紹 阿里雲 AI 搜索開放平台面向企業及開發者提供豐富的 AI 搜索組件化服務,用户可靈活調用多模態數據解析、大語言模型、效果測評等

大數據 , 搜索 , 阿里雲 , 人工智能