博客 / 列表

阿里雲大數據AI - 一套底座支撐多場景:高德地圖基於 Paimon + StarRocks 軌跡服務實踐

作者:趙宇(司忱)/數據開發工程師 導讀: 本文整理自高德數據開發工程師、趙宇在StreamingLakehouseMeetup上的分享。聚焦高德地圖軌跡服務在實時湖倉方向的落地實踐。 面對軌跡數據“高實時、高併發、長週期存儲”的典型特徵,高德團隊以訪問跨度為依據完成熱/温/冷分層,並以ApachePaimon+StarRocks構建統一的數據底座,支撐軌跡數據的近實時寫入與高性能查詢。

阿里雲 , starrocks , paimon

阿里雲大數據AI - 面向 Interleaved Thinking 的大模型 Agent 蒸餾實踐

前言 大語言模型Agent在複雜任務中展現出卓越能力。相比傳統線性推理鏈(Chain-of-Thought),"交錯思維"(InterleavedThinking)通過"思考→行動→觀察→再思考"的閉環機制,有效解決了狀態漂移和上下文遺忘問題,顯著提升多輪交互的連貫性與策略調整能力。 阿里雲PAI團隊結合交錯思維的推理機制,構建了涵蓋多輪交互的訓練數據集,訓練更符合交錯思維特性的輕量級Agent模

阿里雲 , 人工智能

阿里雲大數據AI - 迅雷基於阿里雲 EMR Serverless Spark 實現數倉資源效率與業務提升

劉敏|迅雷大數據平台負責人 尤帥|迅雷大數據平台資深工程師 陳照|阿里雲公共雲業務事業部解決方案架構師 潘錦棉|阿里雲公共雲業務事業部解決方案架構師 劉瑞偉|阿里雲公共雲業務事業部大數據解決方案架構師 一、背景介紹 企業簡介 迅雷(納斯達克股票代碼:XNET)作為全球分佈式技術領域的先行者,以技術構建商業,以服務創造共識,從而建立一個高效可信的存儲與傳輸網絡。 自2003年

spark , 阿里雲

阿里雲大數據AI - 基於DataWorks Notebook+MaxCompute MaxFrame一站式構建AI數據處理Pipeline

在大模型與 AI 應用快速落地的今天,企業對“數據準備 → 數據處理 → 模型訓練”的端到端效率提出了更高要求。阿里雲數據開發治理平台 DataWorks聯合雲原生大數據計算服務MaxCompute,為您提供一套開箱即用、安全合規、彈性可擴展的 AI 數據開發環境,特別適合需要處理 TB/PB 級結構化、半/非結構化數據的 AI 工程師、數據科學家與算法團隊。 本文將帶您快速瞭解如何基於阿里雲兩大

阿里雲

阿里雲大數據AI - StarRocks + Paimon: 構建 Lakehouse Native 數據引擎

繼去年StreamingLakehouseMeetup順利舉辦後,StreamingLakehouseMeetup·OnlineEP.2|Paimon×StarRocks共話實時湖倉於12月10日重磅迴歸。在這場直播中,阿里雲計算平台事業部開發工程師張慶玉聚焦StarRocks與ApachePaimon的深度集成實踐,探討如何構建真正意義上的LakehouseNative數據引擎。 在數據湖已成為

阿里雲 , paimon

阿里雲大數據AI - 真實案例覆盤:從“三套煙囱”到 All in ES,這家企業如何砍掉 40% 運維成本?

文/阿里雲AI搜索產研團隊 在做搜索技術架構諮詢時,我們經常聽到一句話:“我也知道業務系統複雜,但不知道怎麼簡化架構部署?” 今天,我們想聊聊“某知名互聯網泛娛樂視覺平台A”(以下簡稱A公司)的搜索架構演進故事。他們的雲上遷移經歷,是無數正在為“技術棧碎片化”與"AI搜索架構改造"頭疼的企業的真實寫照。 第一階段:為了業務的“快”,他們建了三根煙囱 一年前,A公司的技術架構負責人老李面臨着極大的壓

elasticsearch , 搜索 , 阿里雲 , 人工智能

阿里雲大數據AI - 阿里雲 PAI 團隊獲邀在 ChinaSys 2025 分享動態數據調度方案 Skrull

第 29 屆中國計算機系統研討會(ChinaSys 2025) 將於 12 月 27 日- 12 月 28 日,在吉林長春舉辦。ChinaSys 是中國計算機系統及相關領域的學術團體,宗旨是為本領域的研究者和從業者提供資源共享、交換思想和會晤的平台,交流和探討系統領域的最新研究成果,促進中國計算機系統行業的發展。 阿里雲大數據 AI 團隊將深度參與ChinaSys 2025。 PAI 團隊將在 C

阿里雲 , 人工智能

阿里雲大數據AI - Apache Paimon 多模態數據湖實踐:從結構化到非結構化的技術演進

在近期的 Streaming Lakehouse Meetup · Online EP.2|Paimon × StarRocks 共話實時湖倉 直播中,Apache Paimon PMC 成員/阿里雲數據湖資深工程師葉俊豪帶來了關於 Paimon 多模態數據湖的深度技術分享。 隨着大模型訓練對數據規模與多樣性的要求不斷提升,傳統以批處理為中心的數據湖架構已難以滿足 AI 工作負載對實時性、靈活性和

阿里雲 , paimon , 數據湖

阿里雲大數據AI - 【NeurIPS2025】阿里雲 PAI 團隊動態數據調度方案 Skrull 入選

2025年12月,第39屆神經信息處理系統大會(NeurIPS:Annual Conference on Neural Information Processing System)在美國加利福尼亞州聖迭戈順利召開。NeurIPS是機器學習領域的頂級會議,與ICML、ICLR並稱為機器學習領域三大會議。阿里雲 PAI 團隊與中國科學院大學前沿交叉科學學院等單位合作的研究成果——輕量級動態數據調度方案

阿里雲 , 人工智能

阿里雲大數據AI - 1TB數據,ES卻收到了2TB?揪出那個客户端中的“隱形復讀機”

你是否經歷過這樣的“靈異事件”: 業務監控顯示,你的日誌服務每秒只寫入了 50MB 的數據,全天累計寫入 1TB。 但在雲廠商的賬單,或者內網交換機的監控上,流量卻高達 100MB/s,全天消耗了 2TB 的帶寬。 網卡經常莫名其妙被打滿,造成正常的業務請求卡頓、丟包。 排查了一圈: 不是 TCP 重傳(Retransmission 正常)。 不是 SSL 握手膨脹(HTTPS 開銷沒那麼大

elasticsearch , 監控 , 阿里雲

阿里雲大數據AI - DataWorks 又又又升級了,這次我們通過 Arrow 列存格式讓數據同步速度提升10倍!

引言 在大數據時代,數據集成作為企業數據流轉的核心樞紐,承擔着異構數據源之間高效同步的重要職責。隨着數據量的爆炸式增長,傳統的行存同步方式在面對大規模列存數據處理時,逐漸顯露出性能瓶頸。 為解決這一挑戰,,DataWorks數據集成推出基於Apache Arrow列存格式的高性能同步能力,實現從“行式傳輸”到“列式直通”的技術躍遷。通過引入零拷貝、列式內存標準Apache Arrow,DataWo

大數據 , 阿里雲

阿里雲大數據AI - Hologres Dynamic Table:高效增量刷新,構建實時統一數倉的核心利器

在企業數據架構逐步走向實時化與一體化的過程中,如何高效處理“大量歷史+少量新增”的業務數據,已成為建設統一數倉與實時數倉時繞不開的關鍵挑戰。 傳統全量刷新方式在面對億級歷史數據時,往往面臨刷新延遲高、計算成本大、鏈路複雜等問題。為了解決這些痛點,業界逐漸形成了一種新的數據處理範式——DynamicTable(動態表),它通過聲明式語法自動維護物化結果,並支持高效的增量刷新能力。 阿里雲Hologr

阿里雲

阿里雲大數據AI - OmniThoughtV:面向多模態深度思考的高質量數據蒸餾

作者:嶽元浩(顧城)、汪誠愚(熊兮)、黃俊(臨在) 背景 近年來,多模態人工智能技術迅猛發展,推動了視覺、語言、語音等多種模態信息的深度融合與理解。尤其在多模態深度推理任務中, GPT-4V 等前沿模型通過模擬人類的鏈式思維過程,展現出強大的跨模態推理能力。然而,當前的多模態大模型在實際應用中仍面臨兩個關鍵問題:首先,能力較強的SOTA模型往往參數規模龐大、計算資源消耗高,導致部署成本高昂,難以在

阿里雲 , 人工智能

阿里雲大數據AI - 在 DataWorks 中一鍵部署大模型,即刻用於數據集成和數據開發

在AI應用快速落地的今天,越來越多企業希望將大模型能力融入數據處理流程——無論是文本分析、智能摘要,還是RAG知識庫構建。但傳統模式下,模型部署依賴專業MLOps團隊,需自行搭建推理環境、配置GPU資源、維護服務穩定性,門檻高、週期長、成本重。 現在,阿里雲DataWorks發佈大模型服務能力,基於Serverless資源組,支持用户一鍵部署主流大模型,並可在數據集成和數據開發任務中直接調用模型A

阿里雲 , 大模型

阿里雲大數據AI - Forrester發佈流式數據平台報告:Ververica首次躋身領導者行列,實時AI能力獲權威認可

近日,全球權威研究機構Forrester正式發佈《The Forrester Wave™: Streaming Data Platforms, Q4 2025》報告(後簡稱“報告”),Ververica首次進入領導者象限,成為該年度報告中最受關注的"新晉領導者"。這一突破性成就標誌着Ververica在全球流式數據平台領域的技術實力和市場影響力獲得行業認可,其在實時AI領域的創新能力尤為突出。

阿里雲 , flink

阿里雲大數據AI - Fusion 引擎賦能:七貓如何使用阿里雲 EMR Serverless Spark 實現數倉加速

一、背景介紹 七貓公司介紹及業務規模 七貓是一家深耕文化娛樂行業的互聯網企業,總部坐落在上海市前灘中心。七貓旗下原創文學網站七貓中文網於2017年5月正式上線,專注為原創作者提供創作指導、版權運營等全方位一體化服務。七貓拳頭產品七貓免費小説App於2018年8月正式上線,專注為用户提供正版、免費、優質的網絡文學內容閲讀服務。現平台用户超6億,規模位列數字閲讀行業前列。 原有大數據

spark , 阿里雲

阿里雲大數據AI - EMR AI助手開啓公測:用AI重塑大數據運維,更簡單、更智能

在大數據技術深度融入企業核心業務的今天,EMR(E-MapReduce)集羣的規模與複雜性持續攀升,運維挑戰日益凸顯。複雜的大數據集羣運維一直是技術團隊的痛點——組件多、依賴關係複雜,故障定位困難,高頻變更帶來的穩定性風險,以及對專業運維人員的高度依賴,這些問題無不在考驗着企業的技術管理能力。 為破解這一難題,阿里雲正式推出 EMR AI助手(EMR Agent) ——一款專為大數據場景打造的智能

阿里雲 , 人工智能

阿里雲大數據AI - 朝陽永續基於阿里雲 Milvus 構建金融智能投研產品“AI 小二”

一、客户簡介 朝陽永續是先進的金融數據與智能服務提供商,致力於為基金管理公司、證券研究機構及專業投資者提供高質量、精準和全面的數據分析與決策支持工具。依託多年深耕金融行業的數據積累與投研經驗,朝陽永續推出其核心產品——AI小二,一款融合大模型技術的AI金融投研智能體。 AI小二基於生成式AI能力,結合阿里雲向量檢索服務Milvus版(簡稱阿里雲Milvus),打造了集“智能問答、極速研究、深度分析

milvus , 向量 , 阿里雲 , 數據庫

阿里雲大數據AI - PAI Physical AI Notebook詳解4:基於仿真的GR00T-N1.5模型微調

在前3期Physical AI詳解系列中,我們詳細解讀了數據採集、擴增、增強的全過程,以及導航模型(X-Mobility)微調訓練的全過程。 在本期,我們將針對更復雜的VLA模型(以GR00T-N1.5為例)進行微調,同樣需要經過人工演示、數據擴增、模仿學習、在環驗證這幾個步驟。 但是,相比前例中的BC-RNN和X-Mobility模型,GR00T-N1.5是一個更復雜的模型,需要更大規模

阿里雲 , 人工智能

阿里雲大數據AI - 阿里雲 Elasticsearch 的 AI 革新:高性能、低成本、智能化的搜索新紀元

數據爆炸、多模態融合、實時智能推理的浪潮,正在重塑企業的搜索需求——它們需要的不僅是“找到信息”,還要更快、更準、更智能地理解和響應複雜的業務場景。 一、AI搜索的背景與趨勢 在AIGC技術席捲全球的當下,搜索技術正迎來前所未有的升級窗口。電商平台通過多模態搜索精準理解用户需求,酒旅行業借力智能體Agent進行行程規劃與住宿推薦,傳統企業則利用獨有知識庫和RAG技術賦能售前售後服務——搜索能力的智

搜索 , 阿里雲 , 人工智能

阿里雲大數據AI - 【跨國數倉遷移最佳實踐 12】阿里雲 MaxCompute 實現 BigQuery 10 萬條 SQL 智能轉寫遷移

作者:曹霖 本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解BigQuery遷移至MaxCompute過程中的關鍵挑戰與技術創新。本篇為第十二篇,基於阿里雲MaxCompute實現BigQuery10萬條SQL智能轉寫遷移。 注:客户為東南亞頭部科技集團,文中用GoTerra表示。 一、項目背景 在全球化和數字化加速的浪潮下,越來越多的企業出於成本優化、合規要求和業務協同等原因,考慮

大數據 , 阿里雲 , SQL

阿里雲大數據AI - EMR Serverless Stella 1.0 技術分享:StarRocks企業級版本內核重大突破

在今年雲棲大會上,EMRServerlessStella1.0正式發佈,這是一款面向企業級場景深度優化的高性能數據分析引擎。阿里雲開源大數據平台OLAP引擎負責人周康系統性地分享了Stella在存算分離架構、Lakehouse場景以及全文檢索等三大核心場景下的深度優化經驗,為業界提供了大規模OLAP系統工程化實踐的寶貴參考。Stella引擎的發佈將為企業級用户提供更加專業、高效的OLAP解決方案。

阿里雲 , starrocks

阿里雲大數據AI - PAI Physical AI Notebook詳解3:基於仿真的導航模型訓練

在前兩期,我們已經分別基於仿真環境和世界模型進行了針對Manipulation(動作控制)模型的訓練數據合成與模仿學習。我們來回顧下整個過程: 針對具身智能場景,除了Manipution,Navigation(導航)也是一類非常重要的控制模型,本期我們就來詳細解讀基於仿真環境的導航模型訓練的全過程。 和動作控制模型類似,對導航模型的訓練也可以通過人工演示、數據擴增、數據增強、模仿學習和模型

阿里雲 , 人工智能 , 模型

阿里雲大數據AI - 雲棲實錄 | 洋錢罐基於 EMR Serverless 產品構建全球一體化數字金融平台

演講人:宋曉峯洋錢罐大數據運維總監 十年破壁:從數據築基到智能生態的全鏈路實踐 一、數據築基——自建大數據集羣的攻堅與突破 背景介紹 瓴嶽科技(Fintopia)是以大數據和人工智能為基礎的數字科技集團,為全球用户提供卓越的金融體驗。2015年成立至今,瓴嶽科技始終聚焦消費金融,業務遍佈中國大陸、東南亞、拉丁美洲和非洲等;集團旗下擁有洋錢罐、Easycash等知名品牌,截至2025年,服務全球金融

spark , 大數據 , 阿里雲 , starrocks