為什麼 OpenSearch 向量檢索能提速 13 倍
在當今的數字化時代,以音視頻等多媒體內容為代表的非結構化數據呈現出爆炸式增長。這類數據無法簡單地用傳統數據庫中的行列數據來表示,因此向量檢索技術應運而生。非結構化數據通常被轉換為向量表示,並存儲在向量數據庫中。這種向量化模型能夠提取並捕捉到數據中的特徵,在多維的向量空間中進行有效表示。 一個形象的例子是:embedding(king)−embedding(man)+embedding(wom
在當今的數字化時代,以音視頻等多媒體內容為代表的非結構化數據呈現出爆炸式增長。這類數據無法簡單地用傳統數據庫中的行列數據來表示,因此向量檢索技術應運而生。非結構化數據通常被轉換為向量表示,並存儲在向量數據庫中。這種向量化模型能夠提取並捕捉到數據中的特徵,在多維的向量空間中進行有效表示。 一個形象的例子是:embedding(king)−embedding(man)+embedding(wom
在生成式AI浪潮下,數據不再只是“被搬運的原料”,更應是“可理解、可推理、可挖掘價值”的智能資產。然而,傳統ETL(Extract-Transform-Load)流程仍停留在結構化數據處理層面,面對海量文本、日誌、反饋等非結構化數據時,往往依賴人工標註或複雜開發鏈路,效率低、成本高、響應慢。 為此,阿里雲大數據開發治理平台DataWorks數據集成全新智能化升級,以“AI釋放數據價值”為核心,正式
PAIPhysicalAINotebook詳解1:基於Isaac仿真的操作動作數據擴增與模仿學習 PhysicalAI是AI技術演進的一個熱門話題,目的是基於Transformer、Diffusion等主流大模型結構,訓練得到可以在實際物理空間中指導機器人本體完成各種任務的AI模型。 在PhysicalAI模型的開發過程中,需要用到遙操採集、數據合成、數據增強、模仿學習、模型測評等多個過程,也會用
本文根據9月25日雲棲大會--《通義基於MaxCompute進行大模型數據管理及處理》演講整理而成,演講信息如下: 演講人:曾劍元通義實驗室系統研發總監 主要內容: _AI數據的特點,跟傳統大數據的區別_ _通義實驗室為什麼基MaxCompute來構建我們的數據平台_ _通義實驗室的大模型的數據平台架構_ AI數據區別於傳統數據的三個特點 第一個特點是數據組織的無標準。像傳統大數據基本上是一個大寬
本文根據2025雲棲大會演講整理而成,演講信息如下: 演講人: 張治國阿里雲智能計算平台事業部MaxCompute負責人 於得水阿里雲智能集團資深技術專家 謝德軍阿里雲智能集團資深技術專家 在雲棲大會的ODPS分論壇上,阿里雲MaxCompute迎來了十五週年的重大技術發佈。從雲原生到AI原生,MaxCompute正式宣告邁入一個全新的發展階段,推出AI原生數據倉庫核心能力
2025年雲棲大會,Hologres發佈全新4.0版本升級,以“AI時代的一站式多模態分析平台”為核心理念,全面展示了Hologres在結構化、半結構化與非結構化數據分析能力上的重大突破,特別是在OLAP分析、點查、向量檢索、全文檢索、湖倉協同及AI Function集成等方面的領先優勢,刷新ClickBench、JSONBench、VectorDBBench等多項榜單,登頂第一。 直播回
在大模型與人工智能迅猛發展的今天,我們正處在一個“數據爆炸”的時代。據IDC統計,2025年全球數據總量將達到175ZB,其中超過90%為圖片、視頻等非結構化數據。這些數據藴藏着巨大的商業價值,但如何高效存儲、檢索並挖掘其深層語義信息,成為企業面臨的核心挑戰。 而這一切的關鍵,正是——向量化。 無論是圖像特徵提取,還是大語言模型對自然語言的理解,都依賴於將原始數據轉化為高維向量。隨着AI應用的普及
EMR發展歷程回顧 自2016年首次發佈以來,阿里雲EMR始終以開源生態為基石,逐步構建起覆蓋Hadoop、Hive、Spark、StarRocks等主流開源計算和存儲引擎的公有云大數據平台。九年間,EMR產品技術不僅支撐了阿里巴巴集團內部如淘寶閃購、A+等核心業務的海量數據處理需求,也服務了互聯網、金融、零售、製造等眾多行業的公有云客户。從最初的開源組件版本和服務管控,到如今面向湖倉一體、實時智
作者:海博 理想汽車高級大數據工程師、賈天福 理想汽車高級大數據工程師 引言:智能汽車時代的數據挑戰 隨着電動車和智能汽車的快速普及,車聯網信號數據呈現爆發式增長。理想汽車作為國內領先的智能電動汽車企業,已擁有超過100萬輛在網車輛,每輛車每秒上報多達上萬個信號(如車速、胎壓、温度、電池狀態等),整體數據規模達到萬億級別。這些數據不僅體量巨大,而且對實時性要求極高——端到端延遲需控制在2秒以內,至
本文根據2025雲棲大會演講整理而成,演講信息如下 _演講人:_聶清零跑汽車大數據高級專家 零跑科技的快速發展與數據挑戰 零跑科技成立於2015年12月,總部位於浙江杭州,是國內造車新勢力中唯一具備全域自研自造能力及垂直整合度最高的智能電動車企業。業務涵蓋整車設計、研發製造、智能駕駛等領域,始終致力於為用户創造價值。 特別值得一提的是,就在演講前一天,零跑迎來了第100萬台量產車的
背景 在數字化時代,企業數據呈爆炸式增長,但大多數業務人員因不懂SQL語言而無法直接獲取數據洞察。近年來,隨着AI技術的飛速發展,基於大語言模型強大的自然語言理解和代碼生成能力的NL2SQL技術應運而生——它能將"查詢上個月銷售額最高的產品"這樣的自然語言,自動轉換為複雜的SQL查詢語句。 然而,現實企業環境中的數據庫結構複雜、SQL方言多樣、查詢邏輯深度嵌套,單純靠大模型能力的NL2SQL方法往
2024年,中國城市智駕迎來全面爆發。在這場高階智能駕駛的競速賽中,廣汽正以穩健而堅定的步伐,向行業第一梯隊邁進。 廣汽的“星靈智行”ADiGO技術品牌,以AI重構智能汽車,全面推動AI賦能智能駕駛和智能座艙,加速汽車從“移動工具”,向“智能終端”進化。廣汽GSD智能輔助駕駛實現了對複雜城市場景的泛化理解能力。系統現已覆蓋至少35個主場景、357個子場景,在紅綠燈起停、擁堵博弈變道、待轉區左轉等高
本文根據2025雲棲大會DataWorks產品年度發佈實錄整理而成 演講人:田奇銑,阿里雲智能集團計算平台事業部DataWorks產品負責人 DataWorks下一代Data+AI數據開發與治理平台,全面邁向“數據驅動智能、智能反哺數據”的新階段。作為中國大數據平台公有云市場份額和中國數據治理平台市場份額連續四年排名第一的領軍產品,DataWorks不僅見證了企業數字化轉型過程,更在生成式
在2025年雲棲大會上,阿里雲DLF產品負責人李魯兵正式發佈了DLF(DataLakeFormation)3.0,升級為面向AI時代的智能全模態湖倉管理平台。此次發佈標誌着DLF從傳統的湖倉管理工具,全面進化為支持結構化、半結構化與非結構化數據統一管理、安全開放、性能卓越的新一代數據基礎設施。本文將系統梳理DLF3.0的架構演進、核心能力、典型應用場景以及其在實際業務中的落地價值。 一、D
隨着人工智能技術的飛速發展,用户對於搜索體驗的要求早已超越了傳統的關鍵詞匹配。我們正處在一個從文本搜索向多模態、跨模態搜索演進的時代。用户希望能夠通過圖片、甚至是自然語言描述的複雜場景,來精準地找到他們想要的商品。然而,如何理解並檢索圖片中的視覺元素?如何處理那些文本標題無法完全概括的商品特徵?這些都是傳統搜索面臨的挑戰。 本文將深入探討多模態商品檢索的通用解決方案,詳細解讀其背後的兩大核心技術:
隨着大模型時代到來,用户需求從“關鍵詞匹配”轉向“自然語言交互與問答式搜索”。2025年9月26日,杭州雲棲大會“AI搜索與向量引擎”分論壇上,金山辦公雲搜索技術總監——陳海榮宣佈,其核心產品WPS雲文檔搜索功能結合阿里雲搜索引擎完成重大升級,正式邁入3.0時代。 此次升級以阿里雲Elasticsearch混合檢索與AI語義搜索能力為核心,全面解決海量文檔場景下的檢索效率、語義理解與成本優化難題,
9月26日,雲棲大會AI搜索與向量引擎分論壇上,阿里雲智能集團技術專家魏子珺和愛橙科技技術專家周文喆,詳細闡釋了“AI原生搜索引擎:Elasticsearch換芯”技術主題,重點圍繞AI原生搜索內核增強技術的升級與替換。通過核心能力重構,讓Elasticsearch在AI原生時代具備更強的多模態理解、自然語言處理以及深度任務執行能力,為搜索場景帶來性能、智能化與可擴展性的大幅提升。這標誌着AI搜索
2025年9月26日,在杭州雲棲大會“AI搜索與向量引擎”分論壇上,阿里雲智能集團高級技術專家——賈新禹正式發佈ElasticsearchServerless2.0,並首次系統性闡述其技術架構與產品價值。這一全新升級的Serverless解決方案,以“極致彈性、智能核心、AI生態融合”三大技術基石,直面AI搜索時代的工程化挑戰,為企業提供一站式構建AI搜索能力的基礎設施。 時代鴻溝:AI搜