Fluss RoadMap裏Zero Disk是啥
本文在綠泡泡“狗哥瑣話”首發於2024.12.23 -關注不走丟。 上期Fluss的內容還算受歡迎,這期加更,講講Fluss RoadMap裏提到的Zero Disks是怎麼個事兒。 所謂Zero Disks就是把所有的存儲放在S3這種遠程,容量無限的存儲上。這樣集羣本身就可以做到無狀態了。 那這玩意兒會怎麼做呢?我們直接看一篇先成的文章。 原文鏈接: https://medium.com/the
昵称 泊浮目
贡献者39
粉丝0
本文在綠泡泡“狗哥瑣話”首發於2024.12.23 -關注不走丟。 上期Fluss的內容還算受歡迎,這期加更,講講Fluss RoadMap裏提到的Zero Disks是怎麼個事兒。 所謂Zero Disks就是把所有的存儲放在S3這種遠程,容量無限的存儲上。這樣集羣本身就可以做到無狀態了。 那這玩意兒會怎麼做呢?我們直接看一篇先成的文章。 原文鏈接: https://medium.com/the
昵称 泊浮目
作者:vivo 互聯網大數據團隊- You Shuo 本文是《vivo Pulsar萬億級消息處理實踐》系列文章第2篇,Pulsar支持上報分區粒度指標,Kafka則沒有分區粒度的指標,所以Pulsar的指標量級要遠大於Kafka。在Pulsar平台建設初期,提供一個穩定、低時延的監控鏈路尤為重要。 系列文章: 《vivo Pulsar萬億級消息處理實踐-數據發送原理解析和性能調優
昵称 vivo互聯網技術
作者:vivo 互聯網大數據團隊- Chen Jianbo 本文是《vivo Pulsar萬億級消息處理實踐》系列文章第3篇。 Pulsar是Apache基金會的開源分佈式流處理平台和消息中間件,它實現了Kafka的協議,可以讓使用Kafka API的應用直接遷移至Pulsar,這使得Pulsar在Kafka生態系統中更加容易被接受和使用。KoP提供了從Kafka到Pulsar的無縫轉換,
昵称 vivo互聯網技術
本文在綠泡泡“狗哥瑣話”首發於2024.12.23 -關注不走丟。 上期Fluss的內容還算受歡迎,這期加更,講講Fluss RoadMap裏提到的Zero Disks是怎麼個事兒。 所謂Zero Disks就是把所有的存儲放在S3這種遠程,容量無限的存儲上。這樣集羣本身就可以做到無狀態了。 那這玩意兒會怎麼做呢?我們直接看一篇先成的文章。 原文鏈接: https://medium.com/the
昵称 泊浮目
隨着 AI 技術的快速發展,用户對 以算法驅動的 AI 搜索相關能力需求日益增長。AI 搜索開放平台已提供20+原子化服務能力,可靈活組合搭建AI搜索。本期發佈將重點解決用户在代碼開發中的不便,通過集成 dsw 能力,新增 notebook 功能,為用户提供更便捷的代碼編寫、調試及運行環境,進一步提升服務調試體驗。 一、產品能力 1. 文檔解析服務 支持文檔、圖片分鐘級解析,針對 PDF、DOC、
昵称 阿里雲大數據AI
隨着信息技術的飛速發展,搜索引擎作為信息獲取的重要工具,扮演着不可或缺的角色。阿里雲 AI 搜索開放平台以其強大的技術支持和靈活的開放性,持續為用户提供高效的搜索解決方案。 一、阿里雲 AI 搜索開放平台 一站式的 AI 搜索開放平台作為阿里雲 AI 搜索整個產品體系核心,提供豐富的 AI 搜索組件化服務。兼容主流開發框架 LangChain和 LlamaIndex,支持搜索專屬大模型、百鍊等大模
昵称 阿里雲大數據AI
作者:Liu Sikang、互聯網大數據團隊-Luo Mingbo Pulsar作為下一代雲原生架構的分佈式消息中間件,存算分離的架構設計能有效解決大數據場景下分佈式消息中間件老牌一哥"Kafka"存在的諸多問題,2021年vivo 分佈式消息中間件團隊正式開啓對Pulsar的調研,2022年正式引入Pulsar作為大數據場景下的分佈式消息中間件,本篇文章主要從Pulsar運維痛點、Ansi
昵称 vivo互聯網技術
一、前言 DGraph是得物自主研發的新一代推薦系統核心引擎,基於C++語言構建,自2021年啓動以來,經過持續迭代已全面支撐得物社區內容分發、電商交易等核心業務的推薦場景。DGraph在推薦鏈路中主要承擔數據海選和粗排序功能,為上層精排提供高質量候選集。 核心技術特性: 索引層 - 支持KV(鍵值)、KVV(鍵-多值)、INVERT(倒排)、DENSE-KV(稠密鍵值)等。索引存儲支持磁盤
昵称 得物技術
一説到“數據治理”,很多人都會説:不就是讓數據更好用嗎?我都聽煩了。 但問題不在於“懂不懂”,而是“會不會用”。就比如數據部門經常會出現的情況—— 銷售和財務報出的業績數據對不上;月底報表總要花大量時間手工核對;想分析客户行為,卻發現基礎信息殘缺不全? 這些正是數據缺乏有效治理和管理的直接體現。 數據治理不是空談,而是解決這些痛點的系統性方法,它的核心,正是數據管理。今天我就從數據管理的角度,來跟
昵称 數據集成與治理
在實時計算領域,很多業務邏輯天然適合“事件驅動”模式:當事件到達時觸發處理、在某個時間點觸發補償或彙總、根據狀態變化發出告警等。Apache Flink 為此提供了強大的 ProcessFunction 家族(KeyedProcessFunction、CoProcessFunction、BroadcastProcessFunction 等),它們在算子層面同時具備“事件處理 + 定時器 + 狀態”
昵称 代碼匠心
在關係型數據庫的世界裏,join 是數據建模和查詢優化的核心。但隨着業務複雜度的提升,大量依賴 join 會讓系統變得笨重:查詢延遲增加,事務處理受阻,架構也越來越脆弱。 在文檔數據庫(如 MongoDB)以及更廣泛的分佈式系統中,類似 $lookup 的功能能夠滿足多集合查詢,但當它成為獲取完整視圖的主要方式時,也會帶來性能瓶頸。越來越多的團隊意識到:與其在查詢時臨時拼接數據,不如在數據生成和流
昵称 Tapdata鈦鉑
國家電影局數據顯示,2024年全國觀影總人次為10.1億,同比下滑23.1%。與此同時,啓信寶統計數據顯示,電影相關企業數量在五年內翻了三番,年均增速超25%。電影行業呈現“冰火兩重天”的態勢。 “消費端收縮、供給端活躍”的現象,勾勒出中國電影產業在深度調整期的真實圖景。近日,啓信寶發佈的《2025電影行業觀察報告》指出,行業的增長動力已從市場擴容轉向結構升級,資源向頭部企業、核心地域與AI技術高
昵称 合合技術團隊
隨着人工智能深入各行各業,多模態大模型正在成為AI發展的重要方向之一。近期,由中國圖象圖形學學會、中國人工智能學會、中國計算機學會和中國自動化學會聯合主辦,上海交通大學承辦的第八屆中國模式識別與計算機視覺學術會議(PRCV 2025)順利舉行。大會期間,“多模態文本智能大模型前沿技術與應用”論壇(簡稱“論壇”)獲得了廣泛關注。論壇彙集了來自華南理工大學、哈爾濱工業大學、南開大學、華中科技大學、小紅
昵称 合合技術團隊
2024年,中國城市智駕迎來全面爆發。在這場高階智能駕駛的競速賽中,廣汽正以穩健而堅定的步伐,向行業第一梯隊邁進。 廣汽的“星靈智行”ADiGO技術品牌,以AI重構智能汽車,全面推動AI賦能智能駕駛和智能座艙,加速汽車從“移動工具”,向“智能終端”進化。廣汽GSD智能輔助駕駛實現了對複雜城市場景的泛化理解能力。系統現已覆蓋至少35個主場景、357個子場景,在紅綠燈起停、擁堵博弈變道、待轉區左轉等高
昵称 阿里雲大數據AI
導語:今年的 GSoC 已近尾聲,在這場代碼開發盛宴中,Apache DolphinScheduler 的開發者們積極參與,取得了一項對用户意義重大的成果——引入通用 OIDC 認證,實現無縫安全訪問。令人欣喜的是,該成果出自一位印度開發者之手。在項目導師 Gallardot 與向梓豪(SbloodyS)的精心指導下,這一成果成功在 Apache DolphinScheduler 中落地。今天,就
昵称 海豚調度
Apache Flume支持採集各類數據發送方產生的日誌信息,並且可以將採集到的日誌信息寫到各種數據接收方。其核心是把數據從數據源(Source)收集過來,在將收集到的數據送到指定的目的地(Sink)。為了保證輸送的過程一定成功,在送到目的地(Sink)之前,會先緩存數據(Channel),待數據真正到達目的地(Sink)後,Flume再刪除自己緩存的數據。 一、 Apache Flume的體系架
昵称 趙渝強老師
一、背景 DolphinScheduler(海豚調度器)作為開源分佈式調度系統,核心價值在於破解大數據場景下複雜任務的調度與流程編排難題,憑藉可靠的任務調度、可視化工作流管理等能力,已成為生產環境的核心調度中樞——當前95%以上的大數據任務均通過其實現協調調度。而Open-Falcon作為專注大規模分佈式系統的開源監控工具,二者形成"調度核心+監控中樞"的協同關係:前者承擔任務調度的核心職責,後者
昵称 海豚調度
近日,第十屆“創客中國”北京市中小企業創新創業大賽暨“創客北京2025”創新創業大賽結果揭曉,北京白鯨開源科技有限公司憑藉“白鯨開源-Agentic AI 時代下的數據基礎設施平台”,榮登企業組 TOP150,並獲得大賽組委會頒發的獲獎證書。 據統計,本次 “創客北京” 活動共有 6000 + 項目報名參賽,規模亮眼。我司歷經初賽、決賽、總決賽多輪角逐,最終榮獲佳績。 在 AI 技術
昵称 海豚調度
業務技術背景 在當今數字化轉型浪潮下,企業正面臨着海量數據的爆炸式增長,尤其在構建數據湖業務、BI分析以及AI/ML數據準備等關鍵場景中,需要高效、可擴展的大規模大數據存儲解決方案。這些場景往往要求數據存儲系統不僅能處理PB級甚至EB級的數據規模,還必須支持事務性操作,以確保數據一致性、原子性和隔離性,從而避免數據混亂或丟失的風險。 正因如此,Apache Iceberg作為一種先進的開源數據湖格
昵称 SeaTunnel
本文根據2025雲棲大會演講整理而成,演講信息如下 演講人:黃鵬程阿里雲智能集團計算平台事業部實時計算Flink版產品負責人 引言 在數據驅動的時代,實時數據處理已成為企業數字化轉型的核心能力。阿里雲實時計算Flink版用了十年時間來進行產品發展,從技術引進到自主創新,已成為實時數據處理的行業標杆。在這次雲棲大會上,阿里雲發佈了實時計算Flink的全新升級,不僅在計算和存儲層面實現重大突
昵称 ApacheFlink
《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計(2025 年)》 系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型,詳解分層下的 ETL 架構及數據轉換環節,介紹數據倉庫分層對應的技術架構,並以貼源層(ODS)、數據倉庫層(DW)、數據服務層(DWS)為例,深入剖析數湖倉分層設計,最後探討數據倉庫技術趨勢並進行小結。 本文為系列文
昵称 SeaTunnel
本文根據2025雲棲大會DataWorks產品年度發佈實錄整理而成 演講人:田奇銑,阿里雲智能集團計算平台事業部DataWorks產品負責人 DataWorks下一代Data+AI數據開發與治理平台,全面邁向“數據驅動智能、智能反哺數據”的新階段。作為中國大數據平台公有云市場份額和中國數據治理平台市場份額連續四年排名第一的領軍產品,DataWorks不僅見證了企業數字化轉型過程,更在生成式
昵称 阿里雲大數據AI
在2025年雲棲大會上,阿里雲DLF產品負責人李魯兵正式發佈了DLF(DataLakeFormation)3.0,升級為面向AI時代的智能全模態湖倉管理平台。此次發佈標誌着DLF從傳統的湖倉管理工具,全面進化為支持結構化、半結構化與非結構化數據統一管理、安全開放、性能卓越的新一代數據基礎設施。本文將系統梳理DLF3.0的架構演進、核心能力、典型應用場景以及其在實際業務中的落地價值。 一、D
昵称 阿里雲大數據AI
各位熱愛 Apache SeaTunnel 的小夥伴們,社區 9 月份月報來啦! 本月,社區 21 位貢獻者共同參與了 Apache SeaTunnel 的修復與功能升級,助力數據同步能力提升。 核心亮點總結 核心功能持續豐富:新增正則提取轉換、多模態嵌入、向量降維等Transform-V2能力;支持HDFS文件多表源讀取、Databend CDC模式接收,拓展數據處理場景。 多模塊問題修
昵称 SeaTunnel