@大數據

04:26 上午 · 11月 06 ,2025 @doge_king

Fluss RoadMap裏Zero Disk是啥

本文在綠泡泡“狗哥瑣話”首發於2024.12.23 -關注不走丟。上期Fluss的內容還算受歡迎，這期加更，講講Fluss RoadMap裏提到的Zero Disks是怎麼個事兒。所謂Zero Disks就是把所有的存儲放在S3這種遠程，容量無限的存儲上。這樣集羣本身就可以做到無狀態了。那這玩意兒會怎麼做呢？我們直接看一篇先成的文章。原文鏈接： https://medium.com/the

fluss , 大數據 , flink , kafka

@doge_king

昵称泊浮目

04:26 上午 · 11月 06 ,2025 @vivo_tech

vivo Pulsar 萬億級消息處理實踐(2)-從0到1建設 Pulsar 指標監控鏈路

作者：vivo 互聯網大數據團隊- You Shuo 本文是《vivo Pulsar萬億級消息處理實踐》系列文章第2篇，Pulsar支持上報分區粒度指標，Kafka則沒有分區粒度的指標，所以Pulsar的指標量級要遠大於Kafka。在Pulsar平台建設初期，提供一個穩定、低時延的監控鏈路尤為重要。系列文章：《vivo Pulsar萬億級消息處理實踐-數據發送原理解析和性能調優

大數據 , pulsar , 消息隊列 , kafka

@vivo_tech

昵称 vivo互聯網技術

04:22 上午 · 11月 06 ,2025 @vivo_tech

vivo Pulsar 萬億級消息處理實踐（3）-KoP指標異常修復

作者：vivo 互聯網大數據團隊- Chen Jianbo 本文是《vivo Pulsar萬億級消息處理實踐》系列文章第3篇。 Pulsar是Apache基金會的開源分佈式流處理平台和消息中間件，它實現了Kafka的協議，可以讓使用Kafka API的應用直接遷移至Pulsar，這使得Pulsar在Kafka生態系統中更加容易被接受和使用。KoP提供了從Kafka到Pulsar的無縫轉換，

kafka , java , 大數據 , pulsar , 消息隊列

@vivo_tech

昵称 vivo互聯網技術

04:21 上午 · 11月 06 ,2025 @doge_king

Fluss RoadMap裏Zero Disk是啥

本文在綠泡泡“狗哥瑣話”首發於2024.12.23 -關注不走丟。上期Fluss的內容還算受歡迎，這期加更，講講Fluss RoadMap裏提到的Zero Disks是怎麼個事兒。所謂Zero Disks就是把所有的存儲放在S3這種遠程，容量無限的存儲上。這樣集羣本身就可以做到無狀態了。那這玩意兒會怎麼做呢？我們直接看一篇先成的文章。原文鏈接： https://medium.com/the

flink , fluss , kafka , 大數據

@doge_king

昵称泊浮目

12:44 上午 · 11月 06 ,2025 @elhix0bg

阿里雲 AI 搜索開放平台新增：服務開發能力

隨着 AI 技術的快速發展，用户對以算法驅動的 AI 搜索相關能力需求日益增長。AI 搜索開放平台已提供20+原子化服務能力，可靈活組合搭建AI搜索。本期發佈將重點解決用户在代碼開發中的不便，通過集成 dsw 能力，新增 notebook 功能，為用户提供更便捷的代碼編寫、調試及運行環境，進一步提升服務調試體驗。一、產品能力 1. 文檔解析服務支持文檔、圖片分鐘級解析，針對 PDF、DOC、

搜索引擎 , 大數據 , 數據處理 , 數據分析 , 人工智能

@elhix0bg

昵称阿里雲大數據AI

12:42 上午 · 11月 06 ,2025 @elhix0bg

企業級AI搜索解決方案：阿里雲AI搜索開放平台

隨着信息技術的飛速發展，搜索引擎作為信息獲取的重要工具，扮演着不可或缺的角色。阿里雲 AI 搜索開放平台以其強大的技術支持和靈活的開放性，持續為用户提供高效的搜索解決方案。一、阿里雲 AI 搜索開放平台一站式的 AI 搜索開放平台作為阿里雲 AI 搜索整個產品體系核心，提供豐富的 AI 搜索組件化服務。兼容主流開發框架 LangChain和 LlamaIndex，支持搜索專屬大模型、百鍊等大模

雲計算 , 人工智能 , 搜索引擎 , 阿里雲 , 大數據

@elhix0bg

昵称阿里雲大數據AI

06:05 下午 · 11月 05 ,2025 @vivo_tech

vivo Pulsar 萬億級消息處理實踐（4）-Ansible運維部署

作者：Liu Sikang、互聯網大數據團隊-Luo Mingbo Pulsar作為下一代雲原生架構的分佈式消息中間件，存算分離的架構設計能有效解決大數據場景下分佈式消息中間件老牌一哥"Kafka"存在的諸多問題，2021年vivo 分佈式消息中間件團隊正式開啓對Pulsar的調研，2022年正式引入Pulsar作為大數據場景下的分佈式消息中間件，本篇文章主要從Pulsar運維痛點、Ansi

運維自動化 , 大數據 , pulsar , 中間件 , ansible

@vivo_tech

昵称 vivo互聯網技術

05:00 上午 · 11月 05 ,2025 @dewujishu

得物自研DGraph4.0推薦核心引擎升級之路

一、前言 DGraph是得物自主研發的新一代推薦系統核心引擎，基於C++語言構建，自2021年啓動以來，經過持續迭代已全面支撐得物社區內容分發、電商交易等核心業務的推薦場景。DGraph在推薦鏈路中主要承擔數據海選和粗排序功能，為上層精排提供高質量候選集。核心技術特性：索引層 - 支持KV（鍵值）、KVV（鍵-多值）、INVERT（倒排）、DENSE-KV（稠密鍵值）等。索引存儲支持磁盤

大數據 , 推薦引擎 , 高併發

@dewujishu

昵称得物技術

01:49 上午 · 11月 05 ,2025 @leguandeludeng

從數據管理的角度，理解數據治理的內容

一説到“數據治理”，很多人都會説：不就是讓數據更好用嗎？我都聽煩了。但問題不在於“懂不懂”，而是“會不會用”。就比如數據部門經常會出現的情況—— 銷售和財務報出的業績數據對不上；月底報表總要花大量時間手工核對；想分析客户行為，卻發現基礎信息殘缺不全？這些正是數據缺乏有效治理和管理的直接體現。數據治理不是空談，而是解決這些痛點的系統性方法，它的核心，正是數據管理。今天我就從數據管理的角度，來跟

大數據 , 知識 , 教程 , 數據管理

@leguandeludeng

昵称數據集成與治理

01:48 上午 · 11月 05 ,2025 @daimajiangxin

在實時計算領域，很多業務邏輯天然適合“事件驅動”模式：當事件到達時觸發處理、在某個時間點觸發補償或彙總、根據狀態變化發出告警等。Apache Flink 為此提供了強大的 ProcessFunction 家族（KeyedProcessFunction、CoProcessFunction、BroadcastProcessFunction 等），它們在算子層面同時具備“事件處理 + 定時器 + 狀態”

事件驅動 , 大數據 , flink , 數據處理 , java

@daimajiangxin

昵称代碼匠心

02:50 下午 · 11月 04 ,2025 @yan_609cc3c57e745

實時物化視圖的新路徑：從傳統 Join 到跨源實時查詢

在關係型數據庫的世界裏，join 是數據建模和查詢優化的核心。但隨着業務複雜度的提升，大量依賴 join 會讓系統變得笨重：查詢延遲增加，事務處理受阻，架構也越來越脆弱。在文檔數據庫（如 MongoDB）以及更廣泛的分佈式系統中，類似 $lookup 的功能能夠滿足多集合查詢，但當它成為獲取完整視圖的主要方式時，也會帶來性能瓶頸。越來越多的團隊意識到：與其在查詢時臨時拼接數據，不如在數據生成和流

大數據

@yan_609cc3c57e745

昵称 Tapdata鈦鉑

02:49 下午 · 11月 04 ,2025 @huikaichedemianbao

啓信寶電影行業洞察：廣東蟬聯“雙冠王”，票房與企業數量全國第一

國家電影局數據顯示，2024年全國觀影總人次為10.1億，同比下滑23.1%。與此同時，啓信寶統計數據顯示，電影相關企業數量在五年內翻了三番，年均增速超25%。電影行業呈現“冰火兩重天”的態勢。 “消費端收縮、供給端活躍”的現象，勾勒出中國電影產業在深度調整期的真實圖景。近日，啓信寶發佈的《2025電影行業觀察報告》指出，行業的增長動力已從市場擴容轉向結構升級，資源向頭部企業、核心地域與AI技術高

算法 , 大數據 , 人工智能

@huikaichedemianbao

昵称合合技術團隊

02:48 下午 · 11月 04 ,2025 @huikaichedemianbao

多模態文本智能大模型前沿技術與應用論壇在上海召開，合合信息推出多模態文本智能技術方案

隨着人工智能深入各行各業，多模態大模型正在成為AI發展的重要方向之一。近期，由中國圖象圖形學學會、中國人工智能學會、中國計算機學會和中國自動化學會聯合主辦，上海交通大學承辦的第八屆中國模式識別與計算機視覺學術會議（PRCV 2025）順利舉行。大會期間，“多模態文本智能大模型前沿技術與應用”論壇（簡稱“論壇”）獲得了廣泛關注。論壇彙集了來自華南理工大學、哈爾濱工業大學、南開大學、華中科技大學、小紅

大數據 , 算法 , 人工智能

@huikaichedemianbao

昵称合合技術團隊

02:47 下午 · 11月 04 ,2025 @elhix0bg

雲棲實錄 | 駛入智駕深水區：廣汽的“數據突圍“之路

2024年，中國城市智駕迎來全面爆發。在這場高階智能駕駛的競速賽中，廣汽正以穩健而堅定的步伐，向行業第一梯隊邁進。廣汽的“星靈智行”ADiGO技術品牌，以AI重構智能汽車，全面推動AI賦能智能駕駛和智能座艙，加速汽車從“移動工具”，向“智能終端”進化。廣汽GSD智能輔助駕駛實現了對複雜城市場景的泛化理解能力。系統現已覆蓋至少35個主場景、357個子場景，在紅綠燈起停、擁堵博弈變道、待轉區左轉等高

人工智能 , 大數據 , 阿里雲

@elhix0bg

昵称阿里雲大數據AI

02:47 下午 · 11月 04 ,2025 @dolphinscheduler

GSoC 成果公佈！印度開發者為 DolphinScheduler 引入通用 OIDC 認證，實現無縫安全訪問

導語：今年的 GSoC 已近尾聲，在這場代碼開發盛宴中，Apache DolphinScheduler 的開發者們積極參與，取得了一項對用户意義重大的成果——引入通用 OIDC 認證，實現無縫安全訪問。令人欣喜的是，該成果出自一位印度開發者之手。在項目導師 Gallardot 與向梓豪（SbloodyS）的精心指導下，這一成果成功在 Apache DolphinScheduler 中落地。今天，就

開源 , 任務調度 , 大數據 , dolphinscheduler , 安全性

@dolphinscheduler

昵称海豚調度

02:45 下午 · 11月 04 ,2025 @zhaoqianglaoshi

【趙渝強老師】大數據日誌採集引擎Flume

Apache Flume支持採集各類數據發送方產生的日誌信息，並且可以將採集到的日誌信息寫到各種數據接收方。其核心是把數據從數據源（Source）收集過來，在將收集到的數據送到指定的目的地（Sink）。為了保證輸送的過程一定成功，在送到目的地（Sink）之前，會先緩存數據（Channel）,待數據真正到達目的地（Sink）後，Flume再刪除自己緩存的數據。一、 Apache Flume的體系架

etl , flume , hadoop , 大數據

@zhaoqianglaoshi

昵称趙渝強老師

02:45 下午 · 11月 04 ,2025 @dolphinscheduler

DolphinScheduler依賴機制、Open-Falcon告警推送與監控的優化實踐

一、背景 DolphinScheduler（海豚調度器）作為開源分佈式調度系統，核心價值在於破解大數據場景下複雜任務的調度與流程編排難題，憑藉可靠的任務調度、可視化工作流管理等能力，已成為生產環境的核心調度中樞——當前95%以上的大數據任務均通過其實現協調調度。而Open-Falcon作為專注大規模分佈式系統的開源監控工具，二者形成"調度核心+監控中樞"的協同關係：前者承擔任務調度的核心職責，後者

大數據 , 任務調度 , dolphinscheduler , 開源

@dolphinscheduler

昵称海豚調度

02:43 下午 · 11月 04 ,2025 @dolphinscheduler

白鯨開源數據基建平台榮登“創客北京 2025”企業組TOP150，共同助 Agentic AI 行業變革

近日，第十屆“創客中國”北京市中小企業創新創業大賽暨“創客北京2025”創新創業大賽結果揭曉，北京白鯨開源科技有限公司憑藉“白鯨開源-Agentic AI 時代下的數據基礎設施平台”，榮登企業組 TOP150，並獲得大賽組委會頒發的獲獎證書。據統計，本次 “創客北京” 活動共有 6000 + 項目報名參賽，規模亮眼。我司歷經初賽、決賽、總決賽多輪角逐，最終榮獲佳績。在 AI 技術

創業 , 開源 , 人工智能 , 大數據 , 創業團隊

@dolphinscheduler

昵称海豚調度

02:42 下午 · 11月 04 ,2025 @seatunnel

速看！用 Apache SeaTunnel 輕鬆實現數據到 S3 Tables 的快速集成

業務技術背景在當今數字化轉型浪潮下，企業正面臨着海量數據的爆炸式增長，尤其在構建數據湖業務、BI分析以及AI/ML數據準備等關鍵場景中，需要高效、可擴展的大規模大數據存儲解決方案。這些場景往往要求數據存儲系統不僅能處理PB級甚至EB級的數據規模，還必須支持事務性操作，以確保數據一致性、原子性和隔離性，從而避免數據混亂或丟失的風險。正因如此，Apache Iceberg作為一種先進的開源數據湖格

aws-organizations , seatunnel , s3-rewrite-rules , 大數據

@seatunnel

昵称 SeaTunnel

02:41 下午 · 11月 04 ,2025 @ververica

實時計算 Flink 全新升級 - 全棧流處理平台助力實時智能

本文根據2025雲棲大會演講整理而成，演講信息如下演講人：黃鵬程阿里雲智能集團計算平台事業部實時計算Flink版產品負責人引言在數據驅動的時代，實時數據處理已成為企業數字化轉型的核心能力。阿里雲實時計算Flink版用了十年時間來進行產品發展，從技術引進到自主創新，已成為實時數據處理的行業標杆。在這次雲棲大會上，阿里雲發佈了實時計算Flink的全新升級，不僅在計算和存儲層面實現重大突

實時計算 , 大數據 , flink

@ververica

昵称 ApacheFlink

02:39 下午 · 11月 04 ,2025 @seatunnel

（二）從分層架構到數據湖倉架構：數據倉庫分層下的技術架構與舉例

《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計（2025 年）》系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型，詳解分層下的 ETL 架構及數據轉換環節，介紹數據倉庫分層對應的技術架構，並以貼源層（ODS）、數據倉庫層（DW）、數據服務層（DWS）為例，深入剖析數湖倉分層設計，最後探討數據倉庫技術趨勢並進行小結。本文為系列文

技術架構 , 大數據 , 數據湖 , 數據庫

@seatunnel

昵称 SeaTunnel

02:38 下午 · 11月 04 ,2025 @elhix0bg

雲棲實錄 | DataWorks 發佈下一代 Data+AI 一體化平台，開啓企業智能數據新時代

本文根據2025雲棲大會DataWorks產品年度發佈實錄整理而成演講人：田奇銑，阿里雲智能集團計算平台事業部DataWorks產品負責人 DataWorks下一代Data+AI數據開發與治理平台，全面邁向“數據驅動智能、智能反哺數據”的新階段。作為中國大數據平台公有云市場份額和中國數據治理平台市場份額連續四年排名第一的領軍產品，DataWorks不僅見證了企業數字化轉型過程，更在生成式

大數據 , 阿里雲 , 人工智能

@elhix0bg

昵称阿里雲大數據AI

02:37 下午 · 11月 04 ,2025 @elhix0bg

阿里雲DLF 3.0：面向AI時代的智能全模態湖倉管理平台

在2025年雲棲大會上，阿里雲DLF產品負責人李魯兵正式發佈了DLF（DataLakeFormation）3.0，升級為面向AI時代的智能全模態湖倉管理平台。此次發佈標誌着DLF從傳統的湖倉管理工具，全面進化為支持結構化、半結構化與非結構化數據統一管理、安全開放、性能卓越的新一代數據基礎設施。本文將系統梳理DLF3.0的架構演進、核心能力、典型應用場景以及其在實際業務中的落地價值。一、D

阿里雲 , 大數據 , 數據湖 , 數據倉庫

@elhix0bg

昵称阿里雲大數據AI

02:35 下午 · 11月 04 ,2025 @seatunnel

Apache SeaTunnel 9 月動態：多模塊修復 + 新功能上線，社區貢獻成果亮眼

各位熱愛 Apache SeaTunnel 的小夥伴們，社區 9 月份月報來啦！本月，社區 21 位貢獻者共同參與了 Apache SeaTunnel 的修復與功能升級，助力數據同步能力提升。核心亮點總結核心功能持續豐富：新增正則提取轉換、多模態嵌入、向量降維等Transform-V2能力；支持HDFS文件多表源讀取、Databend CDC模式接收，拓展數據處理場景。多模塊問題修

seatunnel , 開源項目介紹 , 大數據 , 數據同步 , 開源

@seatunnel

昵称 SeaTunnel

贡献者

@大數據

Fluss RoadMap裏Zero Disk是啥

vivo Pulsar 萬億級消息處理實踐(2)-從0到1建設 Pulsar 指標監控鏈路

vivo Pulsar 萬億級消息處理實踐（3）-KoP指標異常修復

Fluss RoadMap裏Zero Disk是啥

阿里雲 AI 搜索開放平台新增：服務開發能力

企業級AI搜索解決方案：阿里雲AI搜索開放平台

vivo Pulsar 萬億級消息處理實踐（4）-Ansible運維部署

得物自研DGraph4.0推薦核心引擎升級之路

從數據管理的角度，理解數據治理的內容

從零開始學Flink：事件驅動

實時物化視圖的新路徑：從傳統 Join 到跨源實時查詢

啓信寶電影行業洞察：廣東蟬聯“雙冠王”，票房與企業數量全國第一

多模態文本智能大模型前沿技術與應用論壇在上海召開，合合信息推出多模態文本智能技術方案

雲棲實錄 | 駛入智駕深水區：廣汽的“數據突圍“之路

GSoC 成果公佈！印度開發者為 DolphinScheduler 引入通用 OIDC 認證，實現無縫安全訪問

【趙渝強老師】大數據日誌採集引擎Flume

DolphinScheduler依賴機制、Open-Falcon告警推送與監控的優化實踐

白鯨開源數據基建平台榮登“創客北京 2025”企業組TOP150，共同助 Agentic AI 行業變革

速看！用 Apache SeaTunnel 輕鬆實現數據到 S3 Tables 的快速集成

實時計算 Flink 全新升級 - 全棧流處理平台助力實時智能

（二）從分層架構到數據湖倉架構：數據倉庫分層下的技術架構與舉例

雲棲實錄 | DataWorks 發佈下一代 Data+AI 一體化平台，開啓企業智能數據新時代

阿里雲DLF 3.0：面向AI時代的智能全模態湖倉管理平台

Apache SeaTunnel 9 月動態：多模塊修復 + 新功能上線，社區貢獻成果亮眼