一、背景 DolphinScheduler(海豚調度器)作為開源分佈式調度系統,核心價值在於破解大數據場景下複雜任務的調度與流程編排難題,憑藉可靠的任務調度、可視化工作流管理等能力,已成為生產環境的核心調度中樞——當前95%以上的大數據任務均通過其實現協調調度。而Open-Falcon作為專注大規模分佈式系統的開源監控工具,二者形成"調度核心+監控中樞"的協同關係:前者承擔任務調度的核心職責,後者
近日,第十屆“創客中國”北京市中小企業創新創業大賽暨“創客北京2025”創新創業大賽結果揭曉,北京白鯨開源科技有限公司憑藉“白鯨開源-Agentic AI 時代下的數據基礎設施平台”,榮登企業組 TOP150,並獲得大賽組委會頒發的獲獎證書。 據統計,本次 “創客北京” 活動共有 6000 + 項目報名參賽,規模亮眼。我司歷經初賽、決賽、總決賽多輪角逐,最終榮獲佳績。 在 AI 技術
業務技術背景 在當今數字化轉型浪潮下,企業正面臨着海量數據的爆炸式增長,尤其在構建數據湖業務、BI分析以及AI/ML數據準備等關鍵場景中,需要高效、可擴展的大規模大數據存儲解決方案。這些場景往往要求數據存儲系統不僅能處理PB級甚至EB級的數據規模,還必須支持事務性操作,以確保數據一致性、原子性和隔離性,從而避免數據混亂或丟失的風險。 正因如此,Apache Iceberg作為一種先進的開源數據湖格
本文根據2025雲棲大會演講整理而成,演講信息如下 演講人:黃鵬程阿里雲智能集團計算平台事業部實時計算Flink版產品負責人 引言 在數據驅動的時代,實時數據處理已成為企業數字化轉型的核心能力。阿里雲實時計算Flink版用了十年時間來進行產品發展,從技術引進到自主創新,已成為實時數據處理的行業標杆。在這次雲棲大會上,阿里雲發佈了實時計算Flink的全新升級,不僅在計算和存儲層面實現重大突
《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計(2025 年)》 系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型,詳解分層下的 ETL 架構及數據轉換環節,介紹數據倉庫分層對應的技術架構,並以貼源層(ODS)、數據倉庫層(DW)、數據服務層(DWS)為例,深入剖析數湖倉分層設計,最後探討數據倉庫技術趨勢並進行小結。 本文為系列文
本文根據2025雲棲大會DataWorks產品年度發佈實錄整理而成 演講人:田奇銑,阿里雲智能集團計算平台事業部DataWorks產品負責人 DataWorks下一代Data+AI數據開發與治理平台,全面邁向“數據驅動智能、智能反哺數據”的新階段。作為中國大數據平台公有云市場份額和中國數據治理平台市場份額連續四年排名第一的領軍產品,DataWorks不僅見證了企業數字化轉型過程,更在生成式
在2025年雲棲大會上,阿里雲DLF產品負責人李魯兵正式發佈了DLF(DataLakeFormation)3.0,升級為面向AI時代的智能全模態湖倉管理平台。此次發佈標誌着DLF從傳統的湖倉管理工具,全面進化為支持結構化、半結構化與非結構化數據統一管理、安全開放、性能卓越的新一代數據基礎設施。本文將系統梳理DLF3.0的架構演進、核心能力、典型應用場景以及其在實際業務中的落地價值。 一、D
各位熱愛 Apache SeaTunnel 的小夥伴們,社區 9 月份月報來啦! 本月,社區 21 位貢獻者共同參與了 Apache SeaTunnel 的修復與功能升級,助力數據同步能力提升。 核心亮點總結 核心功能持續豐富:新增正則提取轉換、多模態嵌入、向量降維等Transform-V2能力;支持HDFS文件多表源讀取、Databend CDC模式接收,拓展數據處理場景。 多模塊問題修
在企業數字化浪潮中,數據採集早已不是 "能同步就行" 的簡單命題——多元異構數據源的割裂、TB 級數據的吞吐壓力、跨系統同步的穩定性挑戰,正成為多數企業的 "數據頑疾"。而中控技術,這家服務全球 35000 家客户的工業 AI 平台型企業,卻用 Apache SeaTunnel 交出了一份驚豔答卷:核心數據同步任務實現 0 故障運行。 11 月 11 日 14:00,SeaTunnel 視頻號線
本文根據 2025 雲棲大會演講整理而成,演講信息如下 演講人: 聶清 零跑汽車大數據高級專家 零跑科技的快速發展與數據挑戰 零跑科技成立於2015年12月,總部位於浙江杭州,是國內造車新勢力中唯一具備全域自研自造能力及垂直整合度最高的智能電動車企業。業務涵蓋整車設計、研發製造、智能駕駛等領域,始終致力於為用户創造價值。 特別值得一提的是,就在演講前一天,零跑迎來了第100萬台量產車的下
不少開發者在部署 qData數據中台開源版 時,常會遇到了環境依賴、端口衝突、容器啓動失敗等問題。 本視頻由 qData官方團隊 錄製,手把手演示如何在 Linux環境下通過 Docker Compose 一鍵部署完整的qData數據中台,幫助你快速完成系統搭建與運行。 📘 視頻內容 1️⃣ 環境與準備工作 2️⃣ 安裝並驗證 Docker / Docker Compose 3️⃣
Flink 自1.1版本起通過FLIP-49 Unified Memory Configuration for TaskExecutors 和FLIP-116 Unified Memory Configuration for Job Managers對 TaskManager 和 JobManager 的內存模型進行了重大重構,統一了內存配置方式,本文詳細介紹 Flink TaskManager
作者:黃睿阿里雲智能集團產品專家 本文基於阿里雲Flink平台的實際實踐經驗整理,希望能為廣大流計算從業者提供有價值的參考。 引言 在流計算領域,ApacheFlink作為業界領先的流處理引擎,為眾多企業提供了強大的實時數據處理能力。然而,隨着業務規模的不斷擴大和數據量的持續增長,如何確保Flink作業能夠長期穩定運行,同時實現資源的高效利用,成為了每個技術團隊都必須面對的核心挑戰。 根據前期用户
10 月版本煥新上線!Smartbi AIChat 與一站式 ABI 平台再升級,聚焦「交互體驗、數據效率、部署適配、安全管控」四大方向,解決溝通閉環、國產化遷移、大規模授權加載慢等實際業務痛點,讓數據分析更順暢、部署更靈活、安全更可靠,助力企業降本提效!下文為你拆解功能亮點~ 01 Smartbi AIChat 1 新增對話評論與回覆,雙向溝通更高效 AIChat 以往的反饋是單向的:用户提交問
近年來,我國數據要素市場規模保持高速增長,隨着《數據安全法》、《個人信息保護法》、《數據二十條》等相關政策相繼出台,對隱私數據安全提出了新的要求。作為數據要素流通的實踐探索者與隱私計算技術的佈道者,隱語希望凝聚學術界與產業界生態共建力量,帶來“數據安全/隱私計算”的系列課程分享。 緊跟數據要素市場發展前沿趨勢,普及數據安全與隱私保護的重要意義,隱語開源社區聯合學術屆與產業界的數十位專家學者,於20
Merkle 樹,也被稱為 "hash tree",是一種二叉樹的數據結構。這種樹的每個節點都是基於其子節點的一種特殊形式的 hash。具體來説,葉節點的 hash 是由存儲在那裏的數據塊(例如文件或文件的部分)生成的,而非葉節點的 hash 是由其子節點的 hash 生成的。如果 Merkle 樹只有一個節點(也就是根節點),那麼該節點的 hash 就是所有數據的 hash。 Merkle 樹的
大家好,我是 Java陳序員。 我們都知道,《數據結構與算法》 —— 是程序員的必修課。 無論是使用什麼編程語音,亦或者是前後端開發,都需要修好《數據結構與算法》這門課! 在各個互聯網大產的面試中,對數據結構和算法的考核樂此不疲。往往《數據結構與算法》學得好的,都能拿到高薪! 但是《數據結構和算法》是一門不容易掌握的課程,需要花費長時間的學習、 總結和打磨。 今天,給大家介紹一個動畫圖解、一
退火算法 是一種啓發式優化算法,靈感來源於金屬退火過程。在金屬退火中,將金屬加熱到高温然後逐漸冷卻,以消除內部結晶缺陷,使其達到更穩定的狀態。類比於優化問題,退火算法通過模擬這個過程,從一個高温狀態開始,逐漸減小温度,使系統跳出局部最小值,最終趨向全局最優解。 基本思想: 初始化: 隨機生成初始解。 温度控制: 引入温度參數,控制在一定範圍內。 接受準則: 根據一定準則(如Metropol
二分查找的概念本身很容易理解,這裏不做贅述。其使用前提只有一個:單調數組 樸素二分查找 當在一個有向數組中,查找數組中是否有某個值,代碼很簡單: const binarySearch = (nums, target) = { let l = 0; let r = nums.length - 1; while(l=r) { const mid = (l+r) 1 if(
前言 解決問題思維方式 假設我們有一整套螺絲刀,要進行筆記本清灰操作,我們主要的思維邏輯如下: 若要清灰,必須先取出風扇 若要取出風扇,必須先把從外殼到風扇的螺絲全部拆下 那麼清灰問題就變成了拆一堆不同規格的螺絲,當我們看到不同規格的螺絲,就會比較螺絲口大小、形狀和螺絲刀規格,從而選取對應的螺絲刀。 可以看出,當我們遇到一個複雜問題,下意識的思維方式就是將一個複雜問題,轉移成我們熟知的一些
刷力扣時,遇到關鍵詞:下一個更大/小的數這類題目時,往往會採用單調棧的解法,如每日温度 刷題最常見的問題就是,看到題解,感覺很精妙,但下次遇到一模一樣的題目時,往往知道思路,但寫不出代碼,有或者遇到類似的變體題目時,不會往這方面想。這兩種情況在之前的文章(數據結構算法小結)中提到過,分別有兩方面的原因: 對工具(如單調棧知識點)的特性(適用範圍)不明朗 對工具的原理沒有真正的理解 初學單調
前言 提及算法,可能會有很多前端同學覺得這是一個距離自己日常工作較遠的領域,認為算法並沒有那麼重要。事實上,這種看法是片面的,算法不僅僅是計算機科學中的一個重要概念,在前端開發中也有着廣泛的應用和巨大的價值。 一個精心設計的算法可以大幅度提高應用的性能和效率,例如:如何在大量數據中快速找到指定信息、如何高效地處理用户輸入、如何在動畫效果中保持流暢的用户體驗、如何讓頁面加載更快、響應更靈敏等等場景,
一 認識樹形結構 樹形結構是一種廣泛應用的非線性數據結構,它在計算機科學和日常生活中都有廣泛的應用。比如文件系統,郵件系統,編譯器語法樹,決策樹,網絡通信,甚至機器學習當中,都有樹形數據結構的影子。本文旨在梳理日常用到的各類樹形結構以及其優點和劣勢,讓瀆者對樹形結構有一個深入的認知和了解。下面列舉幾類常見的樹形結構的應用場景。 1.1 文件系統 計算機中用於存儲和管理文件的一種系統,它使用樹形結構
如今,許多公司在招聘過程中越來越重視候選人的算法能力。無論是初創公司還是知名企業,筆試和麪試中幾乎都要經過算法和數據結構的考核。這不僅是為了評估候選人的編程能力,更是為了考查他們解決問題的思維方式。 即使你並不打算進入大公司,掌握算法依舊對你在 IT 行業的長期發展至關重要。算法不僅涉及編碼能力,它們還影響着系統設計、數據處理的效率和優化。隨着項目的複雜性增加,算法知識的重要性將愈加突出。 那麼,