tag 大數據

標籤
貢獻412
490
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

笑傲江湖求敗 - Zeppelin如何操作 hive

Zeplin是一款 為設計師和開發者 提供設計圖交接與溝通的高效平台 一個用於發佈設計的有組織的工作區 整個團隊可以在其中 協作以一起發佈精美的產品 使用Zeplin 設計師可通過插件 將已完成的設計圖直接導入到Zeplin中 無需手動標註 開發者在Zeplin查看設計圖

大數據 , 工作區 , hive , 開發人員 , Zeppelin如何操作 hive , 開發者

收藏 評論

ApacheSeaTunnel - (四)收官篇!從分層架構到數據湖倉架構系列:數據服務層和數據應用層及湖倉技術趨勢小結

《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計(2025 年)》 系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型,詳解分層下的 ETL 架構及數據轉換環節,介紹數據倉庫分層對應的技術架構,並以貼源層(ODS)、數據倉庫層(DW)、數據服務層(DWS)為例,深入剖析數湖倉分層設計,最後探討數據倉庫技術趨勢並進行小結。

spark , WhaleStudio , 大數據 , 數據倉庫 , 數據庫 , 白鯨開源

收藏 評論

mob64ca140f29e5 - 高可用,完全分佈式Hadoop集羣HDFS和MapReduce安裝配置指南_51CTO博客

📋 第一步:系統檢查 # 檢查操作系統版本 cat /etc/os-release # 檢查內核版本 uname -r # 檢查Java是否安裝 java -version 運行結果示例: user@server:~$ cat /etc/os-release PRETTY_NAME="Ubuntu 24

大數據 , hadoop , xml , 後端開發 , mapreduce , Python

收藏 評論

網絡安全俠 - pdb2gmx和gaff的區別

---恢復內容開始--- 1.1 電路原理圖         S1-S5共5個按鍵,其中,S2-S4為中斷按鍵,S1為復位按鍵。S1直接為硬件復位電路,並不需要我們寫進驅動。   單片機接口如下圖:               由圖中可以看出,EIN

大數據 , pdb2gmx和gaff的區別 , include , 數據倉庫 , 引腳 , define

收藏 評論

INSVAST - 毅碩HPC | NVIDIA DGX Spark 萬字硬核評測:將AI超級工廠帶上桌面

一、開啓本地AI開發的新紀元 在生成式AI飛速發展的今天,每一位開發者都渴望擁有無拘無束的算力。不再受制於雲端排隊、網絡延遲或數據隱私的顧慮——NVIDIA DGX Spark橫空出世讓這一切有了可能。 它不僅僅是一台計算機,它是濃縮在精緻桌面機箱中的AI數據中心。作為全球首款基於NVIDIA Grace Blackwell架構的個人AI超級計算機,DGX S

spark , 毅碩HPC , 個人AI超級計算機 , NVIDIA DGX Spark , 大數據 , nvidia , 大規模部署

收藏 評論

錦繡前程未央 - 智慧灌區:灌區信息採集系統

一、什麼是智慧灌區數智平台? 智慧灌區數智平台是以感知層(傳感器、無人機、遙感)、傳輸層(5G、LoRa)、數據層(雲計算、大數據)與應用層(AI模型、數字孿生、決策支持)為架構的綜合性數字系統。它通過對氣象、土壤、作物、渠系水位、閘門狀態等全要素實時監測,構建起灌區的“數字鏡像”,並藉助算法模型實現預報、預警、預演、預案的“四預”功能。 例如,在某示範灌區,平台通過

Storm , 大數據 , 數據 , 物聯網

收藏 評論

ApacheFlink - 淘寶閃購基於Flink&Paimon的Lakehouse生產實踐:從實時數倉到湖倉一體化的演進之路

摘要:本文整理自淘寶閃購(餓了麼)大數據架構師王沛斌老師在FlinkForwardAsia2025城市巡迴上海站的分享。 引言 在數字化轉型的浪潮中,企業對實時數據處理的需求日益增長。傳統的實時數倉架構在面對業務快速變化和數據規模爆炸性增長時,逐漸暴露出數據孤島、成本高企、研發效率低下等問題。淘寶閃購(餓了麼)作為阿里巴巴集團重要的本地生活服務平台,在數據架構演進過程中積累了豐富的實踐經驗。 本文

大數據 , flink , 實時計算

收藏 評論

killads - 數據湖為什麼比hive快

導讀: 大數據技術的發展歷程中,繼數據倉庫、數據湖之後,大數據平台的又一革新技術——湖倉一體近年來開始引起業內關注。市場發展催生的數據管理需求一直是數據技術革新的動力。比如數據倉庫如何存儲不同結構的數據?數據湖又如何避免因為缺乏治理導致的數據雜亂現象?今天的文章想跟大傢俱體聊聊我們的數棧如何解決這些問題。 你能看到👇👇👇 ▫ 湖倉一體概念簡述 ▫ 數

數據源 , 大數據 , 數據 , hive , 數據倉庫 , 數據湖為什麼比hive快

收藏 評論

liutao988 - storm work個數

Storm在集羣上運行一個Topology時,主要通過以下3個實體來完成Topology的執行工作: 1. Worker Process(工作進程)——Spout/Bolt中運行具體處理邏輯的進程 2. Executor(線程、執行器)——物理線程 3. Task(任務)——具體的處理邏輯對象 下圖簡要描述了這3者之間的

Storm , 大數據 , API , 並行度 , JAVA , storm work個數

收藏 評論

jack - npm和yarn有什麼區別和聯繫啊

NPM npm 是一個node package installer commander tool。 在安裝了node.js環境下可以通過npm i xxx 來安裝你需要的node package到本地或者全局。 npm i webpack -G //全局安裝,路徑為 /usr/local/bin npm i webpack -S -D //本地安裝,

命令行 , npm和yarn有什麼區別和聯繫啊 , 大數據 , yarn , 應用場景 , Json

收藏 評論

夢想啓航吧 - 二級間接索引示意圖

#define _CRT_SECURE_NO_WARNINGS 1 //樹:非線性的數據結構,由有限個節點組成一個具有層次關係的集合。像是一顆倒掛的樹,所以叫樹。 //樹的相關概念: //1、節點的度:一個節點含有的子樹的個數成為節點的度 //2、葉節點(終端節點):度為0的節點稱為終端節點,(子節點為空的節點) //3、非終端節點(分支節點):度不為0的節點,即(

二級間接索引示意圖 , 大數據 , 數據倉庫 , 二叉樹 , 子樹 , 子節點

收藏 評論

lingyuli - 多索引組合值不可以唯一嘛

長期以來,Lucene在搜索領域的壟斷地位無人能及,基於Lucene之上的Elastic Search與Solr 也是家喻户曉的產品;錄信數據庫最初的版本也是基於Lucene來實現的,在設計之初經常會遇到跟solr、es同樣的問題。如面對幾十億的數據就遇到內存爆掉的問題,此時CPU與IO都飆到系統極限;100億的數據就需要100多台512G的大內

lucene , 大數據 , 索引 , 數據倉庫 , 數據庫 , olap , 多索引組合值不可以唯一嘛

收藏 評論

阿里雲大數據AI - DataWorks千萬級任務調度與全鏈路集成開發治理賦能智能駕駛技術突破

一、智能駕駛數據預處理的行業挑戰 隨着智能駕駛技術的逐級演進,數據驅動的模型訓練範式對數據預處理環節提出三大挑戰: 數據孤島化:需整合攝像頭、LiDAR、毫米波雷達、V2X通信等多模態數據,傳統ETL工具難以實現高效集成。 任務爆炸式增長:單輛測試車每日產生可達50TB 數據,需支持百萬甚至千萬級任務併發調度與彈性擴容。 開發運維一體化需求:要求數據流水線具備高可用性(99.99% SLA

大數據處理 , 大數據 , 自動駕駛 , 數據庫 , 人工智能

收藏 評論

wx6953b3319ffb2 - 計算機導論學習:在基礎中窺見學科的深邃

接觸《計算機科學導論》這門課程前,我對計算機的認知僅停留在“會用軟件、能上網”的淺層階段,總覺得這門學科只是冰冷的代碼和複雜的機器。但經過一學期的系統學習,我不僅搭建起計算機學科的基礎框架,更在一個個知識點的探索中,體會到這門學科背後的邏輯之美與創新之力,也對“如何學習計算機”有了全新的感悟。 課程的開篇從計算機的發展歷程講起,從圖靈提出的抽象計算

大數據 , 數據倉庫 , 人工智能 , 計算機科學 , Python

收藏 評論

mob64ca141677f9 - 人工智能與雲計算的結合如何促進企業業務跨越式增長? - 個人文章

隨着數字經濟的發展,企業數字化轉型已成為保持競爭力的關鍵。人工智能(AI)、大數據和雲計算等互聯網技術,不僅為企業提供了創新工具,也成為驅動商業價值提升的重要手段。本文通過具體案例,探討企業如何通過技術應用實現創新實踐。 在零售行業,一家中型電商企業通過AI和大數據優化營銷和庫存管理。企業分析用户購買行為、瀏覽記錄及市場趨勢,建立智能推薦系統,實現精準營銷,並指導庫存調配。

leetcode , 大數據 , 數據 , 雲計算 , Css , 前端開發 , HTML

收藏 評論

浪人小風光 - LangChain 系列教程(一):掌握基礎概念,為大型語言模型應用奠定基礎_VIP

目錄 前言 1. PromptTemplate 概述 1.1 什麼是 PromptTemplate 1.2 為什麼需要模板化提示 2. PromptTemplate 的參數與用法 2.1 主要參數説明 2.2 支持多種模板語法 3. 與 LLMC

大數據 , hadoop , 數據可視化 , 複用 , 硬編碼

收藏 評論

海豚調度 - Apache DolphinScheduler年終盤點

Apache DolphinScheduler 的社區成員、開發者、合作伙伴以及關心我們的朋友們: 2025 年轉瞬即逝,這一年裏,Apache DolphinScheduler 收穫了不少成果。GitHub 上關注我們項目的人越來越多,Star 和 Fork 數量也在不斷增長。我們還發布了多個重要版本,帶來了多項實用功能,提升了系統性能和智能化程度。 這一年,社區活動也在大家的支持下開展得有聲有

dolphinscheduler , 大數據 , 任務調度 , 開源

收藏 評論

雲端夢想實現家 - AutoCAD全版本軟件打包下載,安裝包一站式獲取 -

https://github.com/luanshixia/AutoCADCodePack AutoCAD Code Pack 功能詳細文檔 概述 AutoCAD Code Pack 是一個基於 AutoCAD .NET API 的開發庫,旨在簡化 AutoCAD 插件開發流程。它通過將複雜的原生 API 封裝為易用的靜態模塊和函數,引入現代 C# 語法(如 L

spark , 封裝 , 大數據 , API , 3d

收藏 評論

無風何其浪 - 《數字化破局抖音電商:從爆品打造到閉環運營實戰》 第三章 第四節

前言 第一部分 盈利思維與運營基礎 第1章 抖音電商盈利思維 1.1 盈虧平衡點分析:C一年半實戰覆盤 1.2 抖音電商的四種盈利模式及適用場景 1.3 IT思維做運營:數據驅動、系統思考、敏捷迭代 1.4 構建運營的“安全區”與“加速器”:與平台共生 第2章 抖音電商全景認知

大數據 , MySQL , 數據庫 , 人工智能 , 學習方法 , 數據分析

收藏 評論

小題大作 - VMFS索引

什麼是索引 索引時數據庫的一種數據結構,數據庫與索引的關係可以看作書籍和目錄的關係。當用户通過索引查找數據時,好比用户通過目錄查詢某章節的某個知識點。這樣可以幫助用户提高查找速度。所以,索引可以提高數據庫的性能。 索引的分類 從物理存儲角度: 聚簇索引和非聚簇索引 從數據結構角度: B-樹、B+

結點 , 大數據 , 數據 , VMFS索引 , 數據倉庫 , 數據庫

收藏 評論

阿里雲大數據AI技術 - 【跨國數倉遷移最佳實踐11】基於 MaxCompute Resource & Quota策略優化實現資源管理性能與成本最優平衡

本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解 BigQuery 遷移至 MaxCompute 過程中的關鍵挑戰與技術創新。本篇為第十一篇,基於 MaxCompute Resource Quota 策略優化實現資源管理性能與成本最優平衡。 注:客户背景為東南亞頭部科技集團,文中用 GoTerra 表示。 1. 背景 GoTerra 作為東南亞互

MaxCompute , 大數據 , 數據倉庫 , 阿里雲 , 數倉遷移

收藏 評論

署署愛測評 - 企業數據採集系統的構建思路與技術方案探討

在數字化轉型過程中,企業普遍面臨數據源分散、格式不一、實時性要求高等挑戰。數據採集作為數據價值鏈的起點,其技術選型與架構設計直接影響後續數據治理與應用的效率與成本。本文旨在從技術原理與工程實踐角度,分析構建企業級數據採集系統時需考量的核心要素與可能的實現路徑。 一、數據採集的核心挑戰與技術考量數據採集並非簡單的數據搬運,其複雜性主要源於業務環境的多樣性。常見挑戰包括:

數據源 , 大數據 , 數據 , 運維 , 數據倉庫

收藏 評論

網絡小墨 - 1.SparkSQL基礎—Spark SQL概述、Spark SQL核心編程—DataFrame(重要)、DataSet 與 RDD 之間相互轉換

作為大數據處理領域的明星框架,Apache Spark以其卓越的性能和易用性贏得了廣泛認可。本文將深入探討Spark的數據讀取方式、核心概念以及RDD與SparkSQL的關鍵特性,幫助您全面掌握Spark的核心機制。 一、數據讀取:多種方式滿足不同場景 1. SparkCore數據讀取方式 SparkCore提供了兩種主要的數據讀取方式

spark , 大數據 , 數據庫 , 分佈式 , 前端開發 , Javascript , Python

收藏 評論

mob64ca13feda16 - simulink索引模塊

Simulink是有定點化工具(fixed-point tool),沒有用過,因為我想生成一個不帶有浮點數的代碼的話只要把所有的數據類型定義為非浮點的形式就好了。 首先 要做的是找到模型中的浮點數(當然如果建模的時候沒有對數據類型進行特別設置的話,默認的數據類型都是double型的浮點數)。找浮點數有兩個方法:

定點化 , 數據類型 , 大數據 , Simulink , 數據倉庫 , simulink索引模塊

收藏 評論