tag hadoop

標籤
貢獻123
202
01:12 PM · Nov 03 ,2025

@hadoop / 博客 RSS 訂閱

趙渝強老師 - 【趙渝強老師】大數據生態圈中的組件

  大數據體系架構中的組件非常多,每個組件又屬於不同的生態圈系統。從最早的Hadoop生態圈體系開始,逐步有了Spark生態圈體系和Flink生態圈體系。因此在學習大數據之前有必要了解一下每一個生態圈體系中具體包含哪些組件,以及它們的作用又是什麼。   視頻講解如下: https://www.bilibili.com/video/BV1UE421N7RC/?aid=1655938699

spark , 大數據 , hadoop , flink , kafka

收藏 評論

mob64ca140ee96c - HbaseMyBatisMongDb區別

基於 HDP2.4安裝(五):集羣及組件安裝 創建的hadoop集羣,修改默認配置,將hbase存儲配置為 Azure Blob Storage 目錄: 簡述 配置 驗證 FAQ 簡述: hadoop-azure 提供hadoop 與 azure blob storage 集成支持,需要部署 ha

azure , hadoop , 數據庫 , storage , hbase

收藏 評論

level - 大數據系統需要把數據都放入hadoop中嗎

大數據發展過程的關鍵要素 數據源的三個層次: 1 緯度較少、數據量小 2 緯度豐富、數據量巨大(大數據)。 3 數據正確、及時、具有代表性 樣本數據=總體數據(全數據)。 對業務目標而言,數據是否“全”才是關鍵。 全數

大數據 , 數據 , hadoop , 數據治理 , 全數據

收藏 評論

mob64ca1418e88d - 核心數據庫保護安全技術實踐 - ak

前兩講我們探討了為何需要可信數據空間及其核心定義。許多讀者追問:那些關於"數據主權"和"可用不可見"的承諾,究竟如何通過技術實現? 本期將深入技術核心,把鏡頭拉近,看看可信數據空間如何把“我的數據我做主”寫進每一行代碼、每一次網絡握手、每一份數字合約。揭示可信數據空間如何用具體技術保障數據要素流通中的主權與安全。 01 把“數據主權”

數據空間 , 大數據 , 數據 , 區塊鏈 , hadoop

收藏 評論

mob64ca14031c97 - cdp對應的spark客户端 spark core

目錄 一、Spark Core 1、什麼是Spark?特點 二、安裝和部署Spark、Spark 的 HA 1、spark體系結構 2、spark的搭建 3、Spark的 HA 三、執行Spark的任務

spark , 大數據 , hadoop , Scala , cdp對應的spark客户端

收藏 評論

編程小天才 - 5.3.《hadoop實戰》Hadoop數據管理之Hive_eternity

Hive與HDFS集成:數據存儲路徑管理技巧 在Hive與HDFS集成中,合理管理數據存儲路徑是提升性能和維護效率的關鍵。以下是核心管理技巧: 1. 自定義存儲路徑 創建表時使用LOCATION子句指定HDFS路徑,避免使用默認倉庫目錄: CREATE EXTERNAL TABLE sales_data ( id I

hdfs , hive , hadoop , 後端開發 , Python

收藏 評論

我就是不長肉而已 - BAT54S-ASEMI可直接替代安世BAT54S-QR

編輯:ll BAT54S-ASEMI可直接替代安世BAT54S-QR 型號:BAT54S 品牌:ASEMI 封裝:SOT-23 正向電流:0.2A 反向電壓:30V 正向壓降:0.55V~0.95V 引線數量:2 芯片個數:1 芯片尺寸:MIL 漏電流:10ua 恢復時間:35ns 浪涌電流:80A

BAT54S , ASEMI , 大數據 , hadoop , 在51CTO的第一篇博文 , 肖特基二極管

收藏 評論

雲端夢想家 - linux中刪除指定鏡像文件

一、刪除框架多餘的命令 很多框架都帶有 Windows 和 Linux 的兩套功能相同的命令,但是我們在 Linux 下部署服務器根本用不到 Windows 那一套命令,所有我們把所以的以 .cmd 結尾的文件都刪掉,避免每次匹配都干擾我們補全。 找到根目錄下所有的以 cmd 結尾的文件並把查找結果當做參數傳給rm -rf命令進行

find , linux中刪除指定鏡像文件 , 雲計算 , 刪除文件 , hadoop , Linux , 雲原生

收藏 評論

daleiwang - Atcoder AGC001 解題報告

A 簡單題,每次找兩個最短的配對,取兩者 \(\min\)。實現上,對 \(a\) 從小到大排序,\(1 \to n\) 遍歷 \(i\),每次將 \(a_i\) 累計入答案並對 \(i\) 迭代 \(+ 2\)。 #include bits/stdc++.h using i64 = long long; int main() { st

大數據 , hadoop , i++ , ci , ios

收藏 評論

mob64ca140f67e3 - hadoop yarn怎麼定位到數據傾斜的key

數據傾斜是指,map /reduce程序執行時,reduce節點大部分執行完畢,但是有一個或者幾個reduce節點運行很慢,導致整個程序的處理時間很長,這是因為某一個key的條數比其他key多很多(有時是百倍或者千倍之多),這條key所在的reduce節點所處理的數據量比其他節點就大很多,從而導致某幾個節點遲遲運行不完。

數據傾斜 , 大數據 , 數據 , hive , hadoop

收藏 評論

編程小天匠 - 【技術之聲】第三期(20220103)一週精選

▌引言:GEO 正在重構全球智能流量分配規則 2025 年,生成式 AI 搜索已完成從“技術探索”向“商業規模化應用”的關鍵躍遷。以 ChatGPT、DeepSeek、Gemini、Claude、豆包等為代表的 AI 搜索與問答系統,正在系統性重塑用户的信息獲取路徑,也由此重構了企業獲取流量、影響決策與實現轉化的底層邏輯。 在這一背景下,GEO(Generat

知乎 , 商業 , 大數據 , 搜索 , hadoop

收藏 評論

AI領域佈道師 - spark2支持hint嗎

目錄 條件 安裝 scala 發到虛擬機上,解壓 配置環境變量 配置SCALA_HOME,然後在PATH變量後加上`:$SCALA_HOME/bin` 驗證 spark 下載 解壓 配置環境變量

spark , 大數據 , hadoop , spark2支持hint嗎

收藏 評論

mob64ca14133dc6 - 計算機網絡常見面試題 - 楊柳依依

UDP和TCP是傳輸層最重要的兩種協議,它們的區別從根本上決定了互聯網上各種應用的表現。 簡單來説: TCP像打電話:需要接通、確認對方能聽到、有條理地對話、最後説再見。可靠,但步驟多。 UDP像發傳單:把傳單扔出去就行,不關心對方是否收到、是否按順序收到。快速,但不可靠。 下面通過一個詳細的表格和解釋來全面對

大數據 , tcp , ip , hadoop , udp , 網絡協議

收藏 評論

趙渝強老師 - 【趙渝強老師】HBase的體系架構

HBase是大表(BigTable)思想的一個具體實現。它是一個列式存儲的NoSQL數據庫,適合執行數據的分析和處理。簡單來説,就是適合執行查詢操作。從體系架構的角度看,HBase是一種主從架構,包含:HBase HMaster、Region Server和ZooKeeper,下圖展示了這一架構。 其中: HBase HMaster負責Region的分配及數據庫的創建和刪除等操作。

hdfs , nosql , hadoop , 數據庫 , hbase

收藏 評論

趙渝強老師 - 【趙渝強老師】HBase的邏輯存儲結構

HBase的邏輯存儲結構主要包括:命名空間(NameSpace)、表(Table)和列族(Column Family)。視頻講解如下: https://www.bilibili.com/video/BV1T3BrYcE8a/?aid=113529894410... 下面分別進行介紹。 一、 命名空間(NameSpace) HBase的命名空間相當於Oracle和MySQL中的數據庫,它是對錶

hdfs , nosql , hadoop , 數據庫 , hbase

收藏 評論

趙渝強老師 - 【趙渝強老師】HBase的物理存儲結構

HBase的存儲結構分為邏輯存儲結構與物理存儲結構,並且HBase通過邏輯存儲結構來管理物理存儲結構。而最終物理存儲對應的文件又是存儲在HDFS之上。而HBase的物理存儲結構主要包括StoreFile、HFile和HLog日誌。視頻講解如下: https://www.bilibili.com/video/BV1T3BrYcE8a/?aid=113529894410... 一、 數據文件HF

hdfs , nosql , hadoop , 數據庫 , hbase

收藏 評論

趙渝強老師 - 【趙渝強老師】大數據日誌採集引擎Flume

Apache Flume支持採集各類數據發送方產生的日誌信息,並且可以將採集到的日誌信息寫到各種數據接收方。其核心是把數據從數據源(Source)收集過來,在將收集到的數據送到指定的目的地(Sink)。為了保證輸送的過程一定成功,在送到目的地(Sink)之前,會先緩存數據(Channel),待數據真正到達目的地(Sink)後,Flume再刪除自己緩存的數據。 一、 Apache Flume的體系架

大數據 , hadoop , flume , etl

收藏 評論

StarRocks - 告別 Hadoop,擁抱 StarRocks!政採雲數據平台升級之路

作者:李進勇 政採雲研發中心數據平台負責人 導讀: 在當下數字化轉型的浪潮中,數據早已從輔助資源躍升為核心生產資料和決策基礎。政府提升治理效能,企業優化運營、創新服務,都深度依賴對海量數據的實時洞察與高效處理。 政採雲平台作為政府採購數字化的創新典範,集監管、交易、服務於一體,經過近九年的發展,已成為行業內服務範圍最廣、用户數量最多、交易最活躍、監管產品最豐富的跨區域、跨層級、跨領域的一

數據結構 , hadoop , 數據庫 , starrocks

收藏 評論

饕餮大數據 - MDEP-187 從根因到修復

温馨提示 此內容版本在 ttr-2.2.1 已經修復,低於該版本需要手動處理。有任何問題可以聯繫作者,或者訪問 TTBigdata知識庫 獲取其他技術支持。 一、問題背景 在編譯 Ambari Views 模塊時,常會遇到以下錯誤: 典型報錯信息如下: [DEBUG] (f) session = org.apache

大數據 , yyds乾貨盤點 , Bigtop , 運維 , hadoop , 開源大數據 , Ambari

收藏 評論

饕餮大數據 - 【Ambari開啓Kerberos】-Kafka啓動失敗處理

温馨提示 本文內容在使用 ttr-2.2.0版本之前,開啓Kerberos後才會遇到。 後續版本已經做了處理,無需關注! 如果在部署、二開過程中,遇到任何問題可以讓作者幫你解決。 一、問題現象 在 Ambari 啓用 Kerberos 後啓動 Kafka 服務時,出現如下錯誤,Kafka 無法正常啓動。 [2025-10-29

hdp , 大數據 , cdh , 私藏項目實操分享 , 運維 , hadoop , 開源

收藏 評論

mob64ca140f67e3 - matlab解超靜定方程,超定方程和最小二乘法 | 學步園

對於稀疏的超定線性方程組 Ax = b(其中 A ∈ ℝᵐˣⁿ,m n,即方程個數多於未知數個數),由於通常不存在精確解,我們尋求最小二乘意義下的最優解: min ‖Ax - b‖₂² 當矩陣 A 是大型稀疏矩陣時,直接法(如QR分解、SVD)計算開銷大,因此常用迭代法或基於稀疏結構的優化算法。以下是幾種常用解法: 1. 正規方程法

最小二乘 , 稀疏矩陣 , 大數據 , 算法 , hadoop , 超定方程組 , 線性方程求解

收藏 評論

雲端小仙童 - hadoo hive zk版本兼容 hadoop和hive版本

1 準備工作 1.1 軟件準備 Hive需要Hadoop的支持,在安裝Hive之前需要正確安裝Hadoop。目前Hive的最新版本為0.13.1,這個版本可在Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y下使用。本文采用Hadoop 1.x中最新版本1.2.1。Hadoop使用環境中必須由JDK,本文下載JDK 7較新版本。同時,Hive將

大數據 , hadoo hive zk版本兼容 , hive , hadoop , JAVA

收藏 評論

數據探索者 - Storm 為什麼淘汰

序:在開發storm項目時,提交項目jar包當把依賴的第三方jar包都打進去提交storm集羣啓動時報了發現多個同名的文件錯誤由此開始了一段對jar包的深刻理解之路。 java.lang.RuntimeException: Found multiple defaults.yaml resources.You're probably bundling

Storm , 大數據 , jar , maven , hadoop , Storm 為什麼淘汰 , JAVA

收藏 評論

趙渝強老師 - 【趙渝強老師】Hadoop HDFS的快照

HDFS的快照(Snapshot)是一個全部文件系統、或者某個目錄在某一時刻的鏡像。這裏其實可以把HDFS的快照理解成是HDFS提供的一種備份機制。快照應用在以下場景中: 防止用户的錯誤操作 備份 試驗/測試 災難恢復 視頻講解如下: https://www.bilibili.com/video/BV1eTYCzVE4b/?aid=115043685437... 由於HDFS的快

hdfs , 大數據 , hadoop , JAVA

收藏 評論