tag mapreduce

標籤
貢獻4
66
05:15 PM · Nov 21 ,2025

@mapreduce / 博客 RSS 訂閱

mob64ca140a8e67 - spark block 大小配置

1.RDD 彈性分佈式數據集: RDD是由多個partition組成 最小單位是partition:與讀取的block是一一對應的. 有多少個block就有多少個partion. 算子就是函數:作用再rdd的partition上的. 對彈性的理解:某個RDD損壞了,可以進行恢復.他們直接有依賴關係 分區器是作用在kv格式RDD上很難理解 partition提供數據

spark , 大數據 , 數據 , hadoop , spark block 大小配置 , mapreduce

收藏 評論

架構設計師之光 - hive存儲結構化數據

Hive 的結構如圖所示, 主要分為以下幾個部分: 用户接口,包括 CLI,Client,WUI。 元數據存儲,通常是存儲在關係數據庫如 mysql, derby 中。 解釋器、編譯器、優化器、執行器。 Hadoop:用 HDFS 進行存儲,利用 MapReduce 進行計算。

大數據 , hive , table , hive存儲結構化數據 , 存儲 , 數據庫 , mapreduce

收藏 評論

deanyuancn - MapReduce 實驗:二次排序

1.首先創建twosortfile1.txt,並在此文件中輸入內容 cd /usr/local/hadoop vim twosortfile1.txt twosortfile1.txt文件內容如下: a 20 b 20 a 5 c 10 c 8 b 15 a 10 b 18 c 29 b 52

大數據 , hadoop , text , mapreduce , apache

收藏 評論

mob64ca140f29e5 - 高可用,完全分佈式Hadoop集羣HDFS和MapReduce安裝配置指南_51CTO博客

📋 第一步:系統檢查 # 檢查操作系統版本 cat /etc/os-release # 檢查內核版本 uname -r # 檢查Java是否安裝 java -version 運行結果示例: user@server:~$ cat /etc/os-release PRETTY_NAME="Ubuntu 24

大數據 , hadoop , xml , 後端開發 , mapreduce , Python

收藏 評論