1.RDD 彈性分佈式數據集: RDD是由多個partition組成 最小單位是partition:與讀取的block是一一對應的. 有多少個block就有多少個partion. 算子就是函數:作用再rdd的partition上的. 對彈性的理解:某個RDD損壞了,可以進行恢復.他們直接有依賴關係 分區器是作用在kv格式RDD上很難理解 partition提供數據
Hive 的結構如圖所示, 主要分為以下幾個部分: 用户接口,包括 CLI,Client,WUI。 元數據存儲,通常是存儲在關係數據庫如 mysql, derby 中。 解釋器、編譯器、優化器、執行器。 Hadoop:用 HDFS 進行存儲,利用 MapReduce 進行計算。
1.首先創建twosortfile1.txt,並在此文件中輸入內容 cd /usr/local/hadoop vim twosortfile1.txt twosortfile1.txt文件內容如下: a 20 b 20 a 5 c 10 c 8 b 15 a 10 b 18 c 29 b 52
📋 第一步:系統檢查 # 檢查操作系統版本 cat /etc/os-release # 檢查內核版本 uname -r # 檢查Java是否安裝 java -version 運行結果示例: user@server:~$ cat /etc/os-release PRETTY_NAME="Ubuntu 24