大數據集羣搭建及管理
問題:需要搭建 1000 台服務器的集羣,其中集羣包含 Hive、Hbase、Flume、Kafka、Spark 等集羣,需要多長時間搭建好?
思考: 搭建四台集羣與搭建 1000 台集羣的區別?比較相似。
解決問題:(以搭建HDFS為例)
集羣環境規劃
首先我們需要進行集羣基礎環境的規劃:比如每台節點的網絡 ip 規劃,節點時間同步,每台節點的名稱,每台節點安裝 jdk,節點之間配置免密等。
其次需要進行 Hadoop 的集羣規劃:比如搭建 HDFS 的版本,搭建的 HDFS 模式,搭建單機模式?還是完全分佈式模式?還是HA的完全分佈式模式?搭建 HDFS 是否需要依賴?比如 zookeeper。
最後對節點進行規劃:比如那些節點搭建 zookeeper?那些節點搭建 Hadoop 集羣等。
實際搭建步驟:
- 基礎環境的搭建
- 搭建 zookeeper 集羣。
- 搭建 HDFS 集羣。
存在的問題:
- 各個大數據技術包的下載。升級複雜。
- 配置文件多節點之間分發。部署過程複雜。
- 大數據技術各個版本的匹配兼容。版本對應混亂,兼容性差。
- 集羣使用狀態、日誌查看麻煩。去節點查看詳細內容,安全性差。
CDH簡介
目前 Hadoop 發行版非常多,除了原生的 Apache Hadoop 外,還有 Cloudera 發行版(CDH)、Hortonworks 發行版[2018 年與 Cloudera 公司已經合併],MapR的MapR 產品、AWS[Amazon Web Services]的 EMR[Elastic MapReduce]等。目前市場份額佔比最高的是前三家。所有這些發行版都是基於 Apache Hadoop 衍生出來的,之所以有這麼多版本,是由於 Apache Hadoop 的開源協議決定的:任何人可以對其進行修改,並作為開源或者商業產品發佈或者銷售。
Apache Hadoop 版本: 最原始的版本,所有的發行版都是基本這個版本改進,也稱為社區版 Hadoop。
Cloudera 版本:Cloudera’s Distribution Including Apache Hadoop ,簡稱 CDH。
Hortonworks 版本:Hortonworks Data Platform 簡稱“HDP”。
對於國內的用户來説,CDH 版本使用最多。CDH 基於 Web 的用户界面,支持大多數 Hadoop 的組件,包括:HDFS、MapReduce、Hive、Hbase、Zookeeper 等組件, 並且簡化了大數據平台的安裝和使用,使集羣方便管理。
Cloudera 的 CDH 和 Apache 原生的 Hadoop 的區別如下:
1.CDH 對版本的劃分非常清晰,CDH 共有6個版本,前三個版本已經不再更新,目前更新的兩個版本為 CDH5 和 CDH6,CDH4 基於 Hadoop2.0,CDH5 基於 Hadoop2.2-2.6,CDH6 基於 Hadoop3.0,而原生的Apache Hadoop版本比較多,CDH相比原生Apache Hadoop做到版本統一管理。
2.CDH相比原生 Hadoop 在兼容性、安全性、穩定性上有較大改善,對 Hadoop 一 些 bug 進行了修復,支持 Kerberos 安全認證,更新速度快且 CDH 文檔完善清晰。
3.CDH 支持 yum 包,rpm 包,tar 包,Cloudera Manager 幾種方式安裝,原生的 Apache Hadoop只支持tar包安裝。
4.提供了部署、安裝、配置工具,大大提高了集羣部署的效率,可以在短時間內部署好集羣。
5.運維簡單,提供了管理、監控、診斷、配置修改工具,管理配置方便,定位問題快速,準確,使運維工作簡單高效。
CDH集成組件
CDH 集成了數據整合、存儲、計算、搜索、分析等大數據相關技術組件,如下圖:
CDH 中文官網:https://cn.cloudera.comCDH
英文官網:https://www.cloudera.com
CDH界面
CDH架構
Server:Cloudera Manager 的核心是 Cloudera Manager Server ,Server 管理控制枱服務和託管應用程序邏輯,負責軟件的安裝、配置、服務的啓動與關閉及管理集羣。
Agent:安裝在每台主機上。Agent 負責進程的啓動和停止,解壓配置,觸發安裝及監控主機。
Management Service:由一組角色組成的服務,這些角色執行各種監視,警報和報告功能。
DataBase:存儲配置及監控信息。
ClouderaRepository:Cloudera Manager分發軟件的存儲庫。
Clients:與 Server交互的接口,有兩部分,Admin Console :管理員web界面版。Api:用於開發者創建Cloudera Manager程序。
以上就是今天分享的全部內容。
如果你想了解更多關於:Cloudera 系統環境準備、基礎環境安裝、集羣部署以及應用組件安裝等全方位的技術的問題,可以後台聯系我。
例如:從環境搭建/集羣部署,內存擴容/問題排查,數據遷移等助你輕鬆應對數據管理的複雜性。
感謝你的閲讀,如果喜歡我的文字,可以持續關注我,會陸續為你更新更多幹貨小知識。 如果你想深入探討了解 Cloudera 大數據技術的(內存擴容/縮容策略,故障診斷與問題排查)的方法論,歡迎找我:15928721005