OceanBase數據庫是多租户設計的數據庫,同一個進程會運行着多個租户的請求,從租户資源劃分上可以分為三類,500租户內存、系統租户內存、業務租户內存。 500是個特殊的虛擬租户,共享性的、非實體租户消耗的內存都被OceanBase數據庫劃歸500租户。 系統租户是OceanBase數據庫自動創建的第一個實體租户,管理着集羣相關的內部表,這些內部表上的請求觸發的內存就劃歸到了sys租户。
Greenplum本質上是一個基於PostgreSQL的關係型數據庫集羣,實際上是由多個獨立的數據庫服務組合而成的一個邏輯數據庫。與Oracle的RAC不同,這種數據庫集羣採取的是MPP(Massively Parallel Processing,大規模並行處理)架構。Greenplum最大的特點就是基於低成本的開放平台基礎上提供強大的並行數據計算性能和海量數據管理能力。下圖展示了Greenplu
達夢數據庫數據庫出現的故障有很多,但主要可以劃分為幾下幾種主要的類型:語句錯誤、用户進程錯誤、網絡故障、用户錯誤、實例錯誤和介質故障。下面分別介紹這幾種故障類型以及相應的解決方案。 視頻講解如下: https://www.bilibili.com/video/BV1Nn4izfEy2/?aid=115377400975... 語句錯誤 語句錯誤是指在操作單個數據庫時發生了失敗,如執行sele
HDFS的快照(Snapshot)是一個全部文件系統、或者某個目錄在某一時刻的鏡像。這裏其實可以把HDFS的快照理解成是HDFS提供的一種備份機制。快照應用在以下場景中: 防止用户的錯誤操作 備份 試驗/測試 災難恢復 視頻講解如下: https://www.bilibili.com/video/BV1eTYCzVE4b/?aid=115043685437... 由於HDFS的快
阿里雲大數據計算服務(MaxCompute)是一種快速、完全託管的TB/PB級數據倉庫解決方案。MaxCompute向用户提供了完善的數據導入方案以及多種經典的分佈式計算模型,能夠更快速的解決用户海量數據計算問題,有效降低企業成本,並保障數據安全。 視頻講解如下: https://www.bilibili.com/video/BV19M8izmEoU/?aid=114924365812...
Sqoop是SQL To Hadoop的簡稱,它是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(Oracle、MySQL等)間進行數據的傳遞。通過使用Sqoop可以將一個關係型數據庫中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關係型數據庫中。Sqoop是基於MapReduce完成數據的交換,因此在使用Sqoop之前需要部署Hadoop環境;另一方面,由於
在Hadoop HDFS的體系架構中,包含了三個組成部分。它們分別是:NameNode、DataNode和SecondaryNameNode。下圖摘至Hadoop官方的網站,它説明了HDFS的體系架構。 視頻講解如下: https://www.bilibili.com/video/BV1eh23Y5En9/?aid=113282883000... 一、NameNode的職責 Name
Spark RDD通過persist方法或cache方法可以將計算結果的緩存,但是並不是這兩個方法被調用時立即緩存,而是觸發後面的action時,該RDD才會被緩存在計算節點的內存中並供後面重用。下面是persist方法或cache方法的函數定義: def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) def cache(): t
MySQL與Oracle一樣都是通過邏輯存儲結構來管理物理存儲結構,即管理硬盤上存儲的各種文件。下面將詳細介紹InnoDB存儲引擎中的數據文件和重做日誌文件。 一、數據文件 “.ibd”文件和ibdata文件 這兩種文件都是存放Innodb數據的文件,之所以有兩種文件來存放Innodb的數據(包括索引),是因為 Innodb 的數據存儲方式能夠通過配置來決定是使用共享表空間存放存儲數據,還是獨享表
Hive的分區表跟Oracle、MySQL中分區表的概念是一樣的。當表上建立了分區,就會根據分區的條件從物理存儲上將表中的數據進行分隔存儲。而當執行查詢語句時候,也會根據分區的條件掃描特定分區中的數據,從而避免全表掃描以提高查詢的效率。Hive分區表中的每個分區將會在HDFS上創建一個目錄,分區中的數據則是該目錄下的文件。在執行查詢語句時,可以通過SQL的執行計劃瞭解到是否在查詢的時候掃描的特定的
Hive是基於HDFS之上的數據倉庫,它把所有的數據存儲在HDFS中,Hive並沒有專門的數據存儲格式。當在Hive中創建了表,可以使用load語句將本地或者HDFS上的數據加載到表中,從而使用SQL語句進行分析和處理。 Hive的數據模型主要是指Hive的表結構,可以分為:內部表、外部表、分區表、臨時表和桶表,同時Hive也支持視圖。視頻講解如下: https://www.bilibili
由於在HA架構中包含的節點比較多,在進行實際部署的時候需要做好集羣的規劃。圖14.9一共使用了4個節點來部署HDFS HA,它們分別是:bigdata112、bigdata113、bigdata114和bigdata115。由於Hadoop默認包含了HDFS和Yarn,因此在部署HDFS HA的時候,也可以同時部署Yarn的HA。每個節點上部署的服務如下表所示: 視頻講解如下:
大數據體系架構中的核心組件都是主從架構,即:存在一個主節點和多個從節點,從而組成一個分佈式環境。下圖為展示了大數據體系中主從架構的相關組件。 視頻講解如下: https://www.bilibili.com/video/BV1vz421z72U/?aid=1355982530c... 從上圖可以看出大數據的核心組件都是一種主從架構,而只要是主從架構就存在單點故障的問
大數據體系架構中的組件非常多,每個組件又屬於不同的生態圈系統。從最早的Hadoop生態圈體系開始,逐步有了Spark生態圈體系和Flink生態圈體系。因此在學習大數據之前有必要了解一下每一個生態圈體系中具體包含哪些組件,以及它們的作用又是什麼。 視頻講解如下: https://www.bilibili.com/video/BV1UE421N7RC/?aid=1655938699