這篇文章將為大家詳細講解有關什么是Cloudera虛擬私有集群和SDX,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。
創新互聯主要從事成都網站建設、網站建設、網頁設計、企業做網站、公司建網站等業務。立足成都服務郎溪,10余年網站建設經驗,價格優惠、服務專業,歡迎來電咨詢建站服務:13518219792
1概述
虛擬私有集群(Virtual Private Cluster,VPC)使用Cloudera共享數據體驗(Shared Data Experience,SDX)來簡化本地和基于云的應用程序的部署,并使運行在不同集群中的工作負載能夠安全,靈活的共享數據。這個架構為在應用程序之間部署工作負載和共享數據帶來了很多優勢,包括共享元數據,統一安全,一致的數據治理和數據生命周期管理。
在傳統的CDH部署中,一個集群通常包含存儲節點,計算節點以及其它服務如元數據和安全服務。這種傳統架構有很多優點,比如Impala和YARN可以訪問相同的數據源如HDFS或Hive。
借助VPC和SDX框架,CDH6.2提供了一種新類型集群,稱為計算集群(Compute cluster)。計算集群運行Impala,Hive Execution Service,Spark或YARN等計算服務,然后配置這些集群都統一訪問同一個常規CDH集群(Regular CDH cluster),稱為基礎集群(Base cluster)。使用這個架構可以實現計算和存儲的分離,從而提高總的資源利用率。
2存儲和計算分離的優點
存儲和計算分離架構可以為CDH部署帶來很多優勢:
1.為部署計算和存儲資源提供更多選擇
a)你可以有選擇的將資源部署到本地服務器,容器,虛擬機或云中,具體看工作負載適合哪個部署環境。配置Compute集群時,你可以配置更適合計算類工作負載的硬件,而Base集群則可以使用存儲較大的硬件。Cloudera建議每個集群使用相似的硬件。
b)可以優化軟件資源以最好地使用計算和存儲資源。
2.臨時集群
在云基礎架構上部署集群時,存儲和計算分離可以允許你暫時關閉計算集群以避免不必要的開銷 - 同時數據依舊保存給其它的應用程序使用。
3.隔離工作負載
a)Compute集群可以解決用戶訪問時的資源沖突問題。可以對需要長時間運行的工作負載或者非常吃資源的工作負載進行隔離,將它們部署到專有的Compute集群中運行,從而不影響其它工作負載。
b)資源可以按集群進行分組,從而允許IT團隊對使用使用集群的團隊基于資源進行成本核算。
3架構
Compute集群配置有計算資源,例如YARN,Spark,Hive Execution或Impala。在這些集群上運行的工作負載通過連接到Base集群的數據上下文(Data Context)來訪問數據。數據上下文是連接到Base集群的連接器。數據上下文定義了在Base集群中部署的訪問數據所需的數據,元數據和安全服務。無論是Compute集群還是Base集群都由同一個Cloudera Manager管理。Base集群必須部署HDFS服務,同時也可以包含任何其他的CDH服務 - 但只能使用數據上下文共享HDFS,Hive,Sentry,Amazon S3和Microsoft ADLS。
Compute集群需要HDFS服務來保存多階段MapReduce作業中使用的臨時文件。另外,根據需要部署以下服務:
Hive Execution Service(此服務僅提供HiveServer2角色)
Hue
Impala
Spark2
Oozie(Hue依賴該服務)
YARN
HDFS(必須)
VPC的功能是常規集群中可用功能的子集,您可以使用的CDH版本是有限的。
4性能權衡
吞吐
因為訪問數據需要通過集群與集群之間的網絡,因此該架構不適合需要掃描大量數據的工作負載。這些類型的工作負載在常規集群上會運行的更好,就是存儲和計算不分離,諸如像Impala的短回路(short-circuit)讀取可以帶來更好的性能。
臨時集群
當Compute集群因為不需要時被關閉或暫停后,收集歷史數據的服務不會在Compute集群離線時收集數據,同時用戶也無法訪問歷史記錄。這會影響Spark History Server和YARN JobHistory Server等服務。當Compute集群重新啟動后,你才可以訪問以前的歷史記錄。
Compute集群中的數據治理和元數據
在一個Base集群和多個Compute集群的環境中,Navigator的設計目標是為Base集群的數據治理和元數據提供服務。它不會從臨時的Compute集群中提取元數據和審計事件。配置集群時,如果用戶操作是針對Base集群上的服務和數據運行,并且使用受控的服務賬號在Compute集群上進行操作,Navigator會依舊跟蹤元數據和審計事件。
因為不會收集Compute集群上運行服務的審計事件,所以如果你需要收集用戶的審計事件,請確保Compute集群上運行的工作負載是服務用戶執行的工作負載,并嚴格控制對服務用戶帳戶的訪問。
對于在Compute集群上運行的服務,不會收集任何元數據。要確保系統收集你的環境中的資產和操作元數據,請在數據上下文中包含服務。
關于什么是Cloudera虛擬私有集群和SDX就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
文章標題:什么是Cloudera虛擬私有集群和SDX
網頁網址:http://m.kartarina.com/article34/jeccpe.html
成都網站建設公司_創新互聯,為您提供關鍵詞優化、網站內鏈、網站收錄、云服務器、域名注冊、面包屑導航
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯