Hadoop上DataLocality的詳解-創(chuàng)新互聯(lián)

Hadoop上Data Locality的詳解

創(chuàng)新互聯(lián)是一家專業(yè)提供綏濱企業(yè)網(wǎng)站建設,專注與網(wǎng)站建設、成都網(wǎng)站設計H5開發(fā)、小程序制作等業(yè)務。10年已為綏濱眾多企業(yè)、政府機構(gòu)等服務。創(chuàng)新互聯(lián)專業(yè)網(wǎng)絡公司優(yōu)惠進行中。

Hadoop上的Data Locality是指數(shù)據(jù)與Mapper任務運行時數(shù)據(jù)的距離接近程度(Data Locality in Hadoop refers to the“proximity” of the data with respect to the Mapper tasks working on the data.)

1. why data locality is imporant?

當數(shù)據(jù)集存儲在HDFS中時,它被劃分為塊并存儲在Hadoop集群中的DataNode上。當在數(shù)據(jù)集執(zhí)行MapReduce作業(yè)時,各個Mappers將處理這些塊(輸進行入分片處理)。如果Mapper不能從它執(zhí)行的節(jié)點上獲取數(shù)據(jù),數(shù)據(jù)需要通過網(wǎng)絡從具有這些數(shù)據(jù)的DataNode拷貝到執(zhí)行Mapper任務的節(jié)點上(the data needs to be copied over the network from the DataNode which has the data to the DataNode which is executing the Mapper task)。假設一個MapReduce作業(yè)具有超過1000個Mapper,在同一時間每一個Mapper都試著去從集群上另一個DataNode節(jié)點上拷貝數(shù)據(jù),這將導致嚴重的網(wǎng)絡阻塞,因為所有的Mapper都嘗試在同一時間拷貝數(shù)據(jù)(這不是一種理想的方法)。因此,將計算任務移動到更接近數(shù)據(jù)的節(jié)點上是一種更有效與廉價的方法,相比于將數(shù)據(jù)移動到更接近計算任務的節(jié)點上(it is always effective and cheap to move the computation closer to the data than to move the data closer to the computation)。

2. How is data proximity defined?

當JobTracker(MRv1)或ApplicationMaster(MRv2)接收到運行作業(yè)的請求時,它查看集群中的哪些節(jié)點有足夠的資源來執(zhí)行該作業(yè)的Mappers和Reducers。同時需要根據(jù)Mapper運行數(shù)據(jù)所處位置來考慮決定每個Mapper執(zhí)行的節(jié)點(serious consideration is made to decide on which nodes the individual Mappers will be executed based on where the data for the Mapper is located)。

Hadoop上Data Locality的詳解

3. Data Local

當數(shù)據(jù)所處的節(jié)點與Mapper執(zhí)行的節(jié)點是同一節(jié)點,我們稱之為Data Local。在這種情況下,數(shù)據(jù)的接近度更接近計算( In this case the proximity of the data is closer to the computation.)。JobTracker(MRv1)或ApplicationMaster(MRv2)選具有Mapper所需要數(shù)據(jù)的節(jié)點來執(zhí)行Mapper。

4. Rack Local

雖然Data Local是理想的選擇,但由于受限于集群上的資源,并不總是在與數(shù)據(jù)同一節(jié)點上執(zhí)行Mapper(Although Data Local is the ideal choice, it is not always possible to execute the Mapper on the same node as the data due to resource constraints on a busy cluster)。在這種情況下,優(yōu)選地選擇在那些與數(shù)據(jù)節(jié)點在同一機架上的不同節(jié)點上運行Mapper( In such instances it is preferred to run the Mapper on a different node but on the same rack as the node which has the data.)。在這種情況下,數(shù)據(jù)將在節(jié)點之間進行移動,從具有數(shù)據(jù)的節(jié)點移動到在同一機架上執(zhí)行Mapper的節(jié)點,這種情況我們稱之為Rack Local。

5. Different Rack

在繁忙的群集中,有時Rack Local也不可能。在這種情況下,選擇不同機架上的節(jié)點來執(zhí)行Mapper,并且將數(shù)據(jù)從具有數(shù)據(jù)的節(jié)點復制到在不同機架上執(zhí)行Mapper的節(jié)點。這是最不可取的情況。

如有疑問請留言或者到本站社區(qū)交流討論,感謝閱讀,希望能幫助到大家,謝謝大家對本站的支持!

網(wǎng)頁名稱:Hadoop上DataLocality的詳解-創(chuàng)新互聯(lián)
文章來源:http://m.kartarina.com/article38/ccgcsp.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站內(nèi)鏈用戶體驗服務器托管網(wǎng)站維護網(wǎng)站排名自適應網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站托管運營
主站蜘蛛池模板: 亚洲av无码专区在线播放| 无码人妻精品一区二区蜜桃网站| 无码国产精品一区二区免费16| 性色AV无码中文AV有码VR| 少妇特殊按摩高潮惨叫无码| 无码人妻精品一区二区三区99不卡 | 久久Av无码精品人妻系列 | 亚洲成av人片天堂网无码】 | 亚洲国产AV无码一区二区三区 | 少妇无码?V无码专区在线观看| 无码精品前田一区二区| 色偷偷一区二区无码视频| 无码人妻久久一区二区三区蜜桃| 亚洲Av综合色区无码专区桃色 | 亚洲AV无码一区二区三区在线| 无码日韩精品一区二区人妻| 亚洲AV无码一区二区二三区入口| 中文字幕无码不卡一区二区三区 | 精品久久久久久无码人妻中文字幕 | 亚洲爆乳无码专区| 亚洲中文字幕无码av| 亚洲中久无码永久在线观看同| 亚洲欧洲免费无码| 久久精品无码一区二区日韩AV| 日韩网红少妇无码视频香港| 国产成人无码区免费A∨视频网站| 国产真人无码作爱视频免费| 亚洲av中文无码| 亚洲午夜无码久久久久小说 | 一本大道无码日韩精品影视| 精品亚洲成在人线AV无码| 亚洲精品无码久久久久去q | 精品无码一区在线观看| 亚洲一区精品无码| 亚洲精品无码99在线观看| 久久无码人妻精品一区二区三区| 久久无码av亚洲精品色午夜| 国产av无码专区亚洲av桃花庵| 亚洲AV无码1区2区久久| 成人无码AV一区二区| 亚洲一区精品无码|