基于抽樣估計的MapReduce負(fù)載平衡研究.pdf_第1頁
已閱讀1頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、從云計算的涌現(xiàn)到其目前發(fā)展得如此成熟都應(yīng)歸功于現(xiàn)實環(huán)境的促進(jìn)和互聯(lián)網(wǎng)技術(shù)的發(fā)展。首先,互聯(lián)網(wǎng)在各行各業(yè)的迅速普及,使得數(shù)據(jù)量呈爆發(fā)式地增長。國際數(shù)據(jù)公司(IDC)的一項研究統(tǒng)計顯示,全球2010年所產(chǎn)生的數(shù)據(jù)量約是1.3ZB,而第二年又增加了約0.6ZB,這就是說地球上每一個人產(chǎn)生的數(shù)據(jù)最少200GB大小,此后增長得更迅猛。數(shù)據(jù)量早已不是那個TB的時代,更大的數(shù)據(jù)級別即將到來。那么怎么合理地存儲并處理這些海量數(shù)據(jù)是人們面臨的一個重大難題

2、。其次,由于云計算具有壓倒性的成本優(yōu)勢,各大公司都把主要的戰(zhàn)略投向云計算技術(shù),也使得云計算的發(fā)展極為迅速。
  MapReduce已被證明在其上可以提供有效而且強(qiáng)大的并行處理方法,通過此模型,一些沒有操作過并行程序處理的程序員同樣可運用得游刃有余,可是MapReduce自身還存在著不足之處,那就是MapReduce的數(shù)據(jù)傾斜(DataSkew)在運行中普遍的存在。當(dāng)大型數(shù)據(jù)集中數(shù)據(jù)分布不均衡時,會在運行時使得節(jié)點的負(fù)載不平衡,個別

3、的任務(wù)會成為整個作業(yè)的“落后者”,從而導(dǎo)致整個系統(tǒng)的性能降低,整個作業(yè)運行時間也被延長了。
  本論文研究的問題就是如何高效地解決在MapReduce程序運行中Reduce階段出現(xiàn)的數(shù)據(jù)傾斜情況,現(xiàn)有的一些方法都是異步的,這樣降低了MapReduce的同步性,因此本論文主要采用“先預(yù)處理,后劃分”的策略,使Reducer達(dá)到負(fù)載平衡。首先使用一種二層抽樣的技術(shù)統(tǒng)計出數(shù)據(jù)集上key的基數(shù)分布情況,然后根據(jù)這個分布情況提前制定出分配策

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論