臧振立-論文綜述_第1頁
已閱讀1頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、文獻綜述大數(shù)據(jù)與企業(yè)的關系一、研究背景與動態(tài)1大數(shù)據(jù)概念研究機構(gòu)Gartner的定義:大數(shù)據(jù)是指需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。維基百科的定義:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策目的的資訊。麥肯錫的定義:大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行采集、存儲、管理和分析的數(shù)據(jù)

2、集合。無論哪種定義,我們可以看出,大數(shù)據(jù)并不是一種新的產(chǎn)品也不是一種新的技術,就如同本世紀初提出的“海量數(shù)據(jù)”概念一樣,大數(shù)據(jù)只是數(shù)字化時代出現(xiàn)的一種現(xiàn)象。那么海量數(shù)據(jù)與大數(shù)據(jù)的差別何在從翻譯的角度看,“大數(shù)據(jù)”和“海量數(shù)據(jù)”均來自英文,“bigdata”翻譯為“大數(shù)據(jù)”,而“l(fā)argescaledata”或者“vastdata”則翻譯為“海量數(shù)據(jù)”。從組成的角度看,海量數(shù)據(jù)包括結(jié)構(gòu)化和半結(jié)構(gòu)化的交易數(shù)據(jù),而大數(shù)據(jù)除此以外還包括非結(jié)構(gòu)化

3、數(shù)據(jù)和交互數(shù)據(jù)。Infmatica大中國區(qū)首席產(chǎn)品顧問但彬進一步指出,大數(shù)據(jù)意味著包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)?;驈碗s程度超出了常用技術,按照合理的成本和時限捕捉、管理及處理這些數(shù)據(jù)集的能力。可見,大數(shù)據(jù)由海量交易數(shù)據(jù)、海量交互數(shù)據(jù)和海量數(shù)據(jù)處理三大主要的技術趨勢匯聚而成。上個世紀60年代,數(shù)據(jù)一般存儲在文件中,由應用程序直接管理;70年代構(gòu)建了關系數(shù)據(jù)模型,數(shù)據(jù)庫技術為數(shù)據(jù)存儲提供了新的手段;80年代中期,數(shù)據(jù)倉庫由于具

4、有面向主題、集成性、時變性和非易失性特點,成為數(shù)據(jù)分析和聯(lián)機分析的重要平臺;隨著網(wǎng)絡的普及和web2.0網(wǎng)站的興起,基于Web的數(shù)據(jù)庫和非關系型數(shù)據(jù)庫等技術應運而生,能手機和社交網(wǎng)絡的廣泛使用,使得各種類型的數(shù)據(jù)呈指數(shù)增長,漸漸超出了傳統(tǒng)關系型數(shù)據(jù)上,首次提出了“數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)”的概念。1995年召開了第一屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學術會議,隨著與會人員的增多,KDD國際會議發(fā)展為年會。1998年在美國紐約舉行了第四屆知識發(fā)

5、現(xiàn)與數(shù)據(jù)挖掘國際學術會議,不僅進行了學術討論,而且30多家軟件公司展示了自己的產(chǎn)品,比如,IBM公司研制的IntelligentMiner,用來提供數(shù)據(jù)挖掘的解決方案;SPSS股份公司開發(fā)了基于決策樹的數(shù)據(jù)挖掘軟件Clementine;acle公司開發(fā)的Darwin數(shù)據(jù)挖掘套件,另外還有SAS公司的Enterprise和SGI公司的MineSet等。經(jīng)濟利益成為主要的推動力,IBM、ACLE、微軟、谷歌、亞馬遜、Facebook、Ter

6、adata、EMC、惠普等跨國巨頭也因大數(shù)據(jù)技術的發(fā)展而更加具有競爭力。僅2009年一年,谷歌公司通過大數(shù)據(jù)業(yè)務對美國經(jīng)濟貢獻540億美元;2005年以來,IBM投資160億美元進行30多次與大數(shù)據(jù)相關的收購,使業(yè)績穩(wěn)定高速增長,2012年,IBM股價每股突破200美元大關,3年內(nèi)翻了3番;eBay通過數(shù)據(jù)挖掘精確計算出廣告中每個關鍵字帶來的回報,2007年以來,廣告費降低了99%,同時頂級賣家占總銷售額的百分比上升至32%;2011年

7、,F(xiàn)acebook首次公開新數(shù)據(jù)處理分析平臺PUMA,通過對數(shù)據(jù)多處理環(huán)節(jié)區(qū)分優(yōu)化,相比之前單純采用Hadoop和Hive進行處理的技術,數(shù)據(jù)分析周期從2天降到10秒以內(nèi),效率提高數(shù)萬倍。2012年3月,奧巴馬政府公布“大數(shù)據(jù)研發(fā)計劃”,旨在提高和改進人們從海量、復雜的數(shù)據(jù)中獲取知識的能力,發(fā)展收集、儲存、保留、管理、分析和共享海量數(shù)據(jù)所需要的核心技術,大數(shù)據(jù)成為繼集成電路和互聯(lián)網(wǎng)之后信息科技關注的重點。與國外相比,國內(nèi)起步稍晚,還未形

8、成整體力量,企業(yè)使用數(shù)據(jù)挖掘技術尚不普遍但近幾年出現(xiàn)了蓬勃發(fā)展的態(tài)勢。我國國家自然科學基金于1993年首次支持對數(shù)據(jù)挖掘領域的研究項目。1999年,在北京召開第三屆亞太地區(qū)知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會議(PAKDD),收到論文158篇。2011年,第十五屆PAKDD在深圳舉辦,會議就數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、人工智能、機器學習等相關領域的主題進行交流討論,反響熱烈。2012年6月9日,中國計算機學會常務理事會決定成立大數(shù)據(jù)專家委員會。2012年1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論