9-2、大數據分析_第1頁
已閱讀1頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、——大數據引領我們走向數據智能化時代,大數據分析,,,,大數據的定義理解,大數據時代的背景,半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。互聯網(社交、搜索、電商)、移動互聯網(微博)、物聯網(傳感器,智慧地球)、車聯網、GPS、醫(yī)學影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生著數據。,全球每秒鐘發(fā)送 2.

2、9 百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5 年…每天會有 2.88 萬個小時的視頻上傳到Youtube,足夠一個人晝夜不息的觀看3.3 年…推特上每天發(fā)布 5 千萬條消息,假設10 秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16 年…每天亞馬遜上將產生 6.3 百萬筆訂單…每個月網民在Facebook 上要花費7 千億分鐘,被移動互聯網使用者發(fā)送和接收的數據高達1.3EB…Google 上每天需

3、要處理24PB 的數據…,大數據時代的背景,20世紀90年代,數據倉庫之父的Bill Inmon就經常提及Big Data。,2011年5月,在“云計算相遇大數據”為主題的EMC World 2011 會議中,EMC 拋出了Big Data概念。,大數據時代的背景,體量Volume,多樣性Variety,價值密度Value,速度Velocity,非結構化數據的超大規(guī)模和增長占總數據量的80~90%比結構化數據增長快10倍到50倍是

4、傳統(tǒng)數據倉庫的10倍到50倍,大數據的異構和多樣性很多不同形式(文本、圖像、視頻、機器數據)無模式或者模式不明顯不連貫的語法或句義,大量的不相關信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等),實時分析而非批量式分析數據輸入、處理與丟棄立竿見影而非事后見效,大數據的4V特征,“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value

5、)”就是“大數據”的顯著特征,或者說,只有具備這些特點的數據,才是大數據。,Value 價值,挖掘大數據的價值類似沙里淘金,從海量數據中挖掘稀疏但珍貴的信息.價值密度低,是大數據的一個典型特征.,,2010年海地地震,海地人散落在全國各地,援助人員為弄清該去哪里援助手忙腳亂。傳統(tǒng)上,他們只能通過飛往災區(qū)上空來查找需要援助的人群。 一些研究人員采取了一種不同的做法:他們開始跟蹤海地人所持手機內部的SIM卡,由此判斷出手機持有人

6、所處的位置和行動方向。正如一份聯合國(UN)報告所述,此舉幫助他們“準確地分析出了逾60萬名海地人逃離太子港之后的目的地?!焙髞恚敽5乇l(fā)霍亂疫情時,同一批研究人員再次通過追蹤SIM卡把藥品投放到正確的地點,阻止了疫情的蔓延。,Variety 多樣性,企業(yè)內部的經營交易信息;物聯網世界中商品,物流信息;互聯網世界中人與人交互信息,位置信息等是大數據的主要來源. 文本/圖片/視頻 等非結構化/半結構化數據能夠在不同的數據類型中,進行

7、交叉分析的技術,是大數據的核心技術之一.語義分析技術,圖文轉換技術,模式識別技術,地理信息技術等,都會在大數據分析時獲得應用.,非結構化數據,相對于結構化數據而言,不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。,Velocity 速度,1s 是臨界點.對于大數據應用而言,必須要在1秒鐘內形成答案,否則處理結果就是過時和無效的.

8、實時處理的要求,是區(qū)別大數據引用和傳統(tǒng)數據倉庫技術,BI技術的關鍵差別之一.,Volume 數據量,PB是大數據層次的臨界點. KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB,大數據不僅僅是“大”,多大?PB 級,比大更重要的是數據的復雜性,有時甚至大數據中的小數據如一條微博就具有顛覆性的價值,指數型增長的海量數據,,所有研究都表明,未來數年數據量會呈

9、現指數增長。根據麥肯錫全球研究院(MGI)估計,全球企業(yè)2010年在硬盤上存儲了超過7EB(1EB等于10億GB)的新數據,而消費者在PC和筆記本等設備上存儲了超過6EB新數據。1EB數據相當于美國國會圖書館中存儲的數據的4000多倍。事實上,我們如今產生如此多的數據,以至于根本不可能全部存儲下來。例如,醫(yī)療衛(wèi)生提供商會處理掉他們所產生的90%的數據(比如手術過程中產生的幾乎所有實時視頻圖像)。,大數據 = 海量數據 + 復雜類型的數據

10、,海量交易數據:企業(yè)內部的經營交易信息主要包括聯機交易數據和聯機分析數據,是結構化的、通過關系數據庫進行管理和訪問的靜態(tài)、歷史數據。通過這些數據,我們能了解過去發(fā)生了什么。,大數據包括:交易數據和交互數據集在內的所有數據集,海量交互數據:源于各種網絡和社交媒體。它包括了呼叫詳細記錄、設備和傳感器信息、GPS和地理定位映射數據、通過管理文件傳輸協(xié)議傳送的海量圖像文件、Web文本和點擊流數據、評價數據、科學信息、電子郵件等等??梢愿嬖V

11、我們未來會發(fā)生什么。,大數據的構成,,大數據的技術與應用,,Volume海量的數據規(guī)模,Variety多樣的數據類型,,Value,Velocity快速的數據流轉,發(fā)現數據價值,大數據技術要解決的問題,軟件是大數據的引擎,和數據中心(Data Center) 一樣,軟件是大數據的驅動力.軟件改變世界!,大數據生態(tài):軟件是引擎,,大數據技術被設計用于在成本可承受的條件下,通過非??焖伲╲elocity)地采集、發(fā)現和分析,從大量

12、(volumes)、多類別(variety)的數據中提取價值(value),將是IT 領域新一代的技術與架構。,大數據技術要解決的問題,技術領域的挑戰(zhàn),1、對現有數據庫管理技術的挑戰(zhàn)傳統(tǒng)的數據庫部署不能處理數TB 級別的數據,也不能很好的支持高級別的數據分析。急速膨脹的數據體量即將超越傳統(tǒng)數據庫的管理能力。如何構建全球級的分布式數據庫(Globally-Distributed Database) ,可以擴展到數百萬的機器,數已百計的

13、數據中心,上萬億的行數據。2、經典數據庫技術并沒有考慮數據的多類別(variety)SQL(結構化數據查詢語言),在設計的一開始是沒有考慮非結構化數據的。3、實時性的技術挑戰(zhàn):一般而言,像數據倉庫系統(tǒng)、BI應用,對處理時間的要求并不高。因此這類應用往往運行1、2天獲得結果依然可行的。但實時處理的要求,是區(qū)別大數據應用和傳統(tǒng)數據倉庫技術、BI技術的關鍵差別之一。,網絡架構、數據中心、運維的挑戰(zhàn):,技術架構的挑戰(zhàn):,人們每天創(chuàng)建

14、的數據量正呈爆炸式增長,但就數據保存來說,我們的技術改進不大,而數據丟失的可能性卻不斷增加。如此龐大的數據量首先在存儲上就會是一個非常嚴重的問題,硬件的更新速度將是大數據發(fā)展的基石。,分析技術:數據處理:自然語言處理技術統(tǒng)計和分析:A/B test; top N排行榜;地域占比;文本情感分析數據挖掘:關聯規(guī)則分析;分類;聚類模型預測:預測模型;機器學習;建模仿真大數據技術:數據采集:ETL工具數據存?。宏P系數

15、據庫;NoSQL;SQL等基礎架構支持:云存儲;分布式文件系統(tǒng)等計算結果展現:云計算;標簽云;關系圖等,一些相關技術,存儲結構化數據:海量數據的查詢、統(tǒng)計、更新等操作效率低非結構化數據圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結構化數據轉換為結構化存儲按照非結構化存儲,解決方案:Hadoop(MapReduce技術)流計算(twitter的storm和yahoo!的S4),大數據的

16、相關技術,數據眾包,大數據的相關技術,分布式文件系統(tǒng),分布式文件系統(tǒng),分布式文件系統(tǒng),分布式文件系統(tǒng),分布式文件系統(tǒng),非關系型數據庫NoSQL,NoSQL,=,非關系型數據庫NoSQL,非關系型數據庫NoSQL,非關系型數據庫NoSQL,非關系型數據庫NoSQL,非關系型數據庫NoSQL,非關系型數據庫NoSQL,非關系型數據庫NoSQL,一個屬性是一個“名稱-值”對(name-value pair),“名稱”必須是一個字符串,“值”可

17、以是一個字符串、數字、字符串集合或數字集合。下面是關于屬性的一些實例:,非關系型數據庫NoSQL,項目由屬性構成。必須指定一個屬性作為主鍵,這個主鍵在DynamoDB表中唯一地標識一個項目。除了主鍵是必須的,其他項目屬性是可選的。一個項目的屬性沒有順序關系。某個項目中的屬性和同一個表中的其他項目的屬性也沒有關系。項目被存儲在表中,表中的所有項目都具有相同的主鍵機制(primary key scheme)。每個項目都具備一個唯一的主鍵值

18、。,非關系型數據庫NoSQL,非關系型數據庫NoSQL,非關系型數據庫NoSQL,非關系型數據庫NoSQL,非關系型數據庫NoSQL,云計算和云存儲,云計算是一種資源交付和使用模式,指通過網絡獲得應用所需的資源(硬件、平臺、軟件)。提供資源的網絡被稱為“云”。,,白云下面數據跑,,,,,藍藍的天上白云飄,如果數據是財富,那么大數據就是寶藏,而云計算就是挖掘和利用寶藏的利器。沒有強大的計算能力,數據寶藏終究是鏡中花;沒有大數據的積淀,云計

19、算也只能是殺雞用的宰牛刀。,云計算和云存儲,云計算和云存儲,當云計算系統(tǒng)運算和處理的核心是大量數據的存儲和管理時,云計算系統(tǒng)中就需要配置大量的存儲設備,那么云計算系統(tǒng)就轉變成為一個云存儲系統(tǒng),所以云存儲是一個以數據存儲和管理為核心的云計算系統(tǒng)。,實時流處理,實時流處理,大數據的相關技術,A/B Testing,注冊按鈕由綠色改成紅色提高轉化率34%,人性化的表格提高11%的轉化率。,MapReduce,MapReduce,R語言,R語言

20、擅長在Hadoop分布式文件系統(tǒng)中存儲的非結構化數據上的分析。R現在還可以運行在HBase這種非關系型的數據庫以及面向列的分布式數據存儲之上。,大數據的相關技術,標簽云,標簽云,標簽云,聚類圖,空間信息流,熱圖,熱圖,,三,大數據賦予我們洞察未來的能力,機遇,馬云成功預測2008 年經濟危機“2008 年初,阿里巴巴平臺上整個買家詢盤數急劇下滑,歐美對中國采購在下滑。海關是賣了貨,出去以后再獲得數據;我們提前半年時間從詢盤上推斷出世

21、界貿易發(fā)生變化了?!蓖ǔ6裕I家在采購商品前,會比較多家供應商的產品,反映到阿里巴巴網站統(tǒng)計數據中,就是查詢點擊的數量和購買點擊的數量會保持一個相對的數值,綜合各個維度的數據可建立用戶行為模型。因為數據樣本巨大,保證用戶行為模型的準確性。因此在這個案例中,詢盤數據的下降,自然導致買盤的下降。,人類從依靠自身判斷做決定到依靠數據做決定的轉變,也是大數據作出的最大貢獻之一?!洞髷祿r代》,挑戰(zhàn),諸多領域的問題亟待解決,最重要的是每

22、個人的信息都被互聯網所記錄和保留了下來,并且進行加工和利用,為人所用,而這正是我們所擔憂的信息安全隱患!,更多的隱私、安全性問題:我們的隱私被二次利用了多少密碼和賬號是因為“社交網絡”流出去的?2011年4月索尼的系統(tǒng)漏洞導致7700萬用戶資料失竊2011年4月,iOS被發(fā)現會按照時間順序記錄用戶的位置坐標信息2011年CSDN密碼泄露事件…眼下中國互聯網熱門的話題之一就是互聯網實名制問題,我愿意相信這是個好事。畢

23、竟我們如果明著亮出自己的身份,互聯網才能對我們的隱私給予更好保護。,大數據的營銷案例,一、未卜先知懷孕案例,塔吉特:比父親更早知道女兒懷孕曾經有一位男性顧客到一家塔吉特超市店中投訴,商店竟然給他還在讀書的女兒寄嬰兒用品的優(yōu)惠券。這家全美第二大零售商,會搞出如此大的烏龍?但經過這位父親與女兒進一步溝通,才發(fā)現自己女兒真的已經懷孕了。,提問:為什么塔吉特能知道這個用戶懷孕了?必須有哪幾個關鍵環(huán)節(jié)A:用戶數據收集 B:懷孕特征庫

24、C:懷孕潛在用戶篩選 塔吉特在和顧客溝通過程中采用了哪種營銷方式A:電子郵件 B:直郵 C:電話營銷 D:數據庫營銷,大數據的營銷案例,一、未卜先知懷孕案例,關鍵環(huán)節(jié)一:數據信息記錄一家零售商是如何比一位女孩的親生父親更早得知其懷孕消息的呢?每位顧客初次到塔吉特刷卡消費時,都會獲得一組顧客識別編號,內含顧客姓名、信用卡卡號及電子郵件等個人資料。日后凡是顧客在塔吉特消費,計算機系統(tǒng)就會自動記錄消費內容、時間等信息

25、。再加上從其他管道取得的統(tǒng)計資料,塔吉特便能形成一個龐大數據庫,運用于分析顧客喜好與需求。每個ID號還會對號入座的記錄下你的人口統(tǒng)計信息:年齡、是否已婚、是否有子女、所住市區(qū)、住址離Target的車程、薪水情況、最近是否搬過家、錢包里的信用卡情況、常訪問的網址等等。Target還可以從其他相關機構那里購買你的其他信息:種族、就業(yè)史、喜歡讀的雜志、破產記錄、婚姻史、購房記錄、求學記錄、閱讀習慣等等。乍一看,你會覺得這些數據毫無意義,但

26、在Andrew Pole和顧客數據分析部的手里,這些看似無用的數據便爆發(fā)了前述強勁的威力,大數據的營銷案例,一、未卜先知懷孕案例,關鍵環(huán)節(jié)二:數據模型建立Andrew Pole想到了Target有一個迎嬰聚會(baby shower)的登記表。Andrew Pole開始對這些登記表里的顧客的消費數據進行建模分析,不久就發(fā)現了許多非常有用的數據模式。比如模型發(fā)現,許多孕婦在第2個妊娠期的開始會買許多大包裝的無香味護手霜;在懷孕的最初2

27、0周大量購買補充鈣、鎂、鋅的善存片之類的保健品。最后Andrew Pole選出了25種典型商品的消費數據構建了“懷孕預測指數”,通過這個指數,Target能夠在很小的誤差范圍內預測到顧客的懷孕情況,因此Target就能早早地把孕婦優(yōu)惠廣告寄發(fā)給顧客。,大數據的營銷案例,一、未卜先知懷孕案例,關鍵環(huán)節(jié)三:建立和用戶溝通渠道  那么,顧客收到這樣的廣告會不會嚇壞了呢?Target很聰明地避免了這種情況,它把孕婦用品的優(yōu)惠廣告夾雜在其他一

28、大堆與懷孕不相關的商品優(yōu)惠廣告當中,這樣顧客就不知道Target知道她懷孕了,大數據的營銷案例,一、未卜先知懷孕案例,Target取得的成就:  根據Andrew Pole的大數據模型,Target制訂了全新的廣告營銷方案,結果Target的孕期用品銷售呈現了爆炸性的增長。Andrew Pole的大數據分析技術從孕婦這個細分顧客群開始向其他各種細分客戶群推廣,從Andrew Pole加入Target的2002年到2010年間,Tar

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論