

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、最新大廠數據湖面試題及知識點總結什么是數據湖?數據湖是一種不斷演進中、可擴展的大數據存儲、處理、分析的基礎設施;以數據為導向,實現任意來源、任意速度、任意規(guī) 模、任意類型數據的全量獲取、全量存儲、多模式處理與全生命周期管理;并通過與各類外部異構數據源的交互集成,支持各 類企業(yè)級應用。用架構圖能很快說明白,用阿里的數據架構圖來說:CDM ( Common Dimenions Model個性化分析與取故ODS (operational da
2、ta store, staging area)存儲來自各業(yè)務系統(生產系統)的原始數據,即為數據湖。CDM為經過整合、清洗的數據。其中的DWS匯總層,為面向主題的數據倉庫(狹義),用于BI報表出數。簡單來說,數據湖的定義就是原始數據保存區(qū).雖然這個概念國內談的少,但絕大部分互聯網公司都已經有了。國內一般把整個 HDFS叫做數倉(廣義),即存放所有數據的地方。02數據湖的 數據湖的發(fā)展數據湖最早是2011年由Pentaho的首席技術官J
3、ames Dixon提出的一個概念,他認為諸如數據集市,數據倉庫由于其有序性 的特點,勢必會帶來數據孤島效應,而數據湖可以由于其開放性的特點可以解決數據孤島問題。為什么不是數據河?因為,數 據要能存,而不是一江春水向東流。為什么不是數據池?因為,要足夠大,大數據太大,一池存不下。為什么不是數據海?因 為,企業(yè)的數據要有邊界,可以流通和交換,但更注重隱私和安全,“海到無邊天作岸”,那可不行。所以數據要能“存”,數據要 夠“存”,數據要有
4、邊界地“存”。企業(yè)級的數據是需要長期積淀的,因此是“數據湖”。同時湖水天然會進行分層,滿足不同的生態(tài) 系統要求,這與企業(yè)建設統一數據中心,存放管理數據的需求是一致的。熱數據在上層方便流通應用,溫數據、冷數據位于數 據中心的不同存儲介質之中,達到數據存儲容量與成本的平衡。但隨著數據湖在各類企業(yè)的應用,大家都覺得:嗯,這個數據 有用,我要放進去;那個數據也有用,我也要放進去;于是把所有的數據不假思索地扔進基于數據湖的相關技術或工具中,沒 有
5、規(guī)則不成方圓,當我們認為所有數據都有用時,那么所有的數據都是垃圾,數據湖也變成了造成企業(yè)成本高企的數據沼澤。 三個引擎的初衷場景并不完全相同,Hudi為了 incremental的upserts, Iceberg定位于高性能的分析與可靠的數據管理, Delta定位于流批一體的數據處理。這種場景的不同也造成了三者在設計上的差別。尤其是Hudi,其設計與另外兩個相比差別 更為明顯。因此后面是趨同還筑起各自專長優(yōu)勢壁壘未可知。Delta、Hu
6、di、Iceberg三個開源項目中,Delta和Hudi跟Spark 的代碼深度綁定,尤其是寫入路徑。這兩個項目設計之初,都基本上把Spark作為他們的默認計算引擎了。而Apache Iceberg 的方向非常堅定,宗旨就是要做一個通用化設計的Table Format。它完美的解耦了計算引擎和底下的存儲系統,便于多樣化計 算引擎和文件格式,很好的完成了數據湖架構中的Table Format這一層的實現,因此也更容易成為Table For
7、mat層的開源事 實標準。另一方面,Apache Iceberg也在朝著流批一體的數據存儲層發(fā)展,manifest和snapshot的設計,有效地隔離不同 transaction的變更,非常方便批處理和增量計算。并且,Apache Flink已經是一個流批一體的計算引擎,二者都可以完美匹 配,合力打造流批一體的數據湖架構。Apache Iceberg這個項目背后的社區(qū)資源非常豐富。在國外,Netflix、Apple> Linked
8、in> Adobe等公司都有PB級別的生產數據運行在Apache Iceberg ±;在國內,騰訊這樣的巨頭也有非常龐大的數據跑在Apache Iceberg之上,最大的業(yè)務每天有幾十T的增量數據寫入。電商 文娛 體育 健康 出行 物流 金融數 據 準 備 區(qū)( Staging)線 據離 數公共匯爵翳磐扁皿買賣家公共維度衰全站地區(qū)行業(yè)ODS散據應用層買家育品會員人們可以通過搜索,方便地找到他們想要的數據,進而進行分析。搜
9、索能力是數據湖的十分重要的能力。數據安全管控能力:對數據的使用權限進行管控,對敏感數據進行脫敏或加密處理,也是數據湖能商用所必須具備的能力。數據質量檢驗能力:數據質量是分析正確的關鍵。因此必須對進入數據湖中的數據的質量情況進行檢驗。及時發(fā)現數據湖中數據質量的問題。為有 效的數據探索提供保障。自助數據探索能力:應該具備一系列好用的數據分析工具,以便各類用戶可以對數據湖中的數據進行自助探索。包括:支持對流、NoSQL、圖等多種存儲庫的聯合分
10、析能力支持交互式的大數據SQL分析支持AI、機器學習分析支持類似OLAP的BI分析支持報表的生成05數據湖的實現遇到了哪些問題?數據湖剛提出來時,只是一個樸素的理念。而從理念變成一個可以落地的系統,就面臨著許多不得不考慮的現實問題:首先, 把所有原始數據都存儲下來的想法,要基于一個前提,就是存儲成本很低。而今數據產生的速度越來越快、產生的量越來越大 的情況下,把所有原始數據,不分價值大小,都存儲下來,這個成本在經濟上能不能接受,可能需要
11、打一個問號。其次,數據 湖中存放這各類最原始的明細數據,包括交易數據、用戶數據等敏感數據,這些數據的安全怎么保證?用戶訪問的權限如何控 制?再次,湖中的數據怎么治理?誰對數據的質量、數據的定義、數據的變更負責?如何確保數據的定義、業(yè)務規(guī)則的一致性? 數據湖的理念很好,但是它現在還缺乏像數據倉庫那樣,有一整套方法論為基礎,有一系列具有可操作性的工具和生態(tài)為支撐。 正因如此,目前把Hadoop用來對特定的、高價值的數據進行處理,構建數據倉庫
12、的模式,取得了較多的成功;而用來落實數據 湖理念的模式,遭遇了一系列的失敗。這里,總結一些典型的數據湖失敗的原因:1.數據沼澤:當越來越多的數據接入到數據湖中,但是卻沒有有效的方法跟蹤這些數據,數據沼澤就發(fā)生了。在這種失 敗中,人們把所有東西都放在HDFS中,期望以后可以發(fā)掘些什么,可沒多久他們就忘那里有什么。2.數據泥團:各種各樣的新數據接入進數據湖中,它們的組織形式、質量都不一樣。由于缺乏用于檢查,清理和重組數 據的自助服務工具,使
13、得這些數據很難創(chuàng)造價值。3.缺乏自助分析工具:由于缺乏好用的自助分析工具,直接對數據湖中的數據分析很困難。一般都是數據工程師或開發(fā) 人員創(chuàng)建一個整理后的小部分數據集,把這些數據集交付給更廣泛的用戶,以便他們使用熟悉的工具進行數據分析。 這限制了更廣泛的人參與到探索大數據中,降低了數據湖的價值。6.7.缺乏建模的方法論和工具:在數據湖中,似乎每一項工作都得從頭開始,因為以前的項目產生的數據幾乎沒有辦法重 用。其實,我們罵數據倉庫很難變化以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論