需求高漲的數(shù)據(jù)科學家_第1頁
已閱讀1頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、需求高漲的數(shù)據(jù)科學家需求高漲的數(shù)據(jù)科學家從技術方面來看,硬盤價格下降,NoSQL數(shù)據(jù)庫等技術的出現(xiàn),使得和過去相比,大量數(shù)據(jù)能夠以廉價高效的方式進行存儲。此外,像Hadoop這樣能夠在通用性服務器上工作的分布式處理技術的出現(xiàn),也使得對龐大的非結構化數(shù)據(jù)進行統(tǒng)計處理的工作比以往更快速且更廉價。然而,就算所擁有的工具再完美,它本身是不可能讓數(shù)據(jù)產生價值的。接下來我們還需要能夠運用這些工具的人才,他們能夠從堆積如山的大量數(shù)據(jù)中找到金礦,并將數(shù)

2、據(jù)的價值以易懂的形式傳達給決策者,最終得以在業(yè)務上實現(xiàn)。具備這些技能的人才,就是在大數(shù)據(jù)浪潮如火如荼的美國目前正千金難求的“數(shù)據(jù)科學家”。對數(shù)據(jù)科學家的關注,源于大家逐步認識到,Google、Amazon、Facebook等公司成功的背后,存在著這樣的一批專業(yè)人才。這些Web公司對于大量數(shù)據(jù)不僅僅是進行存儲而已,而是將其變?yōu)橛袃r值的金礦——例如,搜索結果、定向廣告、準確的商品推薦、可能認識的好友列表等。數(shù)據(jù)科學(datascience)

3、是一個很久之前就存在的詞匯,但數(shù)據(jù)科學家(datascientist)卻是幾年前突然出現(xiàn)的一個新詞。關于這個詞的起源說法不一,其中在《數(shù)據(jù)之美》(BeautifulData,TobySegaran、JeffHammerbacher編著,O’Reilly出版)一書中,對于Facebook的數(shù)據(jù)科學家,有如下敘述?!霸贔acebook,我們發(fā)現(xiàn)傳統(tǒng)的頭銜如商業(yè)分析師、統(tǒng)計學家、工程師和研究科學家都不能確切地定義我們團隊的角色。該角色的工作是

4、變化多樣的:在任意給定的一天,團隊的一個成員可以用Python實現(xiàn)一個多階段的處理管道流、設計假設檢驗、用工具R在數(shù)據(jù)樣本上執(zhí)行回歸測試、在Hadoop上為數(shù)據(jù)密集型產品或服務設計和實現(xiàn)算法,或者把我們分析的結果以清晰簡潔的方式展示給企業(yè)的其他成員。為了掌握完成這多方面任務需要的技術,我們創(chuàng)造了‘數(shù)據(jù)科學家’這種角色?!眱H僅在幾年前,數(shù)據(jù)科學家還不是一個正式確定的職業(yè),然而一眨眼的工夫,這個職業(yè)就已經被譽為“今后10年IT行業(yè)最重要的人

5、才”了。Google首席經濟學家,加州大學伯克利分校教授哈爾?范里安(HalVarian,1947~)先生,在2008年10月與麥肯錫總監(jiān)JamesManyika先生的對話中,曾經講過下面一段話(中文版節(jié)選自麥肯錫季刊官方中文稿)?!拔铱偸钦f,在未來10年里,最有意思的工作將是統(tǒng)計學家。人們都認為我在開玩笑。但是,過去誰能想到電腦工程師會成為上世紀90年代最有趣的工作?在未來10年里,獲取數(shù)據(jù)——以便能理解它、處理它、從中提取價值、使其

6、形象化、傳送它——的能力將成為一種極其重要的技能,不僅在專業(yè)層面上是這樣,而且在教育層面(包括對中小學生、高中生和大學生的教育)也是如此。由于如今我們已真正擁有實質上免費的和無所不在的數(shù)據(jù),因此,與此互補的稀缺要素是理解這些數(shù)據(jù)并從中提職務內容職務內容?確定重要的產品課題,并與產品工程團隊密切合作尋求解決方案?通過對數(shù)據(jù)運用合適的統(tǒng)計技術來解決課題?將結論傳達給產品經理和工程師?推進新數(shù)據(jù)的收集以及對現(xiàn)有數(shù)據(jù)源的改良?對產品的實驗結果進

7、行分析和解讀?找到測量、實驗的最佳實踐方法,傳達給產品工程團隊必要條件必要條件?相關技術領域的碩士或博士學位,或者具備4年以上相關工作經驗?對使用定量手段解決分析性課題擁有豐富的經驗?能夠輕松操作和分析來自各方的、復雜且大量的多維數(shù)據(jù)?對實證性研究以及解決數(shù)據(jù)相關的難題擁有極大的熱情?能對各種精度級別的結果采用靈活的分析手段?具備以實際、準確且可行的方法傳達復雜定量分析的能力?至少熟練掌握一種腳本語言,如Python、PHP等?精通關系

8、型數(shù)據(jù)庫和SQL?對R、MATLAB、SAS等分析工具具備專業(yè)知識?具備處理大量數(shù)據(jù)集的經驗,以及使用MapReduce、Hadoop、Hive等分布式計算工具的經驗來源:Facebook(中文翻譯出自譯者)Twitter對數(shù)據(jù)科學家(負責增加用戶數(shù)量)的招聘對數(shù)據(jù)科學家(負責增加用戶數(shù)量)的招聘信息信息關于業(yè)務內容關于業(yè)務內容Twitter計劃招聘能夠為增加Twitter用戶數(shù)提供信息和方向性,具備行動力和高超技能的人才。應聘者需要具

9、備統(tǒng)計和建模方面的專業(yè)背景,以及大規(guī)模數(shù)據(jù)集處理方面的豐富經驗。我們期待應聘者所具有的判斷力能夠在多個層面上決定Twitter產品群的方向性。職責職責?使用Hadoop、Pig編寫MapReduce格式的數(shù)據(jù)分析?能夠針對臨時數(shù)據(jù)挖掘流程和標準數(shù)據(jù)挖掘流程編寫復雜的SQL查詢?能夠使用SQL、Pig、腳本語言、統(tǒng)計軟件包編寫代碼?以口頭及書面形式對分析結果進行總結并做出報告?每天對數(shù)TB規(guī)模、10億條以上事務級別的大規(guī)模結構化及非結構化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論