分布式海量問題數(shù)據(jù)的相似性檢索模型研究.pdf_第1頁
已閱讀1頁,還剩74頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網(wǎng)前沿技術被廣泛普及與迅速發(fā)展,各企業(yè)和組織結構內部信息化程度逐步提高,各類信息資源的數(shù)據(jù)量呈爆炸式增長。信息檢索就是從海量的信息資源中獲得用戶所需要信息的技術。由于目前大多數(shù)企業(yè)、組織內部所使用的站內搜索引擎技術稍弱,或者單純依賴于數(shù)據(jù)庫SQL語句查詢等相對傳統(tǒng)一些的方式解決檢索需求,缺乏對于查詢內容的相似性度量,使得用戶查詢體驗不盡人意。因此,如何降低成本和高效存儲以檢索、分析海量半結構化數(shù)據(jù)而索求價值成為了諸多企業(yè)實現(xiàn)數(shù)據(jù)

2、資產化以及規(guī)模化的一大挑戰(zhàn)。
  傳統(tǒng)海量數(shù)據(jù)的處理方法存在數(shù)據(jù)存儲和管理成本較高、處理能力弱以及并行編程復雜等缺點,使其應用范圍受到很大限制,且對硬件設備要求極高。在分析現(xiàn)有分布式計算和存儲等關鍵技術基礎上,結合對 Hadoop生態(tài)系統(tǒng)的研究和實際軟硬件條件,為滿足海量問題單(Problem Report)的相似性檢索需求,提出了分布式海量問題數(shù)據(jù)的相似性檢索模型,以下為本文所作的研究:
  首先,針對本文半結構化的異構數(shù)

3、據(jù)集(海量問題單)設計并行化解析算法。利用Hadoop在處理海量數(shù)據(jù)方面的優(yōu)勢,將原始數(shù)據(jù)文件存儲于HDFS中;通過對現(xiàn)有半結構化 XML文件解析方法的研究,分析并總結各自的優(yōu)勢與不足,自定義數(shù)據(jù)文件在HDFS上的邏輯分片方式,并結合MapReduce編程框架和自適應元素映射算法實現(xiàn)數(shù)據(jù)的并行化解析;為了合理的數(shù)據(jù)組織和避免二次解析,將解析的數(shù)據(jù)存儲到 Hadoop HBase數(shù)據(jù)庫中。
  接著,構建海量問題數(shù)據(jù)的相似性檢索的索

4、引庫。結合查詢的實際需求以及數(shù)據(jù)特點,通過相應域權重參數(shù)調整使用Lucene完成和優(yōu)化索引庫的構建。在查詢階段,由用戶來設置單個問題單某元素的側重程度參數(shù)來影響相似問題單檢索結果的結合排序,在一定程度上提高查準率。
  最后,實現(xiàn)對檢索結果的聚類分析。通過對多個聚類算法的分析和實踐,結合模型的實效性需求,本文選取后綴樹(STC)聚類算法來輔助用戶篩選查閱結果結合。針對STC聚類后的主題選取對類簇的描述性不足這一問題,優(yōu)化主題選取。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論