

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、Web作為一個全球化信息空間,蘊(yùn)含著海量的信息和知識。隨著Web上資源的日趨豐富,各種基于Web的信息檢索服務(wù)應(yīng)運(yùn)而生并得到了迅速發(fā)展。實踐證明,Web搜索引擎是一個非常有用的信息檢索工具。但對任一用戶查詢,搜索引擎都將返回成千上萬個所謂的“匹配”文檔,其中可能只有一小部分與用戶的查詢目標(biāo)有關(guān),而絕大部分毫無關(guān)系。如何組織和消化如此大量的信息,一直是困擾著最終用戶的難題。如何幫助用戶準(zhǔn)確提出信息需求,并快速獲得“滿意”的查詢結(jié)果,從而提
2、高檢索的效率,一直是研究的熱點。盡管目前有大量的研究工作關(guān)注于Web數(shù)據(jù)檢索,但現(xiàn)有的技術(shù)還遠(yuǎn)不能令人滿意。 目前XML已經(jīng)成為表示W(wǎng)eb上多樣性數(shù)據(jù)的事實標(biāo)準(zhǔn),可以預(yù)見Web上的數(shù)據(jù)將主要以XML形式存在。XML規(guī)范的提出,使得信息的組織更加規(guī)范,使更準(zhǔn)確的信息查詢成為可能。隨著XML獲得越來越廣泛的應(yīng)用以及Web技術(shù)的不斷發(fā)展,如何檢索Web上海量的XML數(shù)據(jù)受到學(xué)術(shù)界越來越多的重視。在對目前國內(nèi)外研究現(xiàn)狀進(jìn)行深入剖析的基礎(chǔ)
3、上,本文提出了一種面向Web的XML信息檢索系統(tǒng)解決方案,對其中的檢索模型、文檔聚類、索引以及檢索等關(guān)鍵技術(shù)進(jìn)行了深入研究。 本文的主要工作可以概括為以下幾個方面: 1.提出了檢索模型X2VSM。針對Web上XML信息檢索的特點,本文對目前信息檢索系統(tǒng)中應(yīng)用最廣泛的信息檢索模型一向量空間模型(VSM)進(jìn)行了擴(kuò)展,提出了適合XML的信息檢索模型X2VSM。與VSM中的關(guān)鍵詞term對應(yīng),加入相應(yīng)的路徑限定信息,提出了XTe
4、rm的概念;針對XML的元素嵌套的特點,提出邏輯文檔的概念;提出邏輯XML文檔和XML查詢的統(tǒng)一向量表示方法;定義了XTerm的權(quán)重計算方法,并給出了文檔和查詢向量的相似度計算方法。X2VSM支持對XML文檔進(jìn)行內(nèi)容和結(jié)構(gòu)查詢,支持任意嵌套層次的元素作為返回結(jié)果,還支持基于內(nèi)容和結(jié)構(gòu)相關(guān)性的查詢結(jié)果排序,同時繼承和保持了VSM簡單易用等優(yōu)點。 2.研究了XML文檔的聚類。分析和比較了直接和間接的聚類策略,在此基礎(chǔ)上提出一種基于路
5、徑信息的XML文檔間接結(jié)構(gòu)聚類算法PBSC。它沒有直接計算文檔的結(jié)構(gòu)距離,而是采用間接聚類的策略。與其它基于編輯距離的算法相比,具有算法簡單、效率較高以及聚類過程直觀等優(yōu)點。聚類結(jié)果可用于用戶導(dǎo)航以及提高檢索的效果。 3.研究了XML的結(jié)構(gòu)索引問題。提出一種基于廣義后綴樹的XML結(jié)構(gòu)索引PIGST。通過PIGST,把對XML文檔的路徑查詢轉(zhuǎn)換為后綴樹中的字符串匹配,顯著提高了查詢處理效率;對傳統(tǒng)的后綴樹構(gòu)建算法做了改進(jìn),使之能夠
6、用來創(chuàng)建由路徑集合轉(zhuǎn)換得到的字符串集合的廣義后綴樹;提出了間接包含路徑查詢,即查詢式包含子孫一后代關(guān)系(含有“//”)的高效處理算法。PIGST的構(gòu)造時間復(fù)雜度和空間復(fù)雜度是線性的,只與查詢字符串的長度有關(guān)。 4.研究了查詢處理算法?;谖覀兲岢龅腦ML信息檢索模型X2VSM,提出了一種支持XML元素相關(guān)性計算的查詢處理算法;對傳統(tǒng)的倒排索引進(jìn)行了擴(kuò)展,提出了一種帶Dewey編碼的倒排索引;結(jié)合結(jié)構(gòu)索引PIGST,提出了一種高效
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向XML數(shù)據(jù)語義檢索關(guān)鍵技術(shù)研究.pdf
- 面向Deep Web的對象檢索關(guān)鍵技術(shù)研究.pdf
- 面向智能信息檢索的Web挖掘關(guān)鍵技術(shù)研究.pdf
- XML信息檢索關(guān)鍵技術(shù)研究.pdf
- 面向用戶的Web圖像檢索關(guān)鍵技術(shù)研究.pdf
- 電子病歷的XML存儲檢索關(guān)鍵技術(shù)研究.pdf
- Web檢索優(yōu)化的關(guān)鍵技術(shù)研究.pdf
- Web信息檢索的關(guān)鍵技術(shù)研究.pdf
- Web社區(qū)問答檢索的關(guān)鍵技術(shù)研究.pdf
- 面向智能信息檢索技術(shù)的Web挖掘關(guān)鍵技術(shù)的研究.pdf
- 基于web的音樂哼唱檢索關(guān)鍵技術(shù)研究
- 基于Web的音樂哼唱檢索關(guān)鍵技術(shù)研究.pdf
- 位置相關(guān)的Web信息檢索關(guān)鍵技術(shù)研究.pdf
- Web信息檢索與主題提取的關(guān)鍵技術(shù)研究.pdf
- 面向Web的XML文檔數(shù)據(jù)管理及分類檢索技術(shù)研究.pdf
- 基于時態(tài)語義的Web信息檢索關(guān)鍵技術(shù)研究.pdf
- 面向全文檢索的在線索引關(guān)鍵技術(shù)研究.pdf
- 面向多構(gòu)件庫的構(gòu)件檢索關(guān)鍵技術(shù)研究.pdf
- 面向?qū)ο蟮腦ML數(shù)據(jù)庫關(guān)鍵技術(shù)研究.pdf
- 位置相關(guān)的web信息檢索關(guān)鍵技術(shù)研究(1)
評論
0/150
提交評論