WEB日志和子空間聚類挖掘算法研究.pdf_第1頁
已閱讀1頁,還剩116頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據挖掘是指從數(shù)據中尋找正確的、有趣的、潛在有用的并最終可以理解的模式。隨著信息技術在各個領域的普及,在各種應用中每天都有海量的數(shù)據被產生和收集,特別是在WEB 應用、自然科學、電子商務等生產生活相關的應用領域中產生了大量復雜的數(shù)據集,如何幫助用戶快速有效地從這些數(shù)據集中獲取知識是一個迫切需要解決的問題。因此,根據實際應用的需要和不同領域數(shù)據的特點,構造有效的海量和高維數(shù)據挖掘算法有著非常重要的理論和實際意義。 在基于WEB日志

2、的查詢詞翻譯方面,在分析用戶和搜索引擎進行交互生成的WEB日志的特點的基礎上,利用WEB日志作為查詢詞翻譯的語料庫?;赪EB日志的查詢詞翻譯挖掘的框架MTQC 充分利用雙語言URL的對應關系以及URL和查詢詞的關聯(lián)關系,分兩步完成挖掘:首先識別雙語言的URL 對,然后匹配查詢詞翻譯對。挖掘算法MTQC-1和MTQC-2 建立在這個框架之上,算法具有一些優(yōu)良的性質:能夠找到一些字典中沒有出現(xiàn)的詞的翻譯;能夠提取與目標語言的翻譯語義相關的

3、查詢詞,有助于跨語言信息檢索;不需要下載網頁;直接從WEB日志中找出查詢詞的翻譯,不需要分詞和識別短語邊界,減少了識別錯誤導致翻譯錯誤的風險,簡化了翻譯的過程;能夠及時地反映最新、最流行的查詢詞,避免多義詞的選擇。 在大規(guī)模、真實的WEB日志上進行實驗,結果表明與流行的查詢詞翻譯方法相比,MTQC-1和MTQC-2在翻譯字典中不存在的查詢詞和常見的查詢詞方面具有優(yōu)越性。 在基于樣式相似性的最大子空間聚類方面,傳統(tǒng)子空間聚

4、類算法不能挖掘基于樣式相似性的聚類,且已有的基于樣式相似性的聚類算法多存在不足之處?;跇邮较嗨菩缘淖畲笞涌臻g聚類算法EMaPle 是一種新的挖掘同時滿足一致性約束、大小約束和符號約束的算法。它結合基因表達數(shù)據的特點,選擇僅在規(guī)模較小的屬性空間上計算MDSc,采用全局修剪規(guī)則修剪生成的MDSc,在對修剪后的MDSc 產生的前綴樹上進行深度優(yōu)先遍歷的同時,運用局部的修剪規(guī)則對屬性和子樹進行修剪。 在真實和人造數(shù)據集上進行實驗,結果

5、表明EMaPle的性能大大優(yōu)于經典算法MaPle。 在子空間Skyline聚類方面,強調在高維空間的任意子空間上更好地組織Skyline查詢的結果,增加結果集的可控性,提高用戶的決策效率。在分析高維數(shù)據空間的子空間Skyline 查詢存在的困難的基礎上,設計一種新穎而緊湊的結構—子空間Skyline 簇,通過在Skyline 查詢中引入聚類算法,巧妙地結合子空間Skyline 查詢的優(yōu)點和聚類技術各自的優(yōu)點。在一般的Skylin

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論