面向不確定數(shù)據(jù)的頻繁模式挖掘方法研究.pdf_第1頁
已閱讀1頁,還剩140頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)時代悄然到來,數(shù)據(jù)挖掘技術正面臨著前所未有的機遇和挑戰(zhàn)。作為數(shù)據(jù)挖掘領域的重要研究課題,頻繁模式挖掘和關聯(lián)規(guī)則發(fā)現(xiàn)受到了持續(xù)而廣泛的關注,并且涌現(xiàn)了大量經(jīng)典理論、高效算法和新興應用領域。挖掘頻繁項集,是關聯(lián)規(guī)則發(fā)現(xiàn)中的關鍵技術和步驟,并決定了關聯(lián)規(guī)則的總體性能,目前已廣泛應用于市場銷售、文本挖掘、公眾健康等各個領域。
  在實際應用中,由于技術手段有限、測量設備誤差、通訊開銷限制和用戶隱私保護等諸多因素的影響,獲得的原始數(shù)據(jù)

2、往往存在不確定性。同時,受到主客觀條件的限制,頻繁模式挖掘過程中也會帶來一系列的不確定性,這些不確定性在挖掘過程中不斷傳播和積累,可能導致挖掘出的知識與真實結果之間存在較大差距甚至毫無意義。而傳統(tǒng)的挖掘方法卻未將這些因素考慮進去,只簡單地認為挖掘出的知識一般都是有用的和確定的,致使傳統(tǒng)的頻繁模式挖掘方法在處理不確定數(shù)據(jù)時面臨著得到的挖掘結果異常卻難以解釋的窘態(tài)。這顯然是不科學和不妥當?shù)?。因此,針對不確定頻繁模式挖掘的研究顯得尤為重要,并

3、日益受到廣大研究人員的關注。
  本文主要針對兩類典型的不確定性數(shù)據(jù),即概率數(shù)據(jù)和容錯數(shù)據(jù),進行概率頻繁模式挖掘和近似頻繁模式挖掘的研究,并應用在中醫(yī)藥診療數(shù)據(jù)環(huán)境下,實現(xiàn)基于不確定數(shù)據(jù)的高效頻繁模式挖掘。
  本文的主要工作和成果總結如下:
  1.針對概率數(shù)據(jù)中垂直格式的數(shù)據(jù)表示形式,提出了一種基于Eclat框架的概率頻繁項集精確挖掘算法(UBEclat)。首先,對于采用垂直數(shù)據(jù)格式的概率數(shù)據(jù),本文設計了一種適用于

4、Eclat框架,旨在提高算法執(zhí)行效率的雙向排序策略,然后基于概率頻度的定義,提出了采用分而治之方法的概率頻繁項集精確挖掘算法。在基準數(shù)據(jù)集和真實數(shù)據(jù)集上的對比實驗表明,UBEclat算法能夠依據(jù)支持度的概率分布,準確挖掘出所有概率頻繁項集。這為有效解決概率頻繁項集的精確挖掘問題提供了新的思路。
  2.針對概率頻繁項集精確挖掘算法執(zhí)行效率較低,運行時間過長的問題,基于概率數(shù)據(jù)的可能性理論,提出了一種高效的概率頻繁項集近似挖掘算法(

5、NDUEclat)。結合Eclat框架和近似方法的優(yōu)勢,NDUEclat算法采用分而治之的方法,應用大數(shù)定律優(yōu)化挖掘過程,改進了頻繁項集挖掘的效率。在基準數(shù)據(jù)集和真實數(shù)據(jù)集上的多組對比實驗也驗證了該算法具有良好的挖掘性能。目前,這也是第一個基于支持度的概率分布,在垂直數(shù)據(jù)格式的概率數(shù)據(jù)中高效挖掘不確定頻繁項集的近似算法。
  3.針對 NP-hard類的容錯頻繁模式挖掘問題,提出了一種將容錯數(shù)據(jù)庫映射為事務信息系統(tǒng),基于粗糙集理論

6、挖掘近似頻繁模式的新方法。依據(jù)挖掘出的頻繁項目確定決策表中的決策屬性;基于粗糙集理論中上近似和下近似概念,確定近似頻繁模式的匹配程度。在基準數(shù)據(jù)集和真實數(shù)據(jù)集上進行的對比實驗證實了該方法在挖掘的準確率指標上,比以往方法有更好的性能表現(xiàn)。顯然,基于粗糙集理論的近似挖掘方法為有效提高近似頻繁模式挖掘的準確性和適用性提供了新的思路。
  4.以減少敏感參數(shù)設置的影響、提高挖掘效率的同時保證實際挖掘結果的可用性為目的,研究了基于容錯數(shù)據(jù)的

7、粗糙集理論,提出了一種挖掘近似頻繁閉模式的新模型。新模型主要由三部分組成:用聚類算法完成數(shù)據(jù)預處理;對同一類中的事務依據(jù)粗糙集理論進行屬性約簡生成核模式;將核模式作為初始種子構建等價類,用分而治之的方法挖掘近似頻繁閉模式。在傳統(tǒng)中醫(yī)藥數(shù)據(jù)集上的實驗結果表明,該模型可以更精準地表達近似頻繁模式,有利于實現(xiàn)基于中醫(yī)診療應用的知識發(fā)現(xiàn)。
  綜上所述,本文針對概率數(shù)據(jù)中如何提高頻繁模式挖掘的效率、如何屏蔽容錯數(shù)據(jù)中因數(shù)據(jù)表達不準確而對挖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論