

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)是當(dāng)今信息社會(huì)最寶貴的一種資源,發(fā)現(xiàn)隱藏在那些復(fù)雜數(shù)據(jù)集中的有用知識(shí)并利用這些知識(shí)已經(jīng)成為科學(xué)決策的前提。數(shù)據(jù)挖掘就是運(yùn)用基于計(jì)算機(jī)的智能技術(shù)從大量甚至海量數(shù)據(jù)集中獲取知識(shí)的過程,它通過關(guān)聯(lián)規(guī)則、分類與聚類等方法實(shí)現(xiàn)從數(shù)據(jù)集中挖掘出潛在的有用知識(shí)。 離群數(shù)據(jù)是那些與眾不同的遠(yuǎn)離常規(guī)數(shù)據(jù)對(duì)象的數(shù)據(jù),它們表現(xiàn)為與多數(shù)常規(guī)對(duì)象有明顯差異,以至于被懷疑可能是由另外一種完全不同的機(jī)制產(chǎn)生的。離群數(shù)據(jù)不等同于錯(cuò)誤數(shù)據(jù),有的離群數(shù)據(jù)中可能
2、蘊(yùn)含著極重要的信息,如在信用卡欺詐檢測(cè)、疾病診斷、網(wǎng)絡(luò)入侵檢測(cè)、通信欺詐分析、故障檢測(cè)、災(zāi)害預(yù)測(cè)等諸多領(lǐng)域中離群點(diǎn)是數(shù)據(jù)分析的主要對(duì)象,在所有的科學(xué)研究領(lǐng)域,離群數(shù)據(jù)可能給予我們新的視角,從而導(dǎo)致新理論或新應(yīng)用的出現(xiàn),因此,對(duì)離群數(shù)據(jù)進(jìn)行研究具有十分重要的意義。已有離群數(shù)據(jù)研究主要集中于離群數(shù)據(jù)挖掘,而且其挖掘的目的也僅僅是為了通過去除被發(fā)現(xiàn)的離群對(duì)象獲得更好質(zhì)量的數(shù)據(jù)集,力圖為常規(guī)數(shù)據(jù)挖掘與分析提供更穩(wěn)定可靠的結(jié)果,較少涉及對(duì)已發(fā)現(xiàn)的
3、離群數(shù)據(jù)的進(jìn)一步分析。 本文認(rèn)為對(duì)離群數(shù)據(jù)的研究包括離群挖掘與離群分析兩個(gè)方面。論文的主要貢獻(xiàn)是:以現(xiàn)有的離群挖掘算法為基礎(chǔ),重點(diǎn)對(duì)高維稀疏離群數(shù)據(jù)集的分類、產(chǎn)生來源、含義、特征以及離群趨勢(shì)等進(jìn)行分析,結(jié)合粗糙集(Rough Set)理論定義了離群數(shù)據(jù)關(guān)鍵域子空間(Key Attribute Subspace,KAs)等一系列概念,提出了相應(yīng)的離群約簡(jiǎn)及關(guān)鍵域子空間搜索算法、離群聚類算法、缺失值處理及離群趨勢(shì)分析方法等,建立了高
4、維稀疏離群數(shù)據(jù)集特征描述及延伸知識(shí)發(fā)現(xiàn)的整體框架。作為一項(xiàng)具有創(chuàng)新性意義的工作,論文在研究方法與思路上力求有所突破,其主要研究成果包括如下幾個(gè)方面。 ①對(duì)離群挖掘技術(shù)進(jìn)行了較為全面的分析與總結(jié),設(shè)計(jì)了一種基于k-最近鄰的離群檢測(cè)算法,介紹了基于分區(qū)的離群挖掘算法,詳細(xì)分析與設(shè)計(jì)了基于似然的一元離群檢測(cè)算法以及多元回歸分析離群檢測(cè)法等多種基于統(tǒng)計(jì)的離群檢測(cè)方法,并從離群挖掘的角度探討了聚類算法中對(duì)離群對(duì)象的處理技術(shù),分析了不平衡分
5、類及非頻繁模式關(guān)聯(lián)規(guī)則挖掘與離群檢測(cè)的相似性。 ②結(jié)合粗糙集理論以離群劃分的觀點(diǎn)去揭示離群對(duì)象子空間特性,提出了離群劃分相似度、離群約簡(jiǎn)等概念,其目的是尋找一個(gè)范圍較小的屬性子集,從這個(gè)子集中去探索離群數(shù)據(jù)集的出現(xiàn)原因和概率。提出的基于遺傳算法(Genetic Algorithm)的離群約簡(jiǎn)技術(shù)可以較好地解決離群約簡(jiǎn)搜索問題。 ③對(duì)提出的離群對(duì)象關(guān)鍵域子空間KAS的意義、作用及搜索方法進(jìn)行了深入地研究?;贙AS將缺失值
6、、普通離群點(diǎn)與噪聲統(tǒng)一為離群對(duì)象,認(rèn)為具有非空KAS的離群點(diǎn)均蘊(yùn)含了一定的知識(shí),是普通離群點(diǎn),而不存在對(duì)應(yīng)KAS的離群點(diǎn)是噪聲。提出了離群包絡(luò)與離群核、屬性值離群狀態(tài)矩陣等概念及相應(yīng)的一系列KAS搜索算法,包括基于統(tǒng)計(jì)的、基于顯著域子空間的單個(gè)離群對(duì)象KAS搜索算法,以及基于離群核、基于離群屬性頻度、基于統(tǒng)計(jì)的離群集KAS搜索算法,并對(duì)算法性能進(jìn)行了分析與測(cè)試。 ④根據(jù)離群共享屬性定義了離群簇,提出了簇?cái)?shù)量、簇對(duì)象數(shù)以及相似度等
7、離群聚類三原則,并在此原則基礎(chǔ)上提出了基于KAS和基于離群鄰接圖的離群聚類算法,對(duì)算法的分類能力與性能進(jìn)行了測(cè)試與比較。在離群簇分析方面,提出了離群數(shù)據(jù)的內(nèi)、外及單關(guān)鍵域子空間分析方法以及基于離群K-最近鄰的離群分析技術(shù),并可從離群最近鄰與離群簇的相互關(guān)系中獲取知識(shí)。 ⑤含缺失值的對(duì)象作為一種特殊離群對(duì)象進(jìn)行研究,提出了一種基于灰預(yù)測(cè)模型GM(1,1)的序列缺失數(shù)據(jù)灰插值推理方法,該算法在估計(jì)每一個(gè)缺失值時(shí)均會(huì)充分利用其時(shí)區(qū)窗口
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于高維稀疏數(shù)據(jù)的離群聚類方法研究.pdf
- 離群數(shù)據(jù)知識(shí)發(fā)現(xiàn)的研究.pdf
- 高維空間大數(shù)據(jù)集分布式聚類及離群知識(shí)發(fā)現(xiàn)算法研究.pdf
- 高維海量數(shù)據(jù)集離群點(diǎn)挖掘算法研究及其應(yīng)用.pdf
- 高維數(shù)據(jù)集中離群數(shù)據(jù)挖掘方法的研究.pdf
- 基于網(wǎng)格劃分的高維大數(shù)據(jù)集離群點(diǎn)檢測(cè)算法研究.pdf
- 基于網(wǎng)格劃分的高維大數(shù)據(jù)集離群點(diǎn)檢測(cè)算法研究
- 高維稀疏數(shù)據(jù)的Lasso和Dantzig Selector方法——高維稀疏線性回歸模型.pdf
- 高維數(shù)據(jù)空間中離群點(diǎn)檢測(cè)算法的研究.pdf
- 數(shù)據(jù)流中離群和變化發(fā)現(xiàn)研究.pdf
- 高維數(shù)據(jù)集SKYLINE計(jì)算研究.pdf
- 高維數(shù)據(jù)流聚類分析及離群點(diǎn)檢測(cè)研究.pdf
- 高維數(shù)據(jù)下的因果發(fā)現(xiàn)算法研究.pdf
- 離群點(diǎn)挖掘及其內(nèi)涵知識(shí)發(fā)現(xiàn)研究.pdf
- 高維稀疏數(shù)據(jù)的降維方法與應(yīng)用研究.pdf
- 高維稀疏數(shù)據(jù)的相關(guān)性度量方法研究.pdf
- 高屬性維稀疏數(shù)據(jù)動(dòng)態(tài)抽象聚類方法研究.pdf
- 高維數(shù)據(jù)的聚類及離群點(diǎn)檢測(cè)算法的研究與實(shí)現(xiàn).pdf
- 高維數(shù)據(jù)集的子空間聚類算法研究.pdf
- 離群數(shù)據(jù)挖掘在犯罪通訊痕跡發(fā)現(xiàn)中的應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論