具有降維容噪特性的決策樹算法改進.pdf_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著信息技術的迅速發(fā)展,高維數(shù)據(jù)在社會科學和自然科學研究領域廣泛出現(xiàn),一方面帶來了更多可用信息,另一方面給數(shù)據(jù)的處理分析帶來了巨大挑戰(zhàn)。尤其是隨著數(shù)據(jù)挖掘技術的廣泛應用,數(shù)據(jù)挖掘分類結果對噪聲敏感已成為一個不容忽視的問題,這就要求進一步優(yōu)化現(xiàn)有分類技術。為了提升分類算法對高噪聲環(huán)境中的高維數(shù)據(jù)的預測能力,本文以C4.5決策樹分類算法為優(yōu)化對象并進行深入研究,運用容噪主成分分析(Noise-free Principal Component

2、 Analysis, NFPCA)的算法思想對傳統(tǒng)C4.5算法改進,提出了NFPCA-in-C4.5算法,來解決高維數(shù)據(jù)的高噪聲問題帶來的決策樹預測準確率下降問題。本研究主要內(nèi)容包括:
  ⑴從PCA算法機制上分析了含噪聲的高維數(shù)據(jù)經(jīng)過PCA算法降維處理后,所得主成分空間仍受噪聲污染的原因;然后綜合考慮了高維高噪聲數(shù)據(jù)的高維度和高噪聲因素對決策樹分類模型預測效果影響,運用NFPCA算法思想將高維數(shù)據(jù)的噪聲控制問題轉(zhuǎn)化為擬合數(shù)據(jù)特征

3、與控制平滑度相結合的最優(yōu)化問題,此最優(yōu)化問題符合正則化最小二乘問題定義,經(jīng)求解可獲得相對無噪聲的主成分空間,這樣不僅降低了維度,更減弱了噪聲的影響。
  ⑵在構造決策樹模型過程中,充分利用了決策樹自頂向下遞歸構建新節(jié)點的特性。首先,當構建父節(jié)點時,將原始數(shù)據(jù)空間通過NFPCA算法轉(zhuǎn)換到主成分空間;然后將主成分空間數(shù)據(jù)集基于信息熵的屬性選擇方式進行劃分;最后,構建子節(jié)點時,將劃分后的各數(shù)據(jù)子集恢復到原始數(shù)據(jù)空間。通過此種原始數(shù)據(jù)空間

4、和主成分空間在父節(jié)點和子節(jié)點之間的映射轉(zhuǎn)換與再恢復,避免了降維過程中信息損失,降低了信息損失對C4.5算法預測準確率的影響。
  ⑶通過實驗對比了C4.5和NFPCA-in-C4.5算法的準確率變化和預測模型規(guī)模變化,來體現(xiàn)NFPCA-in-C4.5算法的性能優(yōu)勢。實驗結果表明本文提出的NFPCA-in-C4.5算法針對高維高噪數(shù)據(jù)的特點,充分利用決策樹中父、子節(jié)點數(shù)據(jù)集之間關系的特性,將NFPCA降噪處理融合進入C4.5算法的構

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論