

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Internet應用的普及使得數(shù)據(jù)挖掘技術的重點已經從傳統(tǒng)的基于數(shù)據(jù)庫的應用轉移到基于Web的應用。本文簡要介紹了互聯(lián)網(wǎng)信息采集和數(shù)據(jù)挖掘實現(xiàn)技術,結合公安機關公共信息網(wǎng)絡安全監(jiān)察部門工作需求,研究互聯(lián)網(wǎng)信息采集分析系統(tǒng)的設計和實現(xiàn)。該系統(tǒng)通過建立網(wǎng)頁資源模型、結合Sipder技術、內容分析技術,引入用戶數(shù)據(jù)項和分析定義編輯器,實現(xiàn)可定制、可視化、通用性較強互聯(lián)網(wǎng)信息采集系統(tǒng)。能定期自動跟蹤相關網(wǎng)站或網(wǎng)頁,進行比較分析、抽取、規(guī)整入庫、
2、分類等從互聯(lián)網(wǎng)上獲取所需信息。 支持向量機(Support Vector Machine,簡稱SVM)是近年來在統(tǒng)計學習理論的基礎上發(fā)展起來的一種新的模式識別方法,在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢。本文提出的系統(tǒng)的Web數(shù)據(jù)挖掘是通過使用SVM-light軟件包提供文本自動分類功能實現(xiàn)了互聯(lián)網(wǎng)信息的自動分類。實驗證明,該系統(tǒng)具有較高的分類精度和速度,能有效發(fā)現(xiàn)我們“關心”的信息。 特征(Fea
3、ture)用于判別哪些信息是與分類任務相關,特征的數(shù)量影響分類器的速度,大量的特征會導致很長的訓練和分類時間。特征選?。‵eature Selection)就是降低輸入維度,是文本自動分類的一個重要的預處理環(huán)節(jié)。特征選取能減少描述文本文檔的特征詞的數(shù)量,提高分類過程的效率。此外,恰當?shù)奶卣鬟x取還能提高分類器的精度。文本分類的特征選取是基于一種貪婪過濾的方法,通過統(tǒng)計的方法對每個特征進行評估,計算其特征權重。本文詳細分析了文檔頻率DF、信
4、息增益IG、CHI統(tǒng)計和互信息MI等評估函數(shù)的優(yōu)缺點,發(fā)現(xiàn)了在通常環(huán)境中表現(xiàn)良好的特征選取方法并不適合于Web中文文本分類問題的事實。分析了產生差異的原因,并提出了適合于Web中文文本環(huán)境的特征選取方法。該方法有利于提高分類效果和加速分類過程。 本研究和實現(xiàn)的重點內容包括: ① 提出Web網(wǎng)站的通用四層結構模型,并在系統(tǒng)實現(xiàn); ② 分析幾類Web網(wǎng)站文本的特點和相應的最佳特征選取方法。 ③ 提出人工特征選
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 互聯(lián)網(wǎng)信息采集系統(tǒng)的設計與實現(xiàn).pdf
- 互聯(lián)網(wǎng)信息采集系統(tǒng)的分析與設計.pdf
- 互聯(lián)網(wǎng)輿情信息采集與分析系統(tǒng)的設計和實現(xiàn).pdf
- 通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設計與初步實現(xiàn)
- 互聯(lián)網(wǎng)信息定向采集研究.pdf
- 基于互聯(lián)網(wǎng)信息的高速采集系統(tǒng)的研究、設計與實現(xiàn).pdf
- 互聯(lián)網(wǎng)視音頻采集分析系統(tǒng)的設計與實現(xiàn).pdf
- 互聯(lián)網(wǎng)輿情信息采集分析系統(tǒng)關鍵技術研究.pdf
- 互聯(lián)網(wǎng)主題信息定向采集研究.pdf
- 互聯(lián)網(wǎng)違法信息挖掘分析系統(tǒng)的設計與實現(xiàn).pdf
- 互聯(lián)網(wǎng)新聞實時信息采集及主題探測研究.pdf
- 互聯(lián)網(wǎng)信息實時監(jiān)控系統(tǒng)的研究與實現(xiàn).pdf
- 互聯(lián)網(wǎng)用戶上網(wǎng)數(shù)據(jù)采集與行為分析系統(tǒng)的設計與實現(xiàn).pdf
- 互聯(lián)網(wǎng)輿情監(jiān)測分析系統(tǒng)實現(xiàn).pdf
- 互聯(lián)網(wǎng)信息管控系統(tǒng)的設計與實現(xiàn).pdf
- 警用互聯(lián)網(wǎng)情報采集編輯系統(tǒng)的設計與實現(xiàn).pdf
- 基于互聯(lián)網(wǎng)采集技術的物資系統(tǒng)的設計與實現(xiàn).pdf
- 互聯(lián)網(wǎng)輿情監(jiān)控分析系統(tǒng)的研究與實現(xiàn).pdf
- 基于JavaEE的互聯(lián)網(wǎng)職位自動采集系統(tǒng)設計與實現(xiàn).pdf
- 互聯(lián)網(wǎng)惡意信息監(jiān)控系統(tǒng)的設計與實現(xiàn).pdf
評論
0/150
提交評論