

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于KDD的知識自動獲取及其應用,答 辯 人:黃 瑞指導教師:趙遠東 副教授 史忠植 研究員,,,主要內容,一、研究背景及意義二、基于KDD的知識自動獲取模型概述三、基于知識庫的KDD四、自動演化知識庫五、模型在自動化測井數據分析中的應用六、總結與展望,,,,研究背景及意義,知識獲取研究概述知識獲取的基本過程知識獲取研究的主要內容知識自動獲取研究發(fā)展KDD (Knowledge Discover
2、y in Databases)研究概述KDD的基本過程KDD的主要任務數據挖掘的常用方法KDD的應用本文的研究目的,,,,知識獲取的基本過程,人類學習知識的基本過程,,,,,基礎知識學習(固化記憶),,,生產實踐(總結經驗),知識的發(fā)展與完善(新、舊知識融合),循環(huán),,,知識獲取的基本過程,知識獲取的基本過程,,知識工程師從知識源抽取知識存入知識庫,通過機器學習或數據挖掘工具從實踐數據中獲得新知識,由知識工程師和領域專家
3、配合更新知識庫,,,,循環(huán),人類學習知識的基本過程,,,知識獲取的基本過程,人類學習知識的基本過程,,知識獲取的基本過程,,,知識獲取研究的主要內容,知識抽取,,知識建模,知識轉換,知識檢測,知識的組織與管理,,,知識自動獲取研究發(fā)展,非自動的知識獲取,,自動知識獲取,,,知識自動獲取研究發(fā)展,運用機器學習方法構建知識庫Okamura 等人的鋼鐵工藝生產專家系統Yamamoto 等人的高爐配料操作自動知識獲取系統中科院合肥智能所的
4、農業(yè)病蟲害專家系統,,運用機器學習方法增強知識庫的自適應能力吳榮根教授的基于模型的數字電路設計系統Elliott.和Schneider 的故障分離專家系統,擁有自學習能力的知識編輯器Wheeler 和Schneider 的知識自動獲取工具AUTOKNAQ,,,知識自動獲取研究發(fā)展,利用KDD技術從數據中自動發(fā)現新知識Mitchell 等人的燃氣渦輪機故障檢測TIGON系統Takano 等人的可自動生成操作序列的范例學習工具,,
5、擴大到了知識管理、Web知識獲取等領域,引入了本體學習、語義Web等概念與技術KAON工具套件中的TEXT-TO-ONTO工具Henk-Jan Lebbink等人的基于本體的知識系統Joerg-Uwe Kietz等人的自動本體獲取Paulo Gottgtroy等人研究了動態(tài)領域中的知識發(fā)現問題清華大學的基于語義Web的本體數據挖掘平臺中科院計算所的綜合知識管理平臺CKMP,,,知識自動獲取研究發(fā)展,存在的問題,,循環(huán),環(huán)境
6、/背景知識不斷變化,自動進行,?,,,KDD的基本過程,,KDD從大量數據中提取出可信的、新穎的、有用的且可以被人理解的模式的高級處理過程五個步驟為:數據選擇、數據預處理、數據轉換、數據挖掘、模式解釋/評價,,,KDD的主要任務,關聯分析分類聚類預測時序模式偏差檢測空間數據挖掘 Web數據挖掘,,,,數據挖掘的常用方法,關聯規(guī)則挖掘決策樹方法統計方法粗糙集方法人工神經網絡遺傳算法,,,,KDD的應用,數據挖
7、掘和知識發(fā)現系統IBM Almaden研究中心的Quest加拿大Simon Fraser大學的DBMinerAT&T實驗室的IMACS和Spotlight中科院計算所的MSMiner,,作為知識獲取工具Bohanec等人的決策支持工具DEXIBM Watson研究中心開發(fā)的SEAS專家系統明確提出了“基于知識的數據挖掘”這一概念,,,?,KDD的應用,存在的問題,,知識庫,KDD工具,,,知識工程師&領域專家
8、,發(fā)現,融合,先驗知識,,,?,,,本文的研究目標,背景:中澳科技合作特別資金項目“數據挖掘技術在石油天然氣勘探開發(fā)工程中的應用”問題:動態(tài)環(huán)境下基于KDD的知識自動獲取方法:從研究基于知識庫的KDD出發(fā),將知識庫中的知識作為先驗知識引入KDD過程;進而研究知識庫的自動演化機制,將KDD過程發(fā)現的新模式與知識庫中的原有知識進行自動的知識檢測與融合目標:自動進行基于KDD的知識獲取循環(huán),,,,基于KDD的知識自動獲取模型,,,,模型
9、結構,,,,主要子系統,約束生成從知識庫自動產生對KDD過程的約束輸入:知識庫和KDD模塊的參數輸出:對KDD過程的約束基于約束的KDD數據選擇:依據相應的約束選出相關數據數據預處理:篩選掉非法的記錄并補齊缺失值數據挖掘:基于約束的規(guī)則挖掘解釋/評價:根據規(guī)則的支持度、置信度、并結合其滿足約束的程度對目標規(guī)則集進行處理,,,,主要子系統,知識庫管理對所發(fā)現的新知識與知識庫中的原有知識進行一致性檢測和完整性檢測,并對不一
10、致和不完整的情況自動進行處理知識應用將知識庫中的知識應用于實際的運行過程,并從外界獲得反饋,與運行結果進行比較,計算誤差,激發(fā)下一輪基于KDD的知識獲取過程兩個誤差閾值:平均誤差閾值和嚴重錯誤閾值在KDD等過程中,知識庫不變且保持可用,知識庫更新后也可以立即應用,,,,相關工作比較,利用KDD過程輔助知識自動獲取的方法運用KDD過程從實際案例中發(fā)現知識建立知識庫或驗證知識庫中的現有知識將KDD過程發(fā)現的知識自動融入知識庫存
11、在的問題需要進行繁瑣的手工操作KDD獨立于現有知識本文模型的優(yōu)點利用KDD過程的發(fā)現結果建立和完善知識庫利用知識庫中的現有知識指導KDD過程進行,,,,基于知識庫的KDD,基本思想根據一定的約束生成機制自動從知識庫中生成約束,這些約束在一定程度上反映了知識庫中的現有知識利用這些約束指導KDD過程的進行,實現基于約束的數據挖掘,即相當于利用知識庫中的現有知識指導了KDD過程的進行整個約束生成和基于約束的KDD過程都可以自動
12、化地進行,減少了手工操作的任務量,極大地提高了模型的工作效率及其實時性。,,,,模型知識庫中的知識表示方法,采用面向對象的概念和技術,吸收了框架理論和語義網絡的一些特點,并融合了產生式規(guī)則表示方法,,,,,關聯規(guī)則挖掘,設I={i1, i2,…, im}是事務項的集合。設任務相關的數據D是數據庫事務的集合,D中的每個事務T是一個事務項集且滿足 。每一個事務有一個標識TID。設X是一個事務項集,事務T包含X當且僅當
13、 。關聯規(guī)則是形如 的蘊涵式,其中 且規(guī)則的支持度:規(guī)則的置信度:,,,,基于約束的關聯規(guī)則挖掘,約束:包括數據約束、挖掘的維和層次約束、規(guī)則約束等規(guī)則模板:用來表示用戶希望探察或希望證實的、并且感興趣的規(guī)則模式例:,,數據約束“X屬性值必為負”:規(guī)則約束“挖掘包含原子表達式(X ?)的規(guī)則,Z為目標屬性”:,,,基于知識庫的約束自動生成,例規(guī)則行:if ((
14、DEN <= 2.111) && (CNL <= 28.866)) then FORMATION = “gas”約束:,,,,模式評價策略,結合支持度、置信度以及規(guī)則約束計算評價系數滿足約束的程度:,,規(guī)則的評價系數:,,,相關工作比較,結合領域先驗知識進行KDD的方法由知識工程師從領域專家那里直接獲得,并直接硬編碼到應用系統之中由用戶對KDD過程指定約束,從而間接將領域知識和應用需求結合到KD
15、D過程中去存在的問題繁瑣的手工操作本文方法的優(yōu)點提高第二類方法的自動化程度通過知識庫自動生成約束指導KDD過程的進行,,,,自動演化知識庫,目標:自動實現知識檢測與知識融合,實現知識庫的自動演化知識檢測需要檢測知識庫中的不一致和不完整等情況知識融合將不同來源的多個知識集合合并為一個知識集合,本文模型中指將KDD過程發(fā)現的新知識與模型知識庫中的原有知識合并為新的知識庫“演化”一詞表示隨著反復、自動進行的知識獲取過程,知識庫
16、中的知識也不斷更新和完善,知識庫也因而不斷發(fā)展,,,,規(guī)則表示形式,,,,規(guī)則Rule的BNF定義,,,,原子表達式之間的關系,定義1: 原子表達式相等:兩個原子表達式運算數相同,且運算數的取值區(qū)間也相同,則稱原子表達式A與B相等,記做A=B。定義2:原子表達式覆蓋:兩個原子表達式A、B的運算數相同,若A中運算數的取值區(qū)間包括了B中運算數的取值區(qū)間,則稱原子表達式A覆蓋原子表達式B,記做 ,或者稱原子表達式B被原子表
17、達式A覆蓋,記做 。當A、B不相等時,該關系變成 ,即 。定義3: 原子表達式交叉:兩個原子表達式A、B的運算數相同,若A、B中運算數的取值區(qū)間既有相同的部分,也都有不同的部分,則稱原子表達式A與B交叉,記做A&B。,,,,原子表達式之間的關系,定義4:原子表達式相異:兩個原子表達式A、B的運算數相同,但A、B中運算數的取值區(qū)間沒有相同的部分,則稱原子表達式A與B相異,記做A∥B。定
18、義5: 原子表達式互補:兩個原子表達式A、B的運算數相同,且A、B中運算數的取值區(qū)間互為補集,則稱原子表達式A與B互補,記做A= ,或 B= 。,,,,原子表達式之間的關系,運算符相同但值不同的原子表達式之間關系,,,,原子表達式之間的關系,運算符不同的原子表達式之間關系,,,,表達式之間的關系,定義6: 表達式包括:兩個表達式R、S,若R中任意一個原子表達式均與S中的某一個原子表達式相等,則稱表達式S包括表達式
19、R,記做 ,或者稱表達式R被表達式S包括,記做 。定義7: 表達式相等:兩個表達式R、S,若S包括R(即 ),且R也包括S(即 ),則稱表達式R與S相等,記做R=S。定義8: 表達式覆蓋:兩個表達式R、S,若R中任意一個原子表達式均被S中的某一個原子表達式覆蓋,則稱表達式S覆蓋R,記做 ,或者稱表達式R被S覆蓋,記做
20、 。當R與S不相等時,該關系變成 ,即 。,,,,,表達式之間的關系,定義9: 表達式交叉:兩個表達式R、S,對R中的任意一個原子表達式,當S中存在與它運算數相同的原子表達式時,若它與S中這些與它運算數相同的原子表達式之間,存在交叉關系,且不存在相異關系,則稱表達式R與S交叉,記做R&S。定義10: 表達式相異:兩個表達式R、S,對R中的任意一個原子表達式,當S中存在與它運算數相同的原子表達式時,若它
21、與S中這些與它運算數相同的原子表達式之間存在相異關系,則稱表達式R與S相異,記做R∥S。,,,,,知識自動檢測,知識檢測處理冗余矛盾從屬環(huán)路不完整,,,,基于規(guī)則Rule的知識自動檢測,冗余檢測與處理知識冗余:知識庫中存在多余的知識或多余的條件三種情況:等價規(guī)則、冗余規(guī)則鏈、冗余條件檢測與處理:等價規(guī)則:兩條規(guī)則在相同的條件下有相同的結論;可以直接刪除一條;冗余規(guī)則鏈:兩條規(guī)則鏈中第一條規(guī)則的條件相同,最后一條規(guī)則的
22、結論也等價;刪除唯一出現的條件,并按需要補充規(guī)則;冗余條件:兩條規(guī)則有相同的結論,但一條規(guī)則前件中的某些條件與另一條規(guī)則前件中的條件互補,而其它條件保持一致;刪除這些互補的多余條件。,,,,基于規(guī)則Rule的知識自動檢測,從屬檢測與處理知識從屬:若規(guī)則r1比r2要求更苛刻的條件,或得到更苛刻的結論,則r1是r2的從屬規(guī)則設兩條規(guī)則r1: ,r2: ,其中P、Q、R、S為表達式,若 或
23、 ,且 或 ,則規(guī)則r1是r2的從屬規(guī)則。規(guī)則從屬通常需要領域專家進行處理,知識檢測過程僅對其進行初步處理,即將其進行標記,然后由知識融合進行進一步處理。,,,,基于規(guī)則Rule的知識自動檢測,矛盾檢測與處理知識矛盾:知識庫中存在矛盾的知識或矛盾的結論兩種情況:矛盾規(guī)則、矛盾規(guī)則鏈檢測與處理:矛盾規(guī)則:若兩條規(guī)則中某些相同的條件下有不同的結論,即兩條規(guī)則的條件部分冗余或者從屬
24、,結論部分卻存在不同(交叉或相異),則稱為矛盾規(guī)則;對其進行初步處理;矛盾規(guī)則鏈:若兩條規(guī)則鏈中,第一條規(guī)則的條件部分冗余或者從屬,最后一條規(guī)則的結論部分卻存在不同(交叉或相異),則稱兩條規(guī)則鏈矛盾;仿照矛盾規(guī)則和冗余規(guī)則鏈的處理方法進行初步處理。,,,,基于規(guī)則Rule的知識自動檢測,環(huán)路檢測與處理當一組規(guī)則形成一條循環(huán)鏈時,稱它們構成了一個環(huán)路如規(guī)則r1: 、r2: 、r3: 、r4:
25、,對這四條規(guī)則無論先執(zhí)行哪一條,最終都會回到出發(fā)點,因此它們之間出現了環(huán)路檢測與處理:從任何一條未經過的規(guī)則出發(fā),沿著規(guī)則鏈表進行查找,若找到一條規(guī)則的結論與前面某條規(guī)則的條件等價,則找到了環(huán)路;當知識庫中出現環(huán)路時,一般需要領域專家進行處理,知識檢測僅對其進行標記,然后由知識融合進行進一步處理。,,,,基于規(guī)則Rule的知識自動檢測,不完整與知識精化知識不完整可能導致錯判和漏判兩種錯誤錯判:對給定的不一定產生某一結論的
26、條件,經系統運行卻得出了這一結論漏判:在給定條件下本來應該推出的結論沒有推出來知識精化的一般方法:用一批已知結論的實例考核知識庫,看有多少實例被錯判及漏判,然后對知識進行修正本文模型中的方法:通過知識應用對知識庫進行考核,一方面降低知識庫中導致錯判和漏判的規(guī)則的置信度,另一方面通過約束指導KDD過程發(fā)現更多有利于知識精化的新模式,,,,知識庫的自動演化過程,,,,相關工作比較,傳統的知識檢測方法僅在規(guī)則條件這一層次上進行檢測,即
27、對于兩條規(guī)則,僅僅檢查他們的原子表達式是否相等或互補本文提出的方法除檢查原子表達式是否相等或互補外,還檢查原子表達式以及表達式之間的覆蓋、沖突等關系,即對原子表達式中屬性項的取值范圍進行檢測,,,,相關工作比較,兩種方法對比例如條件x=0與它互補本文的知識檢測方法:條件x-1與它交叉等結論:本文的知識檢測方法在一個更細的粒度上進行,因此更為精確,通過檢測的知識庫一致性更好,,,,模型在自動化測井數據分析中的應用,測井數據分析簡
28、介應用數據與應用需求基于知識庫的KDDMSMiner(Multi-Strategies Miner)簡介基于知識庫的KDD自動演化知識庫OKPS(Object-oriented Knowledge Processing System)簡介自動演化知識庫,,,,測井數據分析簡介,石油天然氣勘探開采工程的重要環(huán)節(jié)測井:從地表到井底測量鉆井的各個地層的各種性質(包括電、聲、放射性等物理性質)測井數據:測井中測得的各種性質的數
29、據值測井數據分析:綜合研究和分析測井數據,并結合領域相關知識預測特定鉆井甚至整個勘探區(qū)域和含烴構造帶的油氣層情況和油氣藏類別需要進行定性分析和定量計算不同測井的地層情況不同需要反復進行,,,,應用數據與應用需求,數據來源:新疆境內的油田測井數據表:每一條記錄包含鉆井中一個特定深度地層的各屬性的實測值,共有十維屬性:“DEPTH” 、“CALI” 、“CNL” 、“DEN” 、“GR”、“RI” 、“RT” 、“RXO” 、“S
30、P” 和“AC” 區(qū)塊含油數據表:每一條記錄包含鉆井中一個特定的、已探明油氣層的各屬性的實測值,系統中用到的有:“thickness” 、“starting depth” 、“ending depth”和 “Result”應用需求不斷從測井數據和已知油氣層數據中學習,從而可以從測井數據中預測可能包含的油氣層,,,,MSMiner簡介 ——系統主界面,,,,,MSMiner簡介——數據挖掘子系統,,,,,,基于知識庫的KDD,設定K
31、DD過程各個步驟的算法及其參數,,,,,基于知識庫的KDD,KDD過程生成的發(fā)現規(guī)則文件例,,,Final hypothesis is:d :- RT>=14.397, CALI=-0.398 (56/0).c :- RT>=7.198, RT>=9.28 (127/0).c :- AC>=94.375, RT>=5.426, SP=8.654 (23/1).c :- RT>=7.198, C
32、NL>=28 (31/6).c :- CALI>=8.966 (6/2).c :- CALI=73.987 (8/1).c :- AC>=101.787 (2/0).default b (494/0).=========================== summary ==========================Train error rate: 1.61% +/- 0.44% (808 da
33、tapoints) <<Test error rate: 66.77% +/- 2.64% (319 datapoints) <<Hypothesis size: 8 rules, 23 conditionsLearning time: 0.98 sec,,,OKPS簡介 ——KAMT,,,,,OKPS簡介 ——OOIE,,,,,自動演化知識庫,設定知識檢測與融合時所需參數,,,,
34、,自動演化知識庫,知識檢測與融合,,,,,本文的工作,設定KDD過程各個步驟的算法及其參數的子系統從知識庫自動生成約束根據約束自動設定MSMiner的挖掘任務自動知識檢測自動知識融合測井數據分析主系統,,,,,總結與展望,本文的主要貢獻提出了一種通用的基于KDD的知識自動獲取模型。利用KDD發(fā)現的知識自動完善知識庫;同時從知識庫中自動生成約束指導KDD過程。該模型在一定程度上減輕了人工操作的負擔,并可以自適應動態(tài)變化的環(huán)境。
35、實現了基于知識庫的KDD過程。提出了在數值屬性的取值區(qū)間上進行知識自動檢測的方法。提出了結合規(guī)則支持度、置信度及其滿足約束程度的知識自動融合機制。,,,,總結與展望,下一步的工作提高基于約束的KDD系統的創(chuàng)新能力對約束進行評價和優(yōu)化,進一步提高基于約束的KDD過程有效性和針對性平衡模型的魯棒性和對知識變化的敏感程度拓展模型的應用范圍,進一步將模型應用于KBS、知識管理、決策支持、Web知識獲取等領域,實現更多動態(tài)環(huán)境下的、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論