基于敘詞表的中醫(yī)古籍文獻領域本體建模方法研究.pdf_第1頁
已閱讀1頁,還剩107頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1.前言隨著20世紀90年代中醫(yī)藥文獻數字化研究的開展,中醫(yī)古籍文獻數字化工作已經走過了幾個階段。從2000年國家中醫(yī)藥管理局設立的重點研究專項“中醫(yī)藥古代文獻資源數字化關鍵問題研究”的起步階段,到2001年國家科技部基礎工作重大項目“中醫(yī)藥科技信息數據庫建設”項目,再至2003年國家科技部醫(yī)學科學數據共享服務系統(tǒng)“中醫(yī)藥學科學數據共享服務中心”建設項目,中醫(yī)古籍文獻數字化已成功研制出“中醫(yī)本草文獻數據庫”、“中醫(yī)方劑文獻數據庫”,在全

2、國三十余家中醫(yī)院校和和研究機構的參與下,成功構建了我國第一個中醫(yī)古籍文獻知識庫,目前已收錄了本草、方劑類古籍260余種,6000余萬漢字,并于2003年實現了網絡運行。 在數字化工作的研究中,導師柳長華教授提出的基于“知識元”的中醫(yī)古籍計算機知識表示方法在知識庫建設中取得了進展,基本形成了一套較成熟的建庫技術。 以這種技術建立的數據庫使知識的查詢更加精確,避免了大量冗余信息的出現,使用戶最大限度地擺脫了信息爆炸的困擾。但

3、隨之而來的另一個問題又出現在查詢者面前,這就是所謂的“信息孤島”現象。 古籍數字化的功能不僅在于一般的信息查詢,更重要的是古籍文獻中的知識發(fā)現。普通的數據庫難以達到知識挖掘的深層次要求,古籍數字化的目標是建設知識庫。 2.知識庫系統(tǒng)的原理從知識的使用角度來看,知識庫是由知識和知識處理機構組成,知識庫形成一個知識域,該知識域中除了事實、規(guī)則和概念之外還包含各種推理、歸納、演繹等知識處理方法。 知識庫系統(tǒng)的核心組成部

4、分是知識庫和推理機構。知識庫對知識進行存儲和管理,推理機構是推理機使用知識庫內的知識執(zhí)行推理的機構。如果一個系統(tǒng)具有能用計算機所存貯的知識對輸入的數據進行解釋和推理,并有對其進行驗證的功能,則該系統(tǒng)稱為知識庫系統(tǒng)。 知識庫系統(tǒng)的實現涉及到兩個關鍵問題:知識表示和知識推理。知識庫的處理過程分為二個層面:先將知識由底層數據經過一系列加工,如分類、歸納、綜合等處理過程而得到上層信息,稱為知識表示。這種信息再經過解釋、比較、推理得到我們

5、所獲取的知識,即知識推理的過程。 為了實現知識推理,一種基于本體的知識表示方法成為各個領域構建知識庫推理系統(tǒng)的首選。 3.本體的概念、作用與分類本體(Ontology)起源于哲學領域,古希臘哲學家亞里士多德(Aristotle)定義Ontology為“對世界客觀存在物的系統(tǒng)的描述,即存在論”。Ontology是客觀存在的一個系統(tǒng)的解釋或說明,它關心的是客觀現實的抽象本質。Ontology這個哲學范疇,被人工智能界賦予了新

6、的定義,從而被引入信息科學中。 目前普遍接受的本體定義為:共享概念模型的形式化規(guī)范說明。從內涵上來看,本體是領域(可以是特定領域的,也可以是更廣的范圍)內部不同主體(人、機器、軟件系統(tǒng)等)之間進行交流(對話、互操作、共享等)的一種語義基礎,即由本體提供一種明確定義。Ontology自身所要實現的目標,即:“在人類和應用系統(tǒng)之間實現共享和相互理解”。 Ontology能夠將領域中的各種概念及概念之間的關系顯示地、形式化地表

7、達出來,從而將術語的語義表達出來,因而在語義查詢方面發(fā)揮著重要作用。自W3C主席TimBermem-Lee在1998年首先提出了語義web的概念之后,Ontology正在成為人工智能和信息處理領域的研究熱點之一。 本體強調相關領域的本質概念,同時強調這些概念之間的關聯。本體論可以有效地表達知識和知識之間的關系,基于本體論的知識庫系統(tǒng)可以建立有效的知識表達體系,揭示知識之間的內在關系。 本體技術主要在以下幾個方面提高知識庫

8、系統(tǒng)的性能:可重用性、知識獲取、查找智能性、可靠性、規(guī)范定義、任務解析、可維護性。 本體通??煞譃橐韵聨最悾侯I域本體、通用本體、應用本體、表示本體。本文關注的是本體類型中的領域本體,主要討論如何運用Ontology技術構建中醫(yī)古籍領域本體。 4.本研究的意義、方法與創(chuàng)新點本文通過對本體的國內外研究與發(fā)展現狀的考察,根據中醫(yī)古籍數據庫的實際情況,在知識推理層面提出了建設面向中醫(yī)古籍數據庫應用的中醫(yī)古籍文獻領域本體的設想。參

9、考國內外領域本體的建設方法,論述了利用敘詞表建設領域本體的優(yōu)勢,提出了基于敘詞表的適合中醫(yī)古籍數據庫應用的中醫(yī)古籍文獻領域本體建設方法。最后通過一個實例闡述了中醫(yī)古籍文獻領域本體的具體建設方法,為中醫(yī)古籍數據庫的進一步建設提供了理論與實踐的雙重參考。 研究意義:中醫(yī)古籍知識庫建設的要求;中醫(yī)古籍知識深入整理研究的要求;便于網絡中醫(yī)古籍文獻資源的統(tǒng)一管理。 研究方法:文獻調研法、概念分析法、本體構建法。創(chuàng)新點:在中醫(yī)古籍文

10、獻數字化領域提出建立本體系統(tǒng)的設想;分析了適合中醫(yī)古籍文獻數據庫的本體表示語言和編輯工具;提出中醫(yī)古籍文獻領域本體的建設目標;設計了中醫(yī)古籍文獻領域本體的建設方法;建立了一個以“病證”概念為核心的中醫(yī)古籍文獻領域本體模型。 5.本體的國內外研究現狀國外主要研究現狀:①理論深化研究;②信息系統(tǒng)中的應用;③本體作為一種能在知識層提供知識共享和復用的工具在語義網中的應用。 國外較為知名的本體知識系統(tǒng):WordNet、Frame

11、Net、GUM、SENSUS、OntoSeek、Cyc、HowNet和SUMO等。國內主要研究現狀:我國本體的研究尚處于起步階段,一個是對W3C發(fā)布的關于本體的外文資料的翻譯,一個是主要為面向應用的研究,無論是理論還是實際應用都相對落后于國外。 面向中醫(yī)藥領域的研究主要有:浙江大學網格計算實驗室開發(fā)的基于語義的中醫(yī)藥信息本體虛擬組織模型——DartGrid服務棧;北京中醫(yī)藥大學和中國科學院計算機研究所開發(fā)的基于本體的中醫(yī)專家臨床

12、病案知識庫。 6.領域本體的構建20世紀50年代敘詞表得到了很大發(fā)展,成為主題檢索的主要語言,各國擁有的敘詞表數以千計,并涵蓋了各個領域。從一定意義上講,敘詞表可以說是一種輕量級本體(Light-weightOntology)?;跀⒃~表構建領域本體有諸多的的優(yōu)越性,目前人工智能界普遍推薦利用敘詞表構建領域本體。 中醫(yī)古籍文獻敘詞表與本體的關系:中醫(yī)古籍文獻敘詞表表示的是中醫(yī)古籍文獻中包含的概念,概念來自于古籍內容與古籍

13、本身,是對中醫(yī)古籍文獻的客觀反映。 敘詞表表示的是樹狀結構,這種樹狀結構反映了古籍文獻內部的自然構成方式。敘詞表的結構是可見的、清晰的,可稱為顯性結構。領域本體繼承了敘詞表的樹狀結構特征。本體更重在表示一種概念之間的隱含關系,這種關系是模糊的,不明顯的,可以稱為隱性結構。相對來說,本體的反映更微細,更深入,為文獻中的知識關聯提供了可實現的途徑。敘詞表或本體是對體現古籍內涵的概念的集合。 領域本體的建模元語:(概念)類、屬

14、性、函數、公理、實例。 建模語言:選用OWL語言。本語言的優(yōu)勢在于:基底層語法符合XML標準格式;為W3C推薦的標準本體編輯語言,便于與數據庫之間的數據交換;支持多種語言輸入,并支持中文;網絡中有免費教學手冊,便于下載學習。 編輯工具:選用Protégé-2000。其優(yōu)勢在于:界面友好,具有圖形化的用戶界面;版本更新速度快,目前已發(fā)布了3.1.1版;支持多種語言格式,支持中文編輯;本體文檔可以不倚賴于本體編輯器進行代碼修

15、改,方便與數據庫的連接;網絡開放資源;是W3C推薦的本體編輯器;是基于XML的本體標記語言,多種存儲格式,可以適應不同需要。 構建方法:選用斯坦弗大學醫(yī)學院開發(fā)的七步法。7.中醫(yī)古籍文獻領域本體模型(病證模型)的構建元數據(Metadata)就是數據之數據,或描述原始數據的獨立數據。元數據是針對網絡信息標引發(fā)展起來的,它以Web頁作背景,通過元數據將Web信息組織起來,構成基于元數據的有序信息系統(tǒng),為網絡信息資源的組織提供了重要

16、手段。其主要學術意義和應用價值在于信息處理。 根據中醫(yī)文獻數字化研究室的最新研究,中醫(yī)藥古籍元數據包括三類概念:一是表達古籍外部特征的元數據,稱為書目元數據;二是表達古籍內部篇、卷、章、節(jié)層次特征的元數據,稱為書體結構元數據;三是表達古籍知識單元內容的元數據,稱為語義元數據。本領域本體模型以“語義元數據”為核心概念集,以“病證”語義元數據及其包涵的概念為中心建立本體模型。 有關病證與其他概念間的關系主要有二類:等級關系,

17、包括上下位關系和實例關系;非等級關系,包括同義關系、交叉關系、排斥關系等。 以《諸病源候論》“風痙候”為例,為本體添加類和實例:“風痙候”條文:“風痙者,口噤不開,背強而直,如發(fā)癇之狀。其重者,耳中策策痛;卒然身體痙直者,死也。由風邪傷于太陽經,復遇寒濕,則發(fā)痙也。診其脈,策策如弦,直上下者,風痙脈也?!?“風痙候”的概念等級鏈為:病證——風病——風痙。條文中與與本概念相關的其他概念有:證候表現、預后、病因、病位、脈象。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論