文本自動摘要和信息抽取方法及其應用研究.pdf_第1頁
已閱讀1頁,還剩117頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著文本數(shù)據(jù)特別是網(wǎng)頁信息的持續(xù)激增,如何快速、自動地抽取海量文本中蘊含的主要或重要信息,已成為人們關心的一個熱點研究問題,由此刺激了面向文本的信息抽取技術的迅速發(fā)展。文本摘要技術能夠抽取文本的篇章結構及主要信息,自動生成單篇文檔或多篇文檔的摘要,可以看成是信息抽取技術的一種。而通常意義上的信息抽取技術則主要是抽取文本中蘊含的用戶所需的特定重要信息。
   本文面向循證醫(yī)學(EBM)網(wǎng)頁并結合其它類型的訓練文本,重點研究文本的自

2、動摘要和信息抽取方法,主要針對信息抽取結果不理想、主題劃分不明確、段落聚類算法對初始值敏感、聚類數(shù)目需要人工設定等問題,提出一系列新穎的研究方法和模型。
   (1)提出一種段落特征與隱馬爾可夫模型相結合的信息抽取方法。該方法與其它信息抽取方法的不同之處在于以段落而不是單詞為研究對象。網(wǎng)頁上的信息經過預處理以后,以段落為單位,保存成文本序列,每一個段落要轉換成特定的字符串,這些字符串做為隱馬爾可夫模型中的可觀察變量。實驗表明,無

3、論是準確率還是召回率,以段落為觀察序列的信息抽取結果都要優(yōu)于以單詞為觀察序列的信息抽取結果。
   (2)對文檔進行主題劃分,為摘要的生成做準備。主題劃分的過程是將文本中的段落表示成向量空間模型,利用互信息計算連續(xù)段落的關聯(lián)程度,將關聯(lián)程度較弱的段落作為劃分的邊界??紤]到算法中人工定義參數(shù)會對劃分結果造成一定程度的不利影響,所以本文采用遺傳算法對主題劃分過程中出現(xiàn)的參數(shù)閾值進行優(yōu)化。實驗表明,互信息與遺傳算法相結合的主題劃分方法

4、在準確率上取得了較好的結果。
   (3)對單詞-文檔譜聚類方法的基本步驟進行分析,找出其對初始值敏感的根本原因,提出一種基于模糊K-調和均值的單詞.文檔譜聚類方法。該方法包括兩個方面,一是從矩陣相似的角度對譜聚類中的Laplacian矩陣進行處理,使其滿足對初始值不敏感的條件。二是通過加入模糊的概念,用模糊K-調和均值算法代替K-均值算法,使聚類結果對初始值不敏感。實驗表明,基于模糊K-調和均值的單詞-文檔譜聚類方法不僅使聚類

5、結果對初始值不敏感,而且在一定程度上改進了數(shù)據(jù)的聚類結果。
   (4)利用形態(tài)學的方法確定聚類數(shù)目,并對單詞-文檔譜聚類方法進行改進。確定聚類數(shù)目主要分三個步驟,第一步將單詞-文檔譜聚類方法中產生的矩陣轉換成VAT灰度圖,第二步利用灰度形態(tài)學、圖像二值化、距離轉換等圖像處理技術對VAT灰度圖進行過濾,第三步對過濾后的。VAT灰度圖建立信號圖,并進行平滑處理,通過平滑后的信號圖的波峰波谷數(shù)目確定文檔集的聚類數(shù)目。實驗表明,該方法

6、能夠提高單詞-文檔譜聚類方法的聚類效果。
   (5)在LDA.主題模型的基礎上,提出了基于主題融合的多文檔自動摘要算法Titled-LDA??紤]到文檔的標題信息對摘要形成有很強的指示作用,因此為每篇文檔分別建立標題和正文的主題模型,并對兩個模型進行融合。融合過程中,根據(jù)兩種形態(tài)的信息熵,進行自適應不對稱學習,從而對不同形態(tài)的主題分布進行加權處理,融合后的模型適當?shù)仃P聯(lián)了標題和正文的信息,因此有助于摘要質量的提高。實驗表明,Ti

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論