基于引用聚類的多文檔自動文摘技術研究.pdf_第1頁
已閱讀1頁,還剩165頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、互聯(lián)網的普及帶來了網絡電子期刊文獻的劇增,這給研究人員(尤其是初級研究人員)高效準確地從海量信息中挖掘所需要的信息帶來了巨大挑戰(zhàn)。因此,如何對領域知識進行自動概括以提高研究人員獲取信息的效率變得日益重要。多文檔自動文摘是自然語言處理中的一個重要研究課題,它可以實現(xiàn)對同一主題的多篇文獻的匯總和壓縮,通過提供一個簡潔、全面的文摘,來減少研究人員閱讀文獻的時間并避免信息超載的發(fā)生。
  為了對研究人員所關心領域的相關文獻進行概述,本文在

2、現(xiàn)有的多文檔文摘技術的基礎之上,研究了基于引用聚類的多文檔自動文摘技術,著重在引用聚類和文摘生成的研究。
  在引用聚類部分,基于向量空間模型,通過采用不同的文本表示方式和文本相似度計算方法,得到了引用聚類的六種聚類指標,即文獻摘要相似性指標、基于查詢的文獻摘要相似性指標、文獻引用上下文相似性指標、基于查詢的文獻引用上下文相似性指標、文獻共引互信息指標以及文獻共引位置臨近性得分指標。在此基礎上,根據(jù)文獻的引用位置與其主題間的相關性

3、特點,提出了一種基于引用位置距離的聚類評價方法,并基于該方法對六種聚類指標的聚類效果進行了比較。
  引用聚類的目的是為了對與研究人員信息需求相關的多篇文獻按照主題的相似程度進行分組管理,為之后的研究做鋪墊。
  在文摘生成部分,為了對主題簇中多篇文獻的主要內容進行濃縮、提煉,采用不同的多文檔文摘技術(LexRank、Query Sensitive LexRank、MMR以及LexRankMMR),根據(jù)句子的重要程度,從每個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論