基于混合核方法的上下位語義抽取.pdf_第1頁
已閱讀1頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、利用海量的非結構化數(shù)據(jù)如Web文本構建知識庫,已經(jīng)成為近年來自然語言處理與機器學習領域的熱門研究課題。自動知識庫構建需要概念抽取和語義關系抽取兩方面工作,概念提取旨在文本中發(fā)現(xiàn)名詞概念,語義抽取旨在提取名詞概念之間的語義關系,上下位關系是名詞概念之間的一種重要關系。發(fā)掘名詞概念之間的上下位語義對于構建語義字典、信息檢索等具有重要作用。
  文本語義抽取一般采用分類模型,對于給定名詞對判斷其在特定上下文中是否存在語義關系,根據(jù)特征空

2、間的不同,又分為基于傳統(tǒng)文本特征和基于文本核的分類算法。前者使用例如N-Gram、詞頻詞性等文本特征來描述詞對周圍的上下文,特征空間較為簡單,并且難以刻畫文本中較長的語法依賴。文本核能將原始特征映射到擴展后更高維度的希爾伯特特征空間,比以上基于特征的方法更能發(fā)掘句子的詞法和語法特征。
  現(xiàn)有的文本核主要分為基于解析樹和基于文本子串的核。實驗顯示,基于文本子串核的語義抽取準確率較高召回率較低,而解析樹核則正好相反。隨著目標詞對之間

3、距離的增大,這兩種核的性能均會下降,但前者性能下降得更快。這主要因為當詞對間距離增大時,文本子串核可以用作比較的子句變長,因而增大了不同子句之間出現(xiàn)相似詞語序列的概率,導致相似度增大,降低了不同詞對的區(qū)分度。另一方面,解析樹核更強調語法解析樹結構的相似度,因而對句子長度的增加相對不敏感。但對于解析樹結構相似而詞語完全不同的兩個子句,單獨從子樹結構出發(fā)判斷語義相似度顯然不盡合理。
  為解決這些問題,提出一種自適應詞對之間距離的混合

4、核來進行上下位語義關系抽取的混合核。首先我們從句子的語法解析樹出發(fā),定義一種新的基于子路徑的核。與其他解析樹核過于依賴語法結構相比,該核加強了對原始詞語參與句子成分構成上下位關系的考察。同時考慮到連續(xù)單詞序列能更好的描述語義信息,我們基于詞對的上下文序列定義了一種新的連續(xù)子序列核。最后我們使用加權平均方法來對這兩種核進行融合。實驗結果表明,混合之后的核不但顯著提高了上下位語義關系抽取的準確率和召回率,還降低了子句長度對核函數(shù)性能的影響。

5、
  對于概念網(wǎng)絡構建,一方面我們需要自動化算法來盡量代替概念網(wǎng)絡構建中的人工勞動,使構建的概念網(wǎng)絡容易維護且易于更新,另一方面我們需要人工的知識來彌補自動構建中無法達到的部分效果,人工檢驗抽取出來的概念以及聯(lián)系是否正確,為抽取出來的概念提供標簽,這些標簽是無法從文本中直接獲取的抽象概念,因此自動構建算法需要與人工知識相結合才能保持準確率且適應大規(guī)模數(shù)據(jù)處理。
  本文利用已有的概念抽取以及關系抽取算法擴展人工構建的語義概念

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論