中英平行短語依存樹庫的構建與應用研究.pdf_第1頁
已閱讀1頁,還剩110頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、平行語料庫是自然語言處理(NLP)和機器翻譯(MT)研究和工程應用的重要基礎資源,基于平行語料庫的各種方法不僅能夠改進機器翻譯的質(zhì)量,還可以加強機器輔助翻譯中的人機交互?,F(xiàn)有平行語料大多只實現(xiàn)了句子一級的對齊,只有部分詞對齊或同現(xiàn)詞串對齊。盡管網(wǎng)絡文本挖掘技術的不斷提高,平行語料的規(guī)??涨霸鲩L,基于實例和統(tǒng)計的機器翻譯技術取得長足發(fā)展,很多復雜的語言現(xiàn)象和翻譯難題還是急需含有語言學深加工的語料的支撐,以提高分析和翻譯的準確性。平行對齊樹

2、庫的構建和應用就是一個重要的方向。平行對齊樹庫可用于自動詞對齊系統(tǒng)的訓練和評測,翻譯規(guī)則抽取,詞義消歧,翻譯詞典抽取及跨語言文化研究等,尤其是能夠在加強句法分析、抽取靈活而復雜的語言經(jīng)驗規(guī)則和翻譯調(diào)序規(guī)則方面提高機器翻譯系統(tǒng)性能。
  本文比較傳統(tǒng)短語結構語法(PSG)和依存語法(DG)及現(xiàn)有相應樹庫資源,提出融合兩者優(yōu)勢的短語依存語法(PDG)并設計相應短語依存樹庫(PDT)標注方案,構建包含中英單語PDT和實現(xiàn)節(jié)點對齊的大工中

3、英平行短語依存樹庫(DUT-CEPDT)。PDG放棄PSG的主謂二分法,采納DG以謂詞為中心的格語法;放棄DG強行單一中心語二分法,保留PSG的中間層級,保留并列的多中心結構,最大程度實現(xiàn)多語統(tǒng)一的分析方案;標注統(tǒng)一的基于語義的依存方向,在每個節(jié)點標注的依存關系類型包含句法功能和語義角色兩個特征。翻譯對齊的內(nèi)容是對齊翻譯過程,是從詞、短語、句子到段落各層級徹底對齊。語料分別經(jīng)過分詞和詞性標注之后,導入到可視化語言學樹庫編輯器,構建從段落

4、到詞的短語結構層級關系,同時標注各層結構的依存方向和類型。最后開發(fā)專門的PDT節(jié)點對齊編輯器,進行節(jié)點ID關聯(lián)連結,實現(xiàn)中英文樹庫的節(jié)點對齊。
  已加完成2年中國政府工作報告和100份62屆聯(lián)合國大會決議的標注,中文169,360字,英文128,283詞。依次進行的短語結構劃分與結構類型標注、句法功能依存類型標注和節(jié)點對齊三項標注一致性實驗表明設計的標注方案有較強的可操作性。DUT-CEPDT不僅用于抽取翻譯對和翻譯規(guī)則,用于基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論