

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、機器翻譯是應用計算機將一種源自然語言自動地翻譯成另一種目標自然語言的技術(shù)。隨著時代的迅速發(fā)展,人們?yōu)榱烁菀椎鼗ハ嘟涣骱瞳@取信息,對于機器翻譯的需求也在逐漸加強。如何提高機器翻譯質(zhì)量已經(jīng)成為研究者們的研究熱點。
統(tǒng)計機器翻譯系統(tǒng)對平行語料有很強的依賴性,然而,一些語言對以及特定領(lǐng)域中平行語料資源稀缺,甚至不存在,使得機器翻譯不能順利進行。即使存在豐富數(shù)據(jù)資源,一般也來自于不同領(lǐng)域。這種領(lǐng)域上的差異導致很多詞語在不同領(lǐng)域中有不同
2、的譯法,使得跨領(lǐng)域機器翻譯效果并不理想。為了解決這些問題,本文提出了基于單語語料庫的詞語新譯挖掘方法研究。
本文在進行詞語新譯挖掘時,將其拆分為兩個子任務(wù),分別是:詞語新譯法發(fā)現(xiàn)和詞語譯文挖掘,并將二者融合進行一體化研究,最終還將挖掘的詞語新譯應用在機器翻譯實際場景中。本文的具體研究內(nèi)容如下:
(1)在詞語新譯法發(fā)現(xiàn)任務(wù)中,本文將其轉(zhuǎn)換為分類問題,判斷詞語是否存在新譯法。在原有方法基礎(chǔ)上對特征加以改進,提出了基于豐富
3、特征的方法,引入了語言學特征,分別是目標語言、詞性和句法特征,這些特征更符合本文所要解決的新譯法發(fā)現(xiàn)任務(wù)的特點,能夠提高分類器的準確性。
(2)在詞語譯文挖掘任務(wù)中,本文對基于分布表示的方法加以改進,提出了基于神經(jīng)網(wǎng)絡(luò)的方法。首先對詞語進行聚類,然后在每個類別中利用神經(jīng)網(wǎng)絡(luò)來代替線性函數(shù),挖掘詞語向量表示之間的映射關(guān)系。所有操作都是在單語語料庫上進行。改進后能夠更好地挖掘同一語言詞語之間的關(guān)聯(lián),以及不同語言詞語之間的映射關(guān)系,
最新文檔
- 從語料庫中挖掘知識-北語
- 基于語料庫的公示語漢英翻譯.pdf
- 俄語語料庫和基于語料庫的語法研究.pdf
- 基于語料庫的英語程式語韻律特征研究
- 基于中介語語料庫“面對”的偏誤研究.pdf
- 基于語料庫的政治語篇立場狀語研究.pdf
- 基于語料庫的中英文非詞語化研究.pdf
- 基于語料庫的形容詞補足語研究.pdf
- 基于語料庫的空間維度形容詞語義研究.pdf
- 基于語料庫的公示語漢英功能翻譯研究.pdf
- 基于語料庫的大學生英語筆語中動詞語義韻對比研究.pdf
- 基于口語語料庫的話語標記語對比研究.pdf
- 基于《漢語大詞典》語料庫的唐代新詞語研究.pdf
- 基于語料庫對輪機英語中模糊語的研究.pdf
- 基于中介語語料庫的漢語介詞習得研究.pdf
- 基于語料庫的話語標記語So的語用研究.pdf
- 基于語料庫方法的翻譯教學研究.pdf
- 基于語料庫的不同語域下英、漢特征譯語比較研究:共性與個性的視角.pdf
- 基于語料庫的歌聲合成方法.pdf
- 基于語料庫的中美英語新聞?wù)Z篇立場標記語研究.pdf
評論
0/150
提交評論