-
簡(jiǎn)介:隨著計(jì)算機(jī)技術(shù)的進(jìn)步和其他相關(guān)學(xué)科的發(fā)展,語(yǔ)音合成技術(shù)有了迅猛的發(fā)展,涌現(xiàn)了大量的新理論和新技術(shù)。與此同時(shí)人們對(duì)語(yǔ)音合成提出了更高要求。人類(lèi)對(duì)語(yǔ)言的理解是多模態(tài)的,不儀聽(tīng)語(yǔ)音,而且用眼睛去觀察說(shuō)話(huà)人的面部表情。如果在合成語(yǔ)音的同時(shí)能給出一個(gè)“講話(huà)的頭”,即可表現(xiàn)說(shuō)話(huà)者面部各器官動(dòng)作的頭像,可進(jìn)一步提高人機(jī)交互的友好性和方便性。本文的重點(diǎn)主要放在三維人臉模型的構(gòu)建和漢語(yǔ)語(yǔ)音視位的研究?jī)蓚€(gè)方面。首先利用第三方軟件建立人臉模型,在VC條件下使用OPENGLOPENGRAPHICSLIBRARY,即開(kāi)放性圖形庫(kù)編程完成模型的讀取與重現(xiàn)。對(duì)于三維建模工具數(shù)據(jù)量較大的情況,采用細(xì)節(jié)層次算法進(jìn)行簡(jiǎn)化,刪除不必要的邊、線、面,得到人臉的最初模型,并在該模型的基礎(chǔ)上建立本文所需要的標(biāo)準(zhǔn)人臉模型。得到人臉模型后,給人臉模型加上紋理,使模型具有皮膚、眼睛、頭發(fā)等人臉特征,提高人臉的真實(shí)性。在語(yǔ)音的可視化方面,本文根據(jù)漢語(yǔ)拼音的構(gòu)成及發(fā)音時(shí)的唇動(dòng)特點(diǎn),首先定義一個(gè)基本口型集,包括11個(gè)基本口型(10個(gè)韻母口型和1個(gè)聲母口型),再根據(jù)該基本口型集,衍生一個(gè)韻母口型庫(kù),使每一個(gè)漢字在發(fā)音時(shí)都對(duì)應(yīng)著相應(yīng)的口型。為了口型描述的通用性和靈活性,采用了MPEG4所定義的FAP參數(shù)來(lái)描述基本口型。通過(guò)對(duì)人類(lèi)發(fā)音的研究,選擇了其中24個(gè)與發(fā)音有直接關(guān)系的FAP參數(shù)來(lái)描述基本口型。得到口型的FAP參數(shù)值后,利用FAP參數(shù)值驅(qū)動(dòng)三維人臉模型就可以得到相應(yīng)的口型,從而得到所需的漢語(yǔ)口型庫(kù)。為了驗(yàn)證合成質(zhì)量與效果,本文構(gòu)建了一個(gè)可視文語(yǔ)轉(zhuǎn)換系統(tǒng)TEXTTOVISUALSPEECHSYNTHESISSYSTEM,TTVS,并進(jìn)行了計(jì)算機(jī)仿真。通過(guò)聽(tīng)音測(cè)試,該系統(tǒng)的自然度較高。在視覺(jué)效果上,口型間的過(guò)渡比較自然,使得人機(jī)交互更加友好。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 66
大小: 1.86(MB)
子文件數(shù):
-
簡(jiǎn)介:隨著人機(jī)通信研究的不斷深入,語(yǔ)音合成技術(shù)越來(lái)越受到各國(guó)學(xué)者們的關(guān)注。語(yǔ)音合成系統(tǒng)要想提高其合成的語(yǔ)音的自然度,關(guān)鍵的第一步就是漢語(yǔ)自動(dòng)分詞問(wèn)題。漢語(yǔ)自動(dòng)分詞是中文信息處理中的重要課題,國(guó)內(nèi)外的許多學(xué)者在自動(dòng)分詞領(lǐng)域進(jìn)行了富有成效的工作,但是,在提高分詞精度的問(wèn)題上仍然存在著很大的困難。漢語(yǔ)自動(dòng)分詞,首先必須就影響漢語(yǔ)分詞精度的語(yǔ)言現(xiàn)象做針對(duì)性的研究,從本質(zhì)上把握問(wèn)題;其次,就是對(duì)分詞算法進(jìn)行有效的設(shè)計(jì)改進(jìn),提高其分詞能力;最后要對(duì)分詞過(guò)程中的信息和分詞后的處理進(jìn)行深入的研究。本文對(duì)自動(dòng)分詞問(wèn)題做了全面的分析研究,分析比較了當(dāng)前主流分詞算法的特點(diǎn),介紹了目前比較成熟的幾個(gè)分詞系統(tǒng),詳細(xì)闡述了自動(dòng)分詞問(wèn)題的難點(diǎn)之歧義切分的起源和處理方法;最后詳細(xì)說(shuō)明了根據(jù)語(yǔ)音輸出的實(shí)際需要設(shè)計(jì)的分詞系統(tǒng)的分詞詞典以及自動(dòng)分詞系統(tǒng)的具體設(shè)計(jì)和實(shí)現(xiàn)。實(shí)驗(yàn)表明,所實(shí)現(xiàn)的系統(tǒng)在分詞的準(zhǔn)確率和歧義切分等方面了都獲得了較好的結(jié)果。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 54
大?。?2.23(MB)
子文件數(shù):
-
簡(jiǎn)介:詞匯語(yǔ)義相似度計(jì)算作為中文信息處理中的一個(gè)關(guān)鍵問(wèn)題,國(guó)內(nèi)外眾多學(xué)者已對(duì)其開(kāi)展了廣泛而深入的研究,它是信息檢索、信息抽取、文本分類(lèi)、詞義排歧和機(jī)器翻譯等重點(diǎn)研究領(lǐng)域的基礎(chǔ)之一?,F(xiàn)今對(duì)詞匯語(yǔ)義相似度的計(jì)算方法主要分為兩種,分別是基于規(guī)則和基于統(tǒng)計(jì)的方法。但是這些方法主要依據(jù)詞與詞之間在語(yǔ)義詞典中的距離或是在統(tǒng)計(jì)語(yǔ)料中的相關(guān)性,都未能從漢語(yǔ)的內(nèi)涵出發(fā)。本文提出一種新的相似度計(jì)算方法,該方法從概念層面上來(lái)解讀兩個(gè)詞語(yǔ)之間的相似性,并在此基礎(chǔ)上給出一個(gè)量化的相似度值。該方法首先將詞語(yǔ)的釋義項(xiàng)轉(zhuǎn)化為內(nèi)涵概念圖的形式,然后計(jì)算兩個(gè)內(nèi)涵概念圖之間的相似程度,從而求得詞語(yǔ)語(yǔ)義相似度的值。本文的主要貢獻(xiàn)如下第一,根據(jù)概念圖的理論,提出了構(gòu)造詞語(yǔ)內(nèi)涵概念圖的方法。內(nèi)涵概念圖的構(gòu)造過(guò)程分為如下幾個(gè)步驟釋義項(xiàng)獲取、概念分析、知識(shí)提取和概念圖的構(gòu)建標(biāo)引。第二,根據(jù)詞語(yǔ)的內(nèi)涵釋義項(xiàng)提出了一種基于義原集的詞匯語(yǔ)義相似度計(jì)算方法。該方法是后續(xù)計(jì)算概念圖之間相似度的基礎(chǔ),用作概念圖中節(jié)點(diǎn)之間的相似度計(jì)算。第三,在概念節(jié)點(diǎn)間相似度可求的前提下,我們提出了計(jì)算概念圖全局相似度的方法。首先對(duì)所選領(lǐng)域的詞進(jìn)行概念圖標(biāo)引,然后抽取一定數(shù)量的能夠完備表述該領(lǐng)域詞語(yǔ)內(nèi)涵的屬性名作為概念圖展開(kāi)的框架,最后調(diào)用本文所提出的遞歸算法對(duì)兩個(gè)詞語(yǔ)的概念圖進(jìn)行全局相似度計(jì)算。最后,為了驗(yàn)證本文相似度計(jì)算方法的有效性,本文把語(yǔ)義相識(shí)度計(jì)算運(yùn)用到網(wǎng)頁(yè)聚類(lèi)領(lǐng)域。通過(guò)對(duì)聚類(lèi)結(jié)果的分析,我們發(fā)現(xiàn)該方法的效果是顯著的。本文的研究給詞匯語(yǔ)義相似度的計(jì)算提出了一種新的嘗試和方法,從內(nèi)涵概念圖層次上分析詞匯相似度,為今后開(kāi)發(fā)新一代中文搜索引擎提供了有效的技術(shù)支持,是語(yǔ)言工程的重要組成部分。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 65
大小: 0.79(MB)
子文件數(shù):
-
簡(jiǎn)介:學(xué)位論文使用授權(quán)書(shū)根據(jù)中央民族大學(xué)關(guān)于研究生學(xué)位論文收藏和利用管理辦法,我校的博士、碩二E學(xué)位獲得者均須向中央民族大學(xué)提交本人的學(xué)位論文紙質(zhì)本及相應(yīng)電子版。本人完全了解中央民族大學(xué)有關(guān)研究生學(xué)位論文收藏和利用的管理規(guī)定。中央民族大學(xué)擁有在著作權(quán)法規(guī)定范圍內(nèi)的學(xué)位論文使用權(quán),即1學(xué)位獲得者必須按規(guī)定提交學(xué)位論文包括紙質(zhì)印刷本及電子版;2為教學(xué)和科研目的,學(xué)??梢詫⒐_(kāi)的學(xué)位論文作為資料在圖書(shū)館等場(chǎng)所提供校內(nèi)師生閱讀等服務(wù)3根據(jù)教育部有關(guān)規(guī)定,中央民族大學(xué)向教育部指定單位提交公開(kāi)的學(xué)位論文;4學(xué)位論文作者授權(quán)學(xué)校向中國(guó)科技信息研究所及其萬(wàn)方數(shù)據(jù)電子出版社和中國(guó)學(xué)術(shù)期刊光盤(pán)電子出版社提交規(guī)定范圍的學(xué)位論文及其電子版并收入相應(yīng)學(xué)位論文數(shù)據(jù)庫(kù),通過(guò)其相關(guān)網(wǎng)站對(duì)外進(jìn)行信息服務(wù)。同時(shí)本人保留在其他媒體發(fā)表論文的權(quán)利。本人承諾本人的學(xué)位論文是在中央民族大學(xué)學(xué)習(xí)期間創(chuàng)作完成的作品,并已通過(guò)論文答辯;提交的學(xué)位論文電子版與紙質(zhì)本論文的內(nèi)容一致,如因不同造成不良后果由本人自負(fù)。本人同意遵守上述規(guī)定。保密的學(xué)位論文在解密后適用本授權(quán)書(shū),本論文口不保密,口保密期限至年月I匕作者暨授權(quán)人簽字馬靖20,午年?duì)幵录慈諏W(xué)位論文原創(chuàng)性聲明本人鄭重聲明所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下進(jìn)行研究工作所取得的研究成果。除文中已經(jīng)注明引用的內(nèi)容外,本學(xué)位論文的研究成果不包含任何他人創(chuàng)作的、已公開(kāi)發(fā)表或者沒(méi)有公開(kāi)發(fā)表的作品的內(nèi)容。對(duì)本論文所涉及的研究工作做出貢獻(xiàn)的其他個(gè)人和集體,均已在文中以明確方式標(biāo)明。本學(xué)位論文原創(chuàng)性聲明的法律責(zé)任由本人承擔(dān)。學(xué)位論文作者簽字與也莆20,陣年月≥O日類(lèi)詞匯的特點(diǎn)設(shè)立了現(xiàn)代漢語(yǔ)心理活動(dòng)類(lèi)基本層次范疇詞的提取標(biāo)準(zhǔn)“完形”和“心理認(rèn)知的易辨性”。心理活動(dòng)類(lèi)基本層次范疇詞的“完形”表現(xiàn)為內(nèi)在的、心理上的感覺(jué)經(jīng)驗(yàn)或感受,甚|在聽(tīng)到或看到該詞語(yǔ)時(shí),我們能夠在大腦中反應(yīng)出某種感覺(jué)經(jīng)驗(yàn)或者心理感受。這種感覺(jué)經(jīng)驗(yàn)或心理感受是作為一個(gè)“整體”被認(rèn)知,不是對(duì)局部、細(xì)節(jié)的關(guān)注和注意。本文在提取出74個(gè)基層詞的基礎(chǔ)上,分析了心理活動(dòng)類(lèi)基本層次范疇詞匯的詞義、詞長(zhǎng)、構(gòu)詞特點(diǎn)以及單音節(jié)心理活動(dòng)類(lèi)基本層次范疇詞匯的構(gòu)詞能力。從詞義的角度來(lái)看,現(xiàn)代漢語(yǔ)心理活動(dòng)類(lèi)基層詞的概念內(nèi)容在充當(dāng)謂語(yǔ)中心語(yǔ)的謂詞性結(jié)構(gòu)中,同表示心理活動(dòng)有關(guān)的各種語(yǔ)義因素,顯示的最清楚。從詞長(zhǎng)的角度來(lái)看,在雙音節(jié)詞占優(yōu)勢(shì)的現(xiàn)代漢語(yǔ)心理活動(dòng)類(lèi)動(dòng)詞中,單音節(jié)詞較雙音節(jié)詞更具有成為基層詞的能力。從構(gòu)詞法的角度來(lái)看,現(xiàn)代漢語(yǔ)心理活動(dòng)類(lèi)基層詞中,合成詞占有較大的比重,單音節(jié)詞所占的比重相對(duì)較小。合成詞中聯(lián)合、偏正、補(bǔ)充、動(dòng)賓結(jié)構(gòu)均有涉及,其中聯(lián)合結(jié)構(gòu)的基層詞最多。從能產(chǎn)性的角度來(lái)說(shuō),現(xiàn)代漢語(yǔ)心理活動(dòng)類(lèi)基層詞中,僅單音節(jié)基層詞具有構(gòu)詞能力,且構(gòu)詞能力具有差異性。從隱喻和轉(zhuǎn)喻的情況來(lái)看,現(xiàn)代漢語(yǔ)基層詞的隱喻和轉(zhuǎn)喻能力差,主要是因?yàn)樾睦砘顒?dòng)類(lèi)動(dòng)詞本身具有較高的抽象性。關(guān)鍵詞現(xiàn)代漢語(yǔ);基本層次范疇詞匯;心理活動(dòng)
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 88
大?。?3.62(MB)
子文件數(shù):
-
簡(jiǎn)介:中圖分類(lèi)號(hào)1046UDC800密級(jí)學(xué)校代碼訝4£解為尤學(xué)碩士學(xué)位論文學(xué)歷碩士公開(kāi)10094THETRANSLATIONOFHUMOROUSPUNSACASESTUDYONTHECHINESESUBTITLINGOFMODERNFAMILYFROMTHEPERSPECTIVEOFRELEVANCETHEORY幽默雙關(guān)語(yǔ)的翻譯關(guān)聯(lián)理論視角下摩登家庭漢語(yǔ)字幕翻譯案例研究作者姓名指導(dǎo)教師學(xué)科專(zhuān)業(yè)名稱(chēng)研究方向論文開(kāi)題日期宋麗劉榮強(qiáng)副教授英語(yǔ)語(yǔ)言文學(xué)翻譯理論與實(shí)踐2014年5月6日學(xué)位論文原創(chuàng)性聲明本人所提交的學(xué)位論文“THETRANSLATIONOFHUMOROUSPUNSACASESTUDYONTHECHINESESUBTITLINGOFMODERNFAMILYFROMTHEPERSPECTIVEOFRELEVANCETHEORY”,是在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的原創(chuàng)性成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中標(biāo)明。本聲明的法律后果由本人承擔(dān)。論文作者簽名Y肝伽∥日指導(dǎo)教師確認(rèn)簽名倒,沙岱年6月V日學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解河北師范大學(xué)有權(quán)保留并向國(guó)家有關(guān)部門(mén)或機(jī)構(gòu)送交學(xué)位論文的復(fù)印件和磁盤(pán),允許論文被查閱和借閱。本人授權(quán)河北師范大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或其它復(fù)制手段保存、匯編學(xué)位論文。保密的學(xué)位論文在年解密后適用本授權(quán)書(shū)論文作者簽名沙侈年6月V日舯獅。㈣糾礅沙岱年舌月∥日/III
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 57
大小: 1.76(MB)
子文件數(shù):
-
簡(jiǎn)介:書(shū)面漢語(yǔ)自動(dòng)分詞是中文信息處理中的重要步驟,它是文本校對(duì)、機(jī)器翻譯、文本分類(lèi)、文本檢索、計(jì)算機(jī)人機(jī)接口等諸多中文信息應(yīng)用領(lǐng)域的基礎(chǔ)。目前漢語(yǔ)自動(dòng)分詞方法主要包括基于字符串匹配的方法、基于統(tǒng)計(jì)的方法和基于理解的方法。本文在深入分析現(xiàn)有自動(dòng)分詞算法的基礎(chǔ)上,著重研究了基于字符串匹配的漢語(yǔ)自動(dòng)分詞算法,引入最大匹配法預(yù)處理分詞,同時(shí)運(yùn)用統(tǒng)計(jì)方法進(jìn)行歧義切分和未登錄詞識(shí)別。根據(jù)漢語(yǔ)中二字詞較多的特點(diǎn),給出一種改進(jìn)的自動(dòng)分詞詞典機(jī)制,該機(jī)制在詞典數(shù)據(jù)結(jié)構(gòu)中增加二字詞檢測(cè)位圖表。在此基礎(chǔ)上,對(duì)最大匹配分詞算法進(jìn)行改進(jìn),實(shí)現(xiàn)了一種基于二字詞檢測(cè)位圖表的最大匹配分詞算法,本算法利用二字詞檢測(cè)位圖表快速判斷二字詞,減少詞典匹配次數(shù),以提高自動(dòng)分詞速度。針對(duì)偽歧義型高頻最大交集型歧義字段在大型語(yǔ)料庫(kù)中表現(xiàn)出較強(qiáng)的穩(wěn)定性和一定的覆蓋能力,歧義處理著重于研究該類(lèi)歧義字段的自動(dòng)獲取,將它們的正確切分形式記錄到歧義庫(kù)中,其歧義消解通過(guò)直接查表實(shí)現(xiàn),這在本質(zhì)上是一種基于記憶的策略。未登錄詞識(shí)別技術(shù)研究著眼于WEB資源中未登錄詞的獲取,并提出一種基于WEB查詢(xún)?nèi)罩镜奈吹卿浽~識(shí)別算法,本算法分析WEB查詢(xún)?nèi)罩镜乃阉麝P(guān)鍵字頻度表識(shí)別未登錄詞?;谏鲜鲅芯拷Y(jié)果,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向?qū)嶋H應(yīng)用的書(shū)面漢語(yǔ)自動(dòng)分詞系統(tǒng)。實(shí)驗(yàn)結(jié)果表明在相同條件下,基于二字詞檢測(cè)位圖表的最大匹配分詞算法較原算法分詞速度更快。利用卡耐基梅隆大學(xué)分詞評(píng)估系統(tǒng)進(jìn)行評(píng)測(cè),評(píng)測(cè)結(jié)果表明,基于二字詞檢測(cè)位圖表的最大匹配分詞算法的查準(zhǔn)率提高了357%,F(xiàn)1測(cè)度提高了001,較原算法具有更好的性能。系統(tǒng)還具有較好的穩(wěn)定性。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 66
大?。?2.49(MB)
子文件數(shù):
-
簡(jiǎn)介:隨著當(dāng)今社會(huì)的快速發(fā)展語(yǔ)音合成技術(shù)已經(jīng)滲透到了社會(huì)生活中的各個(gè)方面。為了使合成語(yǔ)音的自然度能夠進(jìn)一步提高本文研究了在語(yǔ)音合成技術(shù)中占據(jù)重要地位的韻律結(jié)構(gòu)預(yù)測(cè)問(wèn)題。在漢語(yǔ)韻律結(jié)構(gòu)的研究中的一大難點(diǎn)是對(duì)漢語(yǔ)韻律短語(yǔ)的預(yù)測(cè)問(wèn)題。本文在綜合考察了目前應(yīng)用在漢語(yǔ)韻律短語(yǔ)預(yù)測(cè)任務(wù)中的幾種機(jī)器學(xué)習(xí)方法后提出了一種基于條件隨機(jī)場(chǎng)模型的漢語(yǔ)韻律短語(yǔ)邊界預(yù)測(cè)方法;同時(shí)為了減少標(biāo)注訓(xùn)練語(yǔ)料庫(kù)所需要的大量時(shí)間和人力本文引入了一種應(yīng)用于條件隨機(jī)場(chǎng)模型的半監(jiān)督學(xué)習(xí)方法并實(shí)現(xiàn)了一個(gè)全自動(dòng)的漢語(yǔ)韻律短語(yǔ)邊界預(yù)測(cè)的原型系統(tǒng)。當(dāng)前在漢語(yǔ)韻律短語(yǔ)邊界的預(yù)測(cè)任務(wù)中使用最廣泛的是隱馬爾科夫模型和最大熵馬爾科夫模型。本文采用的條件隨機(jī)場(chǎng)模型CONDITIONALROMFIELDSCRFS結(jié)合了隱馬爾科夫模型和最大熵馬爾科夫模型的優(yōu)點(diǎn)同時(shí)CRFS還可以克服隱馬爾科夫模型中的嚴(yán)格獨(dú)立假設(shè)以及最大熵馬爾科夫模型中的標(biāo)注偏置問(wèn)題。目前CRFS已被應(yīng)用于一些自然語(yǔ)言處理任務(wù)中如詞性標(biāo)注、中文命名體識(shí)別等。本文對(duì)條件隨機(jī)場(chǎng)模型和最大熵馬爾科夫模型進(jìn)行了實(shí)驗(yàn)比較得出的結(jié)論是在使用相同特征模板的情況下條件隨機(jī)場(chǎng)模型更適合于漢語(yǔ)韻律短語(yǔ)邊界的預(yù)測(cè)。傳統(tǒng)的機(jī)器學(xué)習(xí)方法都是在大規(guī)模訓(xùn)練數(shù)據(jù)集的基礎(chǔ)上進(jìn)行訓(xùn)練的而對(duì)訓(xùn)練集進(jìn)行人工標(biāo)注需要花費(fèi)大量的時(shí)間以及人力目前可直接使用于漢語(yǔ)語(yǔ)音合成中的資源又非常有限。因此本文基于半監(jiān)督學(xué)習(xí)的思想引入了一種可以應(yīng)用于條件隨機(jī)場(chǎng)模型的半監(jiān)督學(xué)習(xí)方法將該方法應(yīng)用于漢語(yǔ)韻律短語(yǔ)邊界的預(yù)測(cè)任務(wù)中并且最終實(shí)現(xiàn)了一個(gè)全自動(dòng)的漢語(yǔ)韻律短語(yǔ)邊界預(yù)測(cè)系統(tǒng)原型。本系統(tǒng)可使用少量的已標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練首先對(duì)已標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練利用訓(xùn)練所得的模型對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)測(cè)從預(yù)測(cè)結(jié)果中挑選出一部分有效數(shù)據(jù)加入訓(xùn)練集然后進(jìn)行下一輪訓(xùn)練如此不斷迭代下去直到最終訓(xùn)練出用戶(hù)滿(mǎn)意的模型。多組實(shí)驗(yàn)表明應(yīng)用該方法可以有效提高模型在同等規(guī)模訓(xùn)練集上訓(xùn)練得到的預(yù)測(cè)準(zhǔn)確率從而達(dá)到在大大降低人工工作量的基礎(chǔ)上利用少量已標(biāo)注數(shù)據(jù)完成對(duì)漢語(yǔ)韻律短語(yǔ)邊界的預(yù)測(cè)。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 77
大?。?2.67(MB)
子文件數(shù):
-
簡(jiǎn)介:語(yǔ)音識(shí)別最直接的目的是讓計(jì)算機(jī)聽(tīng)懂人說(shuō)的話(huà)。經(jīng)過(guò)半個(gè)多世紀(jì)的發(fā)展,語(yǔ)音識(shí)別理論已趨近成熟。大量的實(shí)驗(yàn)結(jié)果和實(shí)踐操作證明,目前很多語(yǔ)音識(shí)別算法和識(shí)別模型非常有效。語(yǔ)音識(shí)別技術(shù)己被廣泛應(yīng)用于各行各業(yè)中。本文主要探究了語(yǔ)音識(shí)別理論在漢語(yǔ)連續(xù)語(yǔ)音識(shí)別中的應(yīng)用。本文先介紹了語(yǔ)音識(shí)別系統(tǒng)的基本流程,語(yǔ)音信號(hào)處理的基本理論并且重點(diǎn)探討了端點(diǎn)檢測(cè)、特征參數(shù)提取的方法和原理。然后再?gòu)囊韵聝煞矫鎸?duì)漢語(yǔ)連續(xù)語(yǔ)音識(shí)別的方法、原理進(jìn)行深入的闡述一方面從模式識(shí)別的研究角度,探討了漢語(yǔ)語(yǔ)音的發(fā)音特點(diǎn),提取了適合漢語(yǔ)語(yǔ)音識(shí)別的特征參數(shù),訓(xùn)練了相應(yīng)的語(yǔ)音識(shí)別模型,并且建立了漢語(yǔ)連續(xù)語(yǔ)音識(shí)別實(shí)驗(yàn)平臺(tái)。本文基于隱馬爾可夫模型HMM的連續(xù)語(yǔ)音訓(xùn)練和識(shí)別算法理論,結(jié)合美爾頻率倒譜系數(shù)MFCC提取技術(shù),單音素HMM建模技術(shù),基于上下文相關(guān)的三音素HMM建模技術(shù)以及基于維特比算法的識(shí)別技術(shù)等一系列技術(shù),利用隱馬爾可夫模型工具箱HTK構(gòu)建了基于HTK的連續(xù)語(yǔ)音識(shí)別實(shí)驗(yàn)平臺(tái)。實(shí)驗(yàn)結(jié)果表明,隨著HMM從單音素建模到三音素建模的轉(zhuǎn)換,測(cè)試語(yǔ)句在語(yǔ)句級(jí)和字詞級(jí)的識(shí)別率都呈增加的趨勢(shì),捆綁三音素后識(shí)別率達(dá)到穩(wěn)定狀態(tài)。語(yǔ)句級(jí)和字詞級(jí)的識(shí)別率分別由開(kāi)始的7600%和9067%提高到最后的9600%和9800%,識(shí)別效果非常理想。另一方面從語(yǔ)音識(shí)別軟件開(kāi)發(fā)的角度,設(shè)計(jì)和實(shí)現(xiàn)了漢語(yǔ)連續(xù)語(yǔ)音識(shí)別售票模擬系統(tǒng)。文中先介紹了HTK接口應(yīng)用程序ATKANAPPLICATIONTOOLKITFHTK的基本組成和基本原理,接著利用ATK在平臺(tái)上實(shí)現(xiàn)了漢語(yǔ)連續(xù)語(yǔ)音識(shí)別售票模擬系統(tǒng),最后進(jìn)行了相應(yīng)的平臺(tái)測(cè)試。測(cè)試結(jié)果表明它基本實(shí)現(xiàn)一個(gè)初級(jí)漢語(yǔ)語(yǔ)音識(shí)別售票系統(tǒng)的功能。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 72
大小: 11.56(MB)
子文件數(shù):
-
簡(jiǎn)介:漢語(yǔ)語(yǔ)句相似度計(jì)算在機(jī)器翻譯、信息檢索等很多領(lǐng)域都具有廣泛的應(yīng)用前景,因此,一直是相關(guān)產(chǎn)業(yè)和學(xué)術(shù)界高度關(guān)注的重要的研究課題。目前,比較流行的漢語(yǔ)語(yǔ)句相似度計(jì)算方法主要是基于向量空間模型VSM和基于語(yǔ)義的方法,上述方法只考慮了句子的某一方面,比如詞形或語(yǔ)義,難以取得滿(mǎn)意的相似度計(jì)算結(jié)果。本文針對(duì)目前漢語(yǔ)句子相似度計(jì)算方法存在的主要問(wèn)題,充分利用漢語(yǔ)語(yǔ)句的多種信息,研究多因素融合的漢語(yǔ)句子相似度計(jì)算方法,并將其應(yīng)用到題庫(kù)建設(shè)中,以避免大量相似試題的產(chǎn)生,保證題庫(kù)的質(zhì)量。主要的研究?jī)?nèi)容和成果如下。1提出了多因素融合的漢語(yǔ)句子相似度的計(jì)算方法。該方法將句子整體上分為三個(gè)層面詞形、語(yǔ)義、結(jié)構(gòu)。首先單獨(dú)計(jì)算每個(gè)層面的相似度,最后,將這三個(gè)層面的相似度設(shè)置不同的權(quán)重,通過(guò)加權(quán)得到了整個(gè)句子的相似度計(jì)算公式。通過(guò)該方法能夠更好的刻畫(huà)句子的特征,從而能夠取得更好的相似度計(jì)算結(jié)果。2設(shè)計(jì)了對(duì)比實(shí)驗(yàn)。在實(shí)驗(yàn)中,本文設(shè)置了三組詞形、語(yǔ)義及結(jié)構(gòu)相似度權(quán)重因子的組合,通過(guò)計(jì)算測(cè)試集中的句子與用戶(hù)需要檢索的句子之間的相似度,得到了相似度計(jì)算結(jié)果最好的權(quán)重因子組合。從準(zhǔn)確率、召回率與F1值三個(gè)方面,與傳統(tǒng)的基于向量空間的相似度方法以及單純的基于語(yǔ)義的相似度計(jì)算方法進(jìn)行了對(duì)比實(shí)驗(yàn),證明了本文方法的有效性。3設(shè)計(jì)了一個(gè)小型的題庫(kù)管理系統(tǒng)。將本文中提出的多因素融合的句子相似度計(jì)算方法封裝成一個(gè)搜索引擎,將其應(yīng)用到題庫(kù)建設(shè)中,用戶(hù)在向題庫(kù)中輸入題目時(shí),首先檢測(cè)該題目和題庫(kù)中已有題目的相似度,并將相似度大于05的題目看成是相似的題目,說(shuō)明題庫(kù)中已存在類(lèi)似的題目,并照相似度由大到小的順利展示給用戶(hù),也從應(yīng)用的角度驗(yàn)證了本文的價(jià)值。本文提出的多因素融合的句子相似度計(jì)算方法取得了較好的相似度計(jì)算結(jié)果,對(duì)于建設(shè)高質(zhì)量的題庫(kù)具有較高的應(yīng)用價(jià)值,對(duì)于進(jìn)一步研究漢語(yǔ)句子的相似度計(jì)算方法具有一定的理論參考價(jià)值。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 55
大小: 3.68(MB)
子文件數(shù):
-
簡(jiǎn)介:驗(yàn)證碼技術(shù)是當(dāng)今計(jì)算機(jī)安全領(lǐng)域與人機(jī)交互領(lǐng)域的前沿課題之一,在互聯(lián)網(wǎng)領(lǐng)域有著廣泛的應(yīng)用。日常使用的驗(yàn)證碼大部分是基于視覺(jué)圖片驗(yàn)證碼方式,給殘疾人中的視力障礙者造成了很多不便。由于目前互聯(lián)網(wǎng)上將語(yǔ)音驗(yàn)證碼作為常規(guī)功能網(wǎng)站的較少,并且相關(guān)語(yǔ)音驗(yàn)證碼都是以英文信息為基礎(chǔ)的,對(duì)我國(guó)國(guó)內(nèi)大部分視力障礙者和部分外語(yǔ)程度不高的群體造成很多不便。殘疾人是社會(huì)上特殊困難的群體,殘疾人事業(yè)是我國(guó)社會(huì)主義現(xiàn)代化事業(yè)的重要組成部分。無(wú)障礙環(huán)境是殘疾人參與社會(huì)生活的重要保證,信息無(wú)障礙作為無(wú)障礙環(huán)境的核心內(nèi)容,理應(yīng)受到社會(huì)廣泛重視與關(guān)懷。驗(yàn)證碼作為互聯(lián)網(wǎng)的窗口技術(shù),已經(jīng)成為互聯(lián)網(wǎng)技術(shù)與信息無(wú)障礙課題交叉領(lǐng)域中的一個(gè)重要課題,必須能夠既滿(mǎn)足健全人類(lèi)群體的需求又能夠適用于殘疾人群體?;诖?,本文首先引入了語(yǔ)音驗(yàn)證碼的概念,提出了漢語(yǔ)語(yǔ)音驗(yàn)證碼這一研究課題。此課題的研究需要考慮到兩個(gè)重要的因素,即漢語(yǔ)語(yǔ)音驗(yàn)證碼魯棒性和實(shí)用性。本文首先收集純凈語(yǔ)音文件,并依次將其進(jìn)行變調(diào)、混合背景噪音與調(diào)整信噪比處理,從而生成漢語(yǔ)語(yǔ)音驗(yàn)證碼。在驗(yàn)證碼生成后,本文使用三種常用語(yǔ)音分類(lèi)識(shí)別算法,對(duì)漢語(yǔ)語(yǔ)音驗(yàn)證碼進(jìn)行性能測(cè)試,并將相同測(cè)試樣本通過(guò)實(shí)驗(yàn)者進(jìn)行人工識(shí)別。將兩種測(cè)試所得到的數(shù)據(jù)進(jìn)行分析研究,確定其中最適合人類(lèi)使用的漢語(yǔ)語(yǔ)音驗(yàn)證碼生成方法,從而解決了信息無(wú)障礙與驗(yàn)證碼技術(shù)中存在的問(wèn)題。最后本文將研究結(jié)果基于WEBSERVICE平臺(tái)在殘疾人網(wǎng)上家園網(wǎng)站中進(jìn)行了應(yīng)用展示。本文的主要研究工作和貢獻(xiàn)如下1率先提出漢語(yǔ)語(yǔ)音驗(yàn)證碼混合加噪技術(shù)。適用于中國(guó)國(guó)內(nèi)視力障礙者和健全大眾群體的驗(yàn)證碼一直是一個(gè)空缺,漢語(yǔ)語(yǔ)音驗(yàn)證碼的提出很好的解決了這一問(wèn)題。2提出基于真人語(yǔ)音庫(kù)的漢語(yǔ)語(yǔ)音驗(yàn)證碼技術(shù)。采用多種生成方法生成漢語(yǔ)語(yǔ)音驗(yàn)證碼。3提出基于多識(shí)別器和人工識(shí)別的漢語(yǔ)語(yǔ)音驗(yàn)證碼性能測(cè)試技術(shù)。對(duì)漢語(yǔ)語(yǔ)音驗(yàn)證碼進(jìn)行性能測(cè)試,并將測(cè)試結(jié)果進(jìn)行數(shù)據(jù)分析,根據(jù)分析結(jié)果得出最符合本文要求的漢語(yǔ)語(yǔ)音驗(yàn)證碼生成方法。4提出將研究結(jié)果在WEBSERVICE中進(jìn)行部署的方法。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 68
大?。?2.46(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 48
大小: 1.26(MB)
子文件數(shù):
-
簡(jiǎn)介:漢語(yǔ)句法分析是中文信息處理的關(guān)鍵技術(shù),是對(duì)漢語(yǔ)進(jìn)行深層次理解的基礎(chǔ)。句法分析性能的提高對(duì)于機(jī)器翻譯、信息檢索、信息抽取等應(yīng)用技術(shù)性能的提高都會(huì)有巨大的推動(dòng)作用。目前漢語(yǔ)句法分析技術(shù)還不能滿(mǎn)足中文信息處理的要求,所以對(duì)漢語(yǔ)句法分析的研究具有重要的實(shí)際意義。本文提出了一種基于最長(zhǎng)名詞短語(yǔ)前處理的統(tǒng)計(jì)句法分析方法,將最長(zhǎng)名詞短語(yǔ)的識(shí)別與分析從句法分析中獨(dú)立出來(lái),同時(shí)使用基于語(yǔ)料庫(kù)的統(tǒng)計(jì)學(xué)習(xí)方法,對(duì)漢語(yǔ)句法分析技術(shù)進(jìn)行了探索。本文工作分三部分進(jìn)行,具體內(nèi)容如下首先,進(jìn)行了對(duì)最長(zhǎng)名詞短語(yǔ)的分析工作。最長(zhǎng)名詞短語(yǔ)是名詞短語(yǔ)中最重要的一類(lèi),它的識(shí)別與分析可以更好的幫助人們理解自然語(yǔ)言中的句子。由于傳統(tǒng)的句法分析對(duì)最長(zhǎng)名詞短語(yǔ)的處理不夠理想,本文對(duì)最長(zhǎng)名詞短語(yǔ)進(jìn)行專(zhuān)門(mén)處理,以降低句法分析的復(fù)雜度。根據(jù)漢語(yǔ)最長(zhǎng)名詞短語(yǔ)的句法特點(diǎn),本文提出了一種基于CHUNKPARSING的最長(zhǎng)名詞短語(yǔ)分析方法,有效的提高了最長(zhǎng)名詞短語(yǔ)的分析效果,解決了最長(zhǎng)名詞短語(yǔ)對(duì)句法分析的影響。其次,提出了一種基于層疊條件隨機(jī)場(chǎng)模型的漢語(yǔ)句法分析方法。與用一個(gè)單一模型來(lái)識(shí)別所有短語(yǔ)的方法不同,該方法將句法分析過(guò)程分解為兩個(gè)階段一是句子中句法單元的識(shí)別,二是句法單元之間關(guān)系的分析。這樣可以對(duì)不同的子問(wèn)題選用不同的模型和搜索策略進(jìn)行處理,同時(shí)也降低了句子分析的難度。本文選用層疊條件隨機(jī)場(chǎng)作為多層分析模型。最后,在解碼方式上本文使用局部最優(yōu)化的搜索算法對(duì)句子進(jìn)行解碼。該算法利用廣度優(yōu)先策略尋找局部最優(yōu)解,很好地緩解了傳統(tǒng)確定性分析算法中的錯(cuò)誤蔓延問(wèn)題。在第一屆漢語(yǔ)句法分析評(píng)測(cè)的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明基于層疊條件隨機(jī)場(chǎng)的漢語(yǔ)句法分析方法顯著提高了句法分析的精確率和召回率,有效降低了句法分析的復(fù)雜度,使系統(tǒng)處理文本的速度得到了提高。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 77
大?。?8.52(MB)
子文件數(shù):
-
簡(jiǎn)介:大連滲亨大學(xué)ⅧLILL|LWF2814611碩士學(xué)位論文船舶漢語(yǔ)主題詞表查詢(xún)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)張帆指導(dǎo)教師劉寧教授企業(yè)副導(dǎo)師崔國(guó)仕高級(jí)工程師申請(qǐng)學(xué)位級(jí)別專(zhuān)業(yè)名稱(chēng)學(xué)位授予單位大連海事大學(xué)2013年11月THEDESIGNANDIMPLEMENTATIONOFAQUERYSYSTEMINTHECHINESETHESAURUSOFVESSELSATHESISSUBMITTEDTODALIANMARITIMEUNIVERSITYLI|ILLIIIRLL1LLLIILLLILLIJY2445261INPARTIALFULFILLMENTOFTHE’REQUIREMENTSFORTHEDEGREEOFMASTEROFENGINEERINGBY●ZHANGFANSOFTWAREENGINEERINGTHESISSUPERVISORPROFESSORLIUNINGASSISTANTSUPERVISORSENIORENGINEERCUIGUOSHIOCTOBER2013
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 70
大?。?13.05(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 53
大小: 1.3(MB)
子文件數(shù):
-
簡(jiǎn)介:近年來(lái),漢語(yǔ)言語(yǔ)聽(tīng)力測(cè)試廣泛應(yīng)用于聽(tīng)力損失患者的臨床評(píng)估,目前對(duì)漢語(yǔ)測(cè)聽(tīng)材料進(jìn)行的等價(jià)性評(píng)估判斷測(cè)試詞表的聽(tīng)力難易程度是否相同方法多依賴(lài)于測(cè)試數(shù)據(jù)的大量采集,并且處理方法不統(tǒng)一,效果不甚理想。隨著對(duì)臨床應(yīng)用詞表小規(guī)?;男枨笤絹?lái)越強(qiáng)烈,在言語(yǔ)聽(tīng)力領(lǐng)域,迫切需要一種適于規(guī)范化,標(biāo)準(zhǔn)化,且容易實(shí)施的詞表難易度測(cè)算方法。為解決臨床言語(yǔ)聽(tīng)力測(cè)試材料的等價(jià)性評(píng)估問(wèn)題,須定量測(cè)算測(cè)試材料中的各單元,如音節(jié)、詞、句等的感知清晰度。本文以張家騄先生提出的條件概率模型22為基礎(chǔ),除考慮每個(gè)聲母、韻母音位的獨(dú)立貢獻(xiàn),還考察了聲調(diào)、音聯(lián)、詞頻等因素對(duì)單音節(jié)、雙音節(jié)詞的感知清晰度的影響。通過(guò)組織單音節(jié)和雙音節(jié)詞的測(cè)聽(tīng)試驗(yàn),獲得全通、LP1600、HP1600等傳遞條件下的音聯(lián)音位混淆矩陣和清晰度實(shí)測(cè)值,確定感知清晰度模型的頻度影響因子。模型計(jì)算值與試驗(yàn)實(shí)測(cè)值的比較顯示,新提出的過(guò)程感知模型與實(shí)測(cè)值具有更小的整體偏差程度和更顯著的相關(guān)性。論文完成的主要工作有1提出單音節(jié)詞整體感知模型。分析已有的獨(dú)立模型和張氏計(jì)算模型并對(duì)音節(jié)感知過(guò)程進(jìn)行再描述,考察除聲母清晰度、韻母清晰度和音節(jié)配列規(guī)則以外的感知影響因素,通過(guò)對(duì)閉音聯(lián)、聲調(diào)清晰度、音節(jié)頻度三個(gè)因素的細(xì)化提出初步改進(jìn)模型整體感知模型。2提出單音節(jié)詞過(guò)程感知模型。組織單音節(jié)詞測(cè)聽(tīng)試驗(yàn),利用試驗(yàn)數(shù)據(jù)驗(yàn)證整體感知模型的優(yōu)勢(shì),并分析該模型仍存在的不足,進(jìn)一步考察其它相近音位對(duì)發(fā)音內(nèi)容的干擾,利用音位混淆矩陣結(jié)合音節(jié)頻度來(lái)體現(xiàn)音節(jié)感知過(guò)程中被其它音節(jié)干擾的程度,提出進(jìn)一步的改進(jìn)模型過(guò)程感知模型。試驗(yàn)結(jié)果證明,過(guò)程感知模型在測(cè)聽(tīng)材料感知難易度計(jì)算的精度上有了進(jìn)一步的提高。3提出雙音節(jié)詞過(guò)程感知模型。組織雙音節(jié)詞測(cè)聽(tīng)試驗(yàn),考察調(diào)聯(lián)、音節(jié)音聯(lián)、詞頻三個(gè)因素對(duì)有意雙音節(jié)詞感知的影響,通過(guò)試驗(yàn)數(shù)據(jù)調(diào)整模型參數(shù),建立了能很好地反映實(shí)際感知難易度的雙音節(jié)詞過(guò)程感知模型,
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 144
大?。?13(MB)
子文件數(shù):