-
簡(jiǎn)介:隨著網(wǎng)絡(luò)信息技術(shù)的不斷發(fā)展,文本作為信息的重要載體也隨之大量涌現(xiàn),因而文本的自動(dòng)處理就成為了信息處理的一個(gè)重要領(lǐng)域。詞語和文本的相關(guān)度計(jì)算作為文本信息處理的重要研究方向,越來越多的被國內(nèi)外研究者所關(guān)注,同時(shí)它也是信息檢索、文本分類、詞義消歧、機(jī)器翻譯等多種自然語言處理技術(shù)的重要基礎(chǔ)。為了促進(jìn)自然語言處理技術(shù)的發(fā)展,研究詞語和文本相關(guān)度計(jì)算具有重要的理論意義和現(xiàn)實(shí)意義。本文提出了基于中文維基百科分類體系和文檔鏈接的詞語相關(guān)度計(jì)算方法。傳統(tǒng)的大部分漢語詞語相關(guān)度計(jì)算方法是基于知網(wǎng)(HOW)的。本文將中文維基百科作為語義資源,利用其分類層次、概念文檔之間的鏈接來計(jì)算漢語詞語之間的相關(guān)度。在借鑒向量空間模型和谷歌相似度(GOOGLESIMILARITYDISTANCE)計(jì)算方法基礎(chǔ)上,通過構(gòu)建分類圖和相關(guān)語義向量來實(shí)現(xiàn)漢語詞語相關(guān)度的計(jì)算。詞語的語義相關(guān)度可以利用到文本之間的相關(guān)度計(jì)算中,尤其對(duì)于短文本,短文本作為文本的一種,它具有獨(dú)特的語言特征,單條短文本長度一般都非常短,因此樣本特征非常稀疏,很難準(zhǔn)確抽取有效的語言特征,難以充分挖掘與利用特征之間的關(guān)聯(lián)性。本文綜合考慮短文本的結(jié)構(gòu)特點(diǎn),并且根據(jù)詞語語義相關(guān)度值,提出了最大序列算法和動(dòng)態(tài)權(quán)值算法。本文抽取了中文維基百科的文檔鏈接、分類體系、重定向鏈接等語義資源,實(shí)驗(yàn)測(cè)試分別使用測(cè)試集WDSIMILARITY353和新聞標(biāo)題等短文本語料對(duì)本文提出的基于中文維基百科的詞語相關(guān)度算法和短文本相關(guān)度算法進(jìn)行了實(shí)驗(yàn),并對(duì)測(cè)試結(jié)果進(jìn)行了分析。實(shí)驗(yàn)結(jié)果表明,本文的算法具有一定的可行性和有效性。最后對(duì)論文所做的工作進(jìn)行了總結(jié)與評(píng)述,并提煉了詞語和短文本相關(guān)度計(jì)算中值得繼續(xù)研究的若干問題,為以后的研究指明了方向。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 84
大?。?2.52(MB)
子文件數(shù):
-
簡(jiǎn)介:本文設(shè)計(jì)并實(shí)現(xiàn)了領(lǐng)域漢語理解中的智能分詞系統(tǒng)及其未登錄詞的識(shí)別模型,并將其應(yīng)用于產(chǎn)品的設(shè)計(jì)過程,依托整個(gè)領(lǐng)域漢語理解系統(tǒng)實(shí)現(xiàn)了以自然語言形式描述的用戶設(shè)計(jì)要求到計(jì)算機(jī)能夠識(shí)別的概念設(shè)計(jì)要求或設(shè)計(jì)參數(shù)的轉(zhuǎn)化。首先,分析了現(xiàn)有的分詞系統(tǒng)設(shè)計(jì)的優(yōu)點(diǎn)及其存在的不足,提出了基于系統(tǒng)論的機(jī)械分詞和基于語義理解的分詞相結(jié)合的智能分詞模型,并將此智能分詞模塊嵌入到整個(gè)領(lǐng)域漢語理解系統(tǒng)中。在機(jī)械分詞階段智能分詞系統(tǒng)提供了所有可能的分詞結(jié)果,并進(jìn)行詞法分析級(jí)別的歧義排除,在后續(xù)的漢語理解系統(tǒng)的語義分析模塊中排除存在語義歧義的分詞結(jié)果,最后利用體現(xiàn)其智能性的反饋模塊將理解結(jié)果反饋回分詞詞庫,實(shí)現(xiàn)分詞系統(tǒng)和整個(gè)自然語言理解系統(tǒng)的自我完善和良性互動(dòng)。其次,在未登錄詞識(shí)別模塊本文主要介紹了中文人名和機(jī)構(gòu)名的識(shí)別方法,提出了規(guī)則和統(tǒng)計(jì)相結(jié)合識(shí)別中文人名的方法,以及基于模板匹配識(shí)別機(jī)構(gòu)名的方法。最后,結(jié)合實(shí)際將領(lǐng)域漢語理解中智能分詞系統(tǒng)和未登錄詞識(shí)別模塊應(yīng)用于產(chǎn)品設(shè)計(jì)的用戶需求分析領(lǐng)域,通過系統(tǒng)測(cè)試,結(jié)果比較令人滿意。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 66
大?。?2.88(MB)
子文件數(shù):
-
簡(jiǎn)介:電子科技大學(xué)碩士學(xué)位論文漢語語句組塊及消歧的研究與實(shí)現(xiàn)姓名周美希申請(qǐng)學(xué)位級(jí)別碩士專業(yè)計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師左志宏20041214ABSTRACTNATURALLANGUAGEPROCESSINGISACROSS,F(xiàn)IELDSUBJECTTHATCOMBINEDWITHMULTIPLEDISCIPLINES,SUCHASLINGUISTICS,LOGIC,PHYSIOLOGYPSYCHOLOGYCOMPUTERSCIENCEANDMATHEMATICSETC,THEAIMOFNATURALLANGUAGEUNDERSTANDINGISTOLETTHECOMPUTERUNDERSTANDANDRESPONDHUMAN’SLANGUAGECORRECTLYASEXPECTED,ANDTOBUILDAFRIENDLYRELATIONSHIPBETWEENHUMANANDMACHINESOASTOREALIZEADVANCEDINFORMATIONTRANSFERANDRECOGNITIONACTIVITYWITHTHEPOPULARITYOFCOMPUTERANDINTEMET,ANDTHEONGOINGEVOLUTIONPROCESSFROMTRADITIONALDATAANDINFORMATIONPROCESSINGTOKNOWLEDGEPROCESSING,MOREPROFOUNDANDCOMPREHENSIVELANGUAGEPROCESSINGTECHNIQUESAREINCREASINGLYREQUIREDTOPROMOTETHESHAREOFINFORMATIONANDKNOWLEDGE,ANDNATURALLANGUAGEPROCESSINGHASBECOMETHEBOTTLENECKOFTHEDEVELOPMENTOFSOCIETYANDECONOMYUPTONOWRELEVANTRESEARCHESHAVEONLYMADECOMPUTERSUNDERSTANDTHEINFORMATIONOFLANGUAGECORRECTLYANDTHEINTELLIGENCEOFCOMPUTERISSTILLFARFROMTHELEVELOFUNDERSTANDINGNATURALLANGUAGEASWELLASMENUNLIKEWESTERNNATURALLANGUAGEPROCESSING,WHICHWASDEVELOPEDONANINDOEUROPEANFAMILYLANGUAGESBASISSAMEASTHECOMPUTERWAS,CHINESENATURALLANGUAGEPROCESSINGISPARTICULARLYDIFFICULTFORITSINHERENTLANGUAGEGAP,ANDTHEFEATUREOFFORMANDMEANINGCOMBINATIONANDLACKINGOFMETAMORPHISMBRINGMORECOMPLICATIONANDOBFUSCATIONTOCHINESENATURALLANGUAGEPROCESSINGINORDERTOUNDERSTANDACHINESESENTENCE,THECOMPUTERMUSTCONDUCTSYNTAXANALYZING,SEMANTICANALYZINGANDPRAGMATICANALYZINGRESPECTIVELYSOTHATAFORMULIZEDREPRESENTATIONOFTHESENTENCECALLBEPRODUCEDTHEPROCESSOFANALYZINGANDUNDERSTANDINGINCOMPUTERISAHIERARCHICALPROCESSTHATCANBEDIVIDEDINTOMORPHOLOGICSTEP,SYNTACTICSTEPANDSEMANTICSTEPTHEPRESENTMETHODOFSYNTAXANALYSISISBASEDONSTATISTICS,RULESORTHECOMBINATIONOFTHEMTHERESEARCHESONSEMANTICANALYSISBASEDONSYNTAX,ANDITFOCUSESONDEVELOPINGSEMANTICINFORMATIONDICTIONARYIDENTIFYINGTHECOMPONENTINTHESENTENCES,ANDSEARCHINGSTRUCTURERELATIONSANDMEANINGSAMONGCOMPONENTSTHESEMETHODSAREWIDELYUSED,BUTTHEYOFTENCAUSEAMBIGUITYANDMISUNDERSTANDINGOFTHESENTENCEBYDIVIDINGSENTENCESTRUCTUREANDSEMANTICSTHISPAPERPROPOSEDANEWMETHODTOANALYZESENTENCESANDDISAMBIGUATETHEHIERARCHICALSTRUCTUREANDSEMANTICRELATIONTHISMETHODBROKETHROUGHTHELIMITATIONOFANALYZINGSENTENCESONLYBYSYNTAXITUSESTHETHEORYOFTHREELINGUISTICASPECTS
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 70
大小: 1.71(MB)
子文件數(shù):
-
簡(jiǎn)介:在社會(huì)信息化程度日益提高的今天,專利已成為最大的科技信息載體,其在科研開發(fā)和技術(shù)創(chuàng)新上發(fā)揮著重要作用。怎樣有效利用其所包含著的爆炸式增長的各類專業(yè)信息資源,使專利在科研和專利業(yè)務(wù)的諸多方面發(fā)揮重要作用,是當(dāng)前漢語專利信息處理系統(tǒng)的重要挑戰(zhàn),而分詞技術(shù)是其重要的基礎(chǔ)工作,專利檢索、專利翻譯的工作都離不開漢語專利文獻(xiàn)的分詞技術(shù),分詞質(zhì)量的高低直接影響專利文獻(xiàn)應(yīng)用的效率。漢語分詞和詞性標(biāo)注工作已經(jīng)取得了非常豐碩的成果,但是,目前針對(duì)漢語專利文獻(xiàn)分詞研究的參考文獻(xiàn)數(shù)量不多,還沒有專門的面向?qū)@墨I(xiàn)的開源的分詞系統(tǒng)。本文根據(jù)專利文獻(xiàn)自身的特點(diǎn),提出了一種領(lǐng)域詞典與統(tǒng)計(jì)相結(jié)合的分詞方法,與現(xiàn)有的ICTCLAS分詞系統(tǒng)相比在專利領(lǐng)域內(nèi)切分取得了很高的準(zhǔn)確率與召回率,通過提取專業(yè)術(shù)語大大提高了未登錄詞的識(shí)別效率。針對(duì)專利文獻(xiàn)存在大量的未登錄專業(yè)術(shù)語導(dǎo)致的分詞精度下降,本文提出應(yīng)用NCVALUE算法抽取專業(yè)術(shù)語,使用條件隨機(jī)場(chǎng)模型CRF,構(gòu)建專利領(lǐng)域術(shù)語抽取模板,抽取出有意義的低頻率術(shù)語,提高專業(yè)術(shù)語識(shí)別率。與當(dāng)前主流術(shù)語抽取算法在專利語料上的比較結(jié)果顯示,該方法很好地解決了未登錄詞的識(shí)別問題,使分詞的性能提升了大約10個(gè)百分點(diǎn)以上。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 50
大小: 2.5(MB)
子文件數(shù):
-
簡(jiǎn)介:該文對(duì)漢語語音識(shí)別的統(tǒng)計(jì)建模方法和噪聲環(huán)境下帶噪語音的特性及其識(shí)別方法進(jìn)行了較深入和系統(tǒng)的研究其主要內(nèi)容包括以下幾個(gè)部分1提出了一種新兩步端點(diǎn)檢測(cè)方法2針對(duì)基本HMM最大似然訓(xùn)練方法中不合理的模型正確性假設(shè)前提提出了一種結(jié)合MLP的鑒別訓(xùn)練方法3以高斯白噪聲作為實(shí)際噪聲的理想化模型對(duì)其予以識(shí)別性能和純凈語音LPC倒譜特征的影響進(jìn)行了深入的研究4提出了一種新的基于多采樣率濾波的帶噪語音增強(qiáng)方法通過將聚類思想引入閾值設(shè)置實(shí)現(xiàn)了帶噪語音各頻帶分解信號(hào)去噪閾值的自適應(yīng)求取5討論了一種能夠有效抑制噪聲的參數(shù)估計(jì)方法矩陣懲罰方法并首次將之引入語音識(shí)別提出了一種基于矩陣懲罰的帶噪語音增強(qiáng)方法
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 75
大?。?2.14(MB)
子文件數(shù):
-
簡(jiǎn)介:本文的研究工作是面向自然語言處理并基于現(xiàn)代漢語框架網(wǎng)絡(luò)工程研究的一部分。本文承擔(dān)的研究工作主要集中在三個(gè)方面首先,以FILLME的框架語義學(xué)為基礎(chǔ)、基于語料庫的現(xiàn)代漢語框架網(wǎng)絡(luò)工程的構(gòu)建及其自動(dòng)句法語義角色標(biāo)注技術(shù)研究;其次,基于漢語框架網(wǎng)絡(luò)知識(shí)庫構(gòu)建中文閱讀理解語料庫;最后,中文閱讀理解問題回答任務(wù)研究等。全文共分五章。首先,明確自然語言語義分析的意義,確定本文的研究工作主要就是構(gòu)建現(xiàn)代漢語框架網(wǎng)絡(luò)語義知識(shí)庫,并嘗試在語義分析的基礎(chǔ)上,在問題回答的背景下進(jìn)行中文閱讀理解問題回答的研究。其次,漢語框架網(wǎng)絡(luò)工程為我們進(jìn)行基于漢語框架網(wǎng)絡(luò)知識(shí)庫的句法語義角色自動(dòng)標(biāo)注軟件的設(shè)計(jì)與開發(fā)目的是開發(fā)高性能的漢語句法語義分析器,以及為大規(guī)模真實(shí)文本的語義信息標(biāo)注提供有力支持,該工程由劉開瑛教授主持,開始于2004年。作者在漢語框架網(wǎng)絡(luò)工程的構(gòu)建中主要研究CFN的自動(dòng)句法語義角色標(biāo)注任務(wù),提出了將層疊條件隨機(jī)場(chǎng)模型應(yīng)用于漢語框架網(wǎng)絡(luò)知識(shí)庫的句法語義角色自動(dòng)標(biāo)注任務(wù);針對(duì)單個(gè)框架下的句子庫中的所有句子進(jìn)行句法語義角色自動(dòng)標(biāo)注探索,具體內(nèi)容包括語義角色標(biāo)注、短語類型標(biāo)注、句法功能標(biāo)注的多個(gè)主要步驟的條件隨機(jī)場(chǎng)建模,并將低層條件隨機(jī)場(chǎng)模型中自動(dòng)標(biāo)注的最好結(jié)果作為高層件隨機(jī)場(chǎng)模型自動(dòng)標(biāo)注的輸入;提出適合各層角色標(biāo)注的特征模板,并通過實(shí)驗(yàn)進(jìn)行驗(yàn)證,確定方法的有效性。第三,將框架語義學(xué)思想引入中文閱讀理解分析研究,并構(gòu)建基于漢語框架語義角色標(biāo)注的中文閱讀理解語料庫。閱讀理解問答系統(tǒng)是研究自然語言處理技術(shù)的一個(gè)有效方向,它為自然語言處理技術(shù)提供了一個(gè)很好的評(píng)測(cè)方法,具有很高的研究價(jià)值。然而,缺乏中文閱讀理解語料庫已經(jīng)成為制約漢語閱讀理解問答系統(tǒng)發(fā)展的主要障礙。開展中文閱讀理解問答系統(tǒng)研究的前提是具備一個(gè)選材合理、問題設(shè)置適當(dāng)?shù)闹形拈喿x理解語料庫。本文作者作為中文閱讀理解語料庫主要構(gòu)建人員之一,研究并制定了中文閱讀理解語料庫的研制技術(shù)。在構(gòu)建中文閱讀理解語料庫過程中,采集了多種主題的閱讀理解問答系統(tǒng)原始數(shù)據(jù),設(shè)計(jì)了問題句,標(biāo)記了答案句,并開發(fā)了輔助工具,進(jìn)行了分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、語料庫的目標(biāo)詞索引等加工處理,尤其是基于漢語框架網(wǎng)絡(luò)知識(shí)庫對(duì)語料進(jìn)行了句法功能、短語類型和框架元素三個(gè)層面的深加工。第四,基于中文閱讀理解語料庫,根據(jù)問句和候選答案句的對(duì)應(yīng)關(guān)系,構(gòu)建詞層面特征、句法層面特征,采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法最大熵模型進(jìn)行閱讀理解問題回答建模,并設(shè)計(jì)實(shí)現(xiàn)中文閱讀理解問題回答系統(tǒng),并給出了實(shí)驗(yàn)結(jié)果與性能分析。從而對(duì)語料庫的規(guī)模、合理性、評(píng)價(jià)標(biāo)準(zhǔn)等開展進(jìn)一步的探索,度量語料的測(cè)試結(jié)果。實(shí)驗(yàn)結(jié)果表明,采用最大熵模型,在詞層面特征的基礎(chǔ)上有效的融合句法層面的基本塊特征、結(jié)構(gòu)關(guān)系特征以及功能塊特征,系統(tǒng)的性能達(dá)到了預(yù)期的效果。較好的系統(tǒng)性能表明,該研究方法不僅對(duì)該課題,而且對(duì)相關(guān)課題的研究也具有一定的指導(dǎo)意義。最后,對(duì)全文的研究工作進(jìn)行總結(jié),包括具體的研究成果以及研究工作中產(chǎn)生的一些對(duì)于現(xiàn)代漢語框架網(wǎng)絡(luò)工程的應(yīng)用研究的思考,最后對(duì)進(jìn)一步的研究工作進(jìn)行了比較具體的規(guī)劃。本論文的主要?jiǎng)?chuàng)新工作有三點(diǎn),第一,在現(xiàn)代漢語框架網(wǎng)絡(luò)工程構(gòu)建研究中,提出了一種基于層疊條件隨機(jī)場(chǎng)模型的句法語義角色自動(dòng)標(biāo)注方法,并通過實(shí)驗(yàn)驗(yàn)證了其有效性。第二,基于框架語義學(xué)思想構(gòu)建了中文閱讀理解語料庫,并提出了針對(duì)語料庫加工的中文框架語義標(biāo)注技術(shù)。第三,在CRCC的基礎(chǔ)上,提出了基于最大熵模型進(jìn)行中文閱讀理解問題回答的建模技術(shù),并開發(fā)實(shí)驗(yàn)系統(tǒng)。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 128
大小: 3.52(MB)
子文件數(shù):
-
簡(jiǎn)介:耳語音作為一種特殊的語音交流方式,近些年來逐漸受到從事語音研究和醫(yī)學(xué)研究的專家學(xué)者們的重視。耳語音轉(zhuǎn)換為正常音,可應(yīng)用在公共場(chǎng)合下手機(jī)的通訊、嗓音病人正常語音交流的輔助及公安司法的某些工作的特殊需要等方面。因此耳語音轉(zhuǎn)換為正常音的研究具有重要的理論價(jià)值和應(yīng)用價(jià)值本文主要研究耳語音轉(zhuǎn)換為正常音的實(shí)現(xiàn),設(shè)計(jì)了一個(gè)基于混合激勵(lì)線性預(yù)測(cè)MELP模型的耳語音轉(zhuǎn)換系統(tǒng)。根據(jù)MELP聲碼器的原理,對(duì)正常語音進(jìn)行所需各個(gè)參數(shù)的提取并合成出語音,初步建立了一個(gè)MELP合成系統(tǒng)。然后,根據(jù)MELP合成系統(tǒng)的結(jié)構(gòu)及漢語耳語音與正常音的不同特點(diǎn),對(duì)耳語音的參數(shù)進(jìn)行分析,通過與正常音參數(shù)的比較、修正得到耳語音轉(zhuǎn)換所需的參數(shù)。本文提出了基于次序統(tǒng)計(jì)濾波進(jìn)行端點(diǎn)檢測(cè)的方法,提取了耳語音的說話人性別信息,并根據(jù)實(shí)驗(yàn)統(tǒng)計(jì)得到耳語音和正常語音增益的轉(zhuǎn)換模型。簡(jiǎn)要介紹了漢語耳語音的聲韻分割、聲調(diào)識(shí)別、共振峰匹配以及根據(jù)性別信息和聲調(diào)信息進(jìn)行基頻估計(jì)等問題。最后將匹配好的各項(xiàng)參數(shù),輸入到合成系統(tǒng)中,完成耳語音向正常音的轉(zhuǎn)換,并對(duì)合成語音進(jìn)行主觀測(cè)試,結(jié)果表明了本文所提方法具有可行性。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 59
大?。?2.03(MB)
子文件數(shù):
-
簡(jiǎn)介:隨著信息技術(shù)的飛速發(fā)展和計(jì)算機(jī)技術(shù)的不斷進(jìn)步,人機(jī)交互方式發(fā)生了革命性的變化,人們?cè)诓粩鄬で箪`活、方便、快捷的信息交換方式時(shí),語音合成技術(shù)應(yīng)運(yùn)而生。語音合成SPEECHSYNTHESIS又稱文語轉(zhuǎn)換TTS,TEXTTOSPEECH,是將計(jì)算機(jī)中存儲(chǔ)的文本轉(zhuǎn)換成對(duì)應(yīng)的語音,是計(jì)算機(jī)和人類交互的一種手段。目前,漢語語音合成技術(shù)在合成單音節(jié)上已經(jīng)相對(duì)成熟,但是合成連續(xù)語音流時(shí)總是不夠清晰和自然,因此漢語語音合成需要在提高語音合成的自然度和可懂度方面進(jìn)一步提高。本文分析各種語音合成算法的優(yōu)缺點(diǎn)后,將TDPSOLA算法和正弦模型分析算法相結(jié)合用于漢語語音合成,通過平滑處理后,合成連續(xù)的語音流。用小容量的聲母加韻母過渡以及四個(gè)聲調(diào)的韻母制作成語音庫,使得該語音合成系統(tǒng)的語音庫很小,易于移植到其他應(yīng)用平臺(tái),以便擴(kuò)大其應(yīng)用范圍。TDPSOLA算法具有方便靈活的韻律調(diào)整能力,但是當(dāng)基音頻率修改范圍過大時(shí),會(huì)出現(xiàn)失真和回聲效應(yīng);而正弦模型分析算法能夠?qū)φZ音信號(hào)進(jìn)行寬范圍的基頻調(diào)整,保證了相鄰兩幀語音之間幅度和相位的連續(xù)性。結(jié)合這兩種算法的優(yōu)點(diǎn),使得語音合成具有靈活調(diào)整韻律的能力,為以后研究帶情感的語音合成提供了基礎(chǔ)。針對(duì)目前一直存在的字與字之間的拼接問題,研究了相鄰音節(jié)的拼接規(guī)律,實(shí)現(xiàn)了字與字之間拼接的平滑過渡,在提高合成連續(xù)語流的自然度方面得到很大的提高,使機(jī)器的發(fā)聲更加接近人的發(fā)聲。針對(duì)很多語音合成系統(tǒng)中沒有實(shí)現(xiàn)多音字處理的功能,本系統(tǒng)增加了多音字詞庫,實(shí)現(xiàn)了簡(jiǎn)單的多音字處理功能。雖然在提高語音合成的自然度方面得到了很大的提高,但是仍然有許多問題存在,本文在最后針對(duì)這些問題作了總結(jié),以便后來的研究者對(duì)本系統(tǒng)的不足之處進(jìn)一步地完善。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-11
頁數(shù): 81
大?。?4.97(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-11
頁數(shù): 75
大?。?2.87(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 61
大?。?1.48(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-11
頁數(shù): 57
大?。?2.64(MB)
子文件數(shù):
-
簡(jiǎn)介:本文的幾個(gè)研究方面包括語音庫的建設(shè)、文本標(biāo)準(zhǔn)化、拼音標(biāo)注、停頓指數(shù)標(biāo)注、重音判別。都是圍繞著將文本向語音的中間過渡階段的轉(zhuǎn)化這個(gè)主題以及為轉(zhuǎn)化提供相應(yīng)的資源進(jìn)行的。首先是語音庫的建設(shè),從文本的選擇、錄音的控制、人工加工等方面進(jìn)行了詳細(xì)的科學(xué)的設(shè)計(jì)與實(shí)現(xiàn),為本文中各個(gè)研究課題提供了賴以訓(xùn)練測(cè)試的數(shù)據(jù)資源;然后文本標(biāo)準(zhǔn)化規(guī)范了輸入的文本,對(duì)于能發(fā)音的特殊符號(hào)將其轉(zhuǎn)化為漢字;接下來拼音標(biāo)注則是告訴了系統(tǒng)該發(fā)什么音;最后停頓指數(shù)和重音的標(biāo)注是提高合成語音的可懂度、自然度和表現(xiàn)力的關(guān)鍵,兩個(gè)符號(hào)韻律參數(shù)是否會(huì)影響到情感的表達(dá)針對(duì)情感韻律標(biāo)注是否需要建立專門的模型本文對(duì)這些問題也進(jìn)行了專門的研究和討論。尚未認(rèn)識(shí)清楚的課題,如重音,我們不只是研究應(yīng)用到TTS系統(tǒng)平臺(tái)中的自動(dòng)判別,更是利用現(xiàn)有的語料庫對(duì)于重音的分類、重音的聲學(xué)表現(xiàn)、重音和其他語言學(xué)現(xiàn)象,如上聲的聯(lián)系等進(jìn)行研究,試圖為學(xué)術(shù)界早日發(fā)現(xiàn)重音現(xiàn)象的奧妙做出應(yīng)有的貢獻(xiàn),此外針對(duì)重音標(biāo)注語料庫構(gòu)建的困難的問題,嘗試為自動(dòng)實(shí)現(xiàn)語料庫的擴(kuò)充進(jìn)行了一些研究。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 67
大?。?2.16(MB)
子文件數(shù):
-
簡(jiǎn)介:由于語言音位系統(tǒng)的語音范疇的聲學(xué)空間與感知空間的不一致以漢語為對(duì)象探索語言音位系統(tǒng)的語音范疇的聲學(xué)空間距離與感知空間距離的關(guān)系顯得十分重要。研究發(fā)現(xiàn)人耳對(duì)漢語聲母的感知能力明顯弱于對(duì)韻母的感知能力以往針對(duì)漢語聲母的研究主要通過主觀測(cè)試獲得不同聲母的聽感混淆進(jìn)而基于語音學(xué)分析采用數(shù)學(xué)方法計(jì)算得到。本文探索了聲學(xué)參數(shù)與言語感知的相關(guān)性定義了漢語聲母的聲學(xué)距離與感知距離給出了二者的數(shù)學(xué)描述建立了二者的單調(diào)相關(guān)關(guān)系提出了使用斯皮爾曼等級(jí)相關(guān)系數(shù)作為量化評(píng)價(jià)二者相關(guān)關(guān)系強(qiáng)弱的標(biāo)準(zhǔn)在探討了漢語聲母的聲學(xué)特征與其感知特性的基礎(chǔ)上本文將感知線性預(yù)測(cè)系數(shù)與時(shí)域特征參數(shù)相結(jié)合提出了一個(gè)客觀描述漢語聲母聲學(xué)距離的數(shù)學(xué)公式該公式描述的聲學(xué)距離與感知距離間呈現(xiàn)出了較強(qiáng)的單調(diào)相關(guān)性。首先本文通過比較現(xiàn)有的語音信號(hào)的不同聲學(xué)特征描述分別使用不同聲母樣本的梅爾頻率倒譜系數(shù)和感知預(yù)測(cè)系數(shù)和已有的類間、類內(nèi)距離度量方式進(jìn)行聲母的層次聚類分析找出了能夠在聲學(xué)空間內(nèi)較好度量聲母聲學(xué)距離的特征參數(shù)組合以及類間和類內(nèi)距離度量方式進(jìn)而定義出聲學(xué)空間內(nèi)不同聲母間的聲學(xué)距離。然后本文定義了感知空間內(nèi)不同聲母間的感知距離通過言語測(cè)聽實(shí)驗(yàn)得到的混淆矩陣計(jì)算出了不同聲母間感知距離的具體數(shù)值提出使用斯皮爾曼等級(jí)相關(guān)系數(shù)作為量化評(píng)價(jià)兩種距離單調(diào)相關(guān)性強(qiáng)弱的標(biāo)準(zhǔn)并設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證了用所選的特征參數(shù)和距離度量方式描述聲學(xué)距離的合理性。最后本文采用同樣的方法找出了時(shí)域內(nèi)使兩種距離單調(diào)相關(guān)性最強(qiáng)的特征參數(shù)并以所選的時(shí)域和頻域特征共同描述聲學(xué)距離提出了一種新的描述聲學(xué)距離的數(shù)學(xué)公式實(shí)驗(yàn)結(jié)果驗(yàn)證了該公式的合理性與穩(wěn)定性。本研究為音節(jié)級(jí)協(xié)同發(fā)音時(shí)的聲學(xué)空間描述與感知研究提供了基礎(chǔ)同時(shí)在本基礎(chǔ)上有望發(fā)現(xiàn)新的聲學(xué)特征描述。此外本研究也為漢語言語測(cè)聽時(shí)詞表的等價(jià)性評(píng)估提供了理論和技術(shù)支持。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 62
大小: 3.35(MB)
子文件數(shù):
-
簡(jiǎn)介:該文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)漢語自動(dòng)分詞系統(tǒng)對(duì)系統(tǒng)中采用的關(guān)鍵技術(shù)進(jìn)行具體介紹詞典查找是影響系統(tǒng)切分速度的重要因素該文提出一種基于TRIE索引的詞典組織機(jī)制對(duì)分詞過程中幾種常用的詞典查找尤其是最大匹配查找的速度有很大提高歧義字段切分是影響系統(tǒng)切分精度的一個(gè)重要因素該文針對(duì)交集型歧義字段設(shè)計(jì)了統(tǒng)計(jì)與規(guī)則相結(jié)合的切分算法對(duì)多義型歧義字段采用枚舉性規(guī)則的切分算法未登錄詞識(shí)別是漢語自動(dòng)分詞中最為困難也是最具挑戰(zhàn)性的問題該文對(duì)數(shù)字詞短語、中國姓名、中國地名、音譯名和機(jī)構(gòu)名等主要類型的未登錄詞都給出了具體的識(shí)別算法并提出基于并發(fā)和競(jìng)爭(zhēng)處理機(jī)制的專有名詞識(shí)別集成策略最后提出了一種動(dòng)態(tài)詞典機(jī)制利用未登錄詞在輸入文本中的全局信息力圖使系統(tǒng)的未登錄詞識(shí)別性能達(dá)到最佳
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 62
大?。?1.83(MB)
子文件數(shù):
-
簡(jiǎn)介:漢語分詞是自然語言理解中的一個(gè)主要組成部分,同時(shí)也是文本挖掘,機(jī)器翻譯,信息檢索的基礎(chǔ)。由于漢語分詞問題本身的復(fù)雜性,故而尋求準(zhǔn)確有效的漢語分詞方法成為自然語言理解的主要研究內(nèi)容之一。本文設(shè)計(jì)了基于統(tǒng)計(jì)和語義分析相結(jié)合的分詞模型,將其應(yīng)用在產(chǎn)品的設(shè)計(jì)過程中。通過該模型將用戶以自然語言形式描述的需求進(jìn)行切分,將切分結(jié)果經(jīng)過自然語言理解系統(tǒng)的其余模塊的處理轉(zhuǎn)化成為計(jì)算機(jī)能夠識(shí)別的概念設(shè)計(jì)要求。本文分析了現(xiàn)有漢語分詞的方法及其主要存在的問題,研究了基于語料庫的分詞方法及其關(guān)鍵技術(shù),結(jié)合現(xiàn)有的分詞方法,提出將機(jī)械分詞、語料庫統(tǒng)計(jì)分詞和語義分析相結(jié)合的分詞模型,并將此分詞模型嵌入到某領(lǐng)域漢語理解系統(tǒng)之中。機(jī)械分詞階段,利用改進(jìn)的最大匹配法,以求盡量得出所有的切分形式并用有向圖的形式表現(xiàn)出來,并且找出分詞中的歧義字段,對(duì)其進(jìn)行消除歧義。語料庫統(tǒng)計(jì)階段,先將歧義字段中的各種常見搭配組合利用語料庫統(tǒng)計(jì)方法統(tǒng)計(jì),統(tǒng)計(jì)其共現(xiàn)度和搭配情況,并把搭配情況反饋到統(tǒng)計(jì)詞典中,實(shí)現(xiàn)分詞系統(tǒng)和整個(gè)自然語言理解系統(tǒng)的自我完善和良性互動(dòng),同時(shí)對(duì)合成詞“22”,“23”和“32”模式的可信度進(jìn)行統(tǒng)計(jì);然后采用語義分析中的動(dòng)名詞結(jié)構(gòu),結(jié)合概念從屬的知識(shí)表示方法,對(duì)分詞結(jié)果進(jìn)一步消除歧義,提高了分詞系統(tǒng)的準(zhǔn)確率,降低分詞系統(tǒng)的復(fù)雜度。最后結(jié)合實(shí)際將該分詞模型應(yīng)用于產(chǎn)品設(shè)計(jì)的用戶需求分析領(lǐng)域。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 70
大?。?2.66(MB)
子文件數(shù):