-
簡(jiǎn)介:大連理工大學(xué)碩士學(xué)位論文MASTERALDISSERTATL0N⑧基于最大熵的漢語(yǔ)介詞短語(yǔ)自動(dòng)識(shí)別學(xué)科、專業(yè)指導(dǎo)教師論文答辯日期于浚濤鹽蔓盟堡豈堇壟黃德根教授2006年12月大連理工大學(xué)碩士學(xué)位論文AUTOMATICIDENTIFICATIONOFCHINESEPREPOSITIONALPHRASEBASEDONMAXIMUMENTROPYABSTRACTPREPOSITIONALPHRASEISONEOFTHEMOSTIMPORTANTCHINESEPHRASESTHEMEANINGOFPREPOSITIONALPHRASEIDENTIFICATIONLIESINTHREEASPECTSFIRSTLY,ITREDUCESTHECANDIDMENUMBERSOFMAINVERBIDENTIFICATIONSECONDLY,ITSIMPLIFIESTHESTRUCTUREOFSENTENCEANDMAKESTHEPARSINGEASIERINTHENEXTSTEPFINALLY,ITBENEFITSTHETEMPLATEMATCHINGINEXAMPLEBASEDMACHINETRANSLATIONASAKEYPROBLEMOFNATURALLANGUAGELJROCESSING,THEPROBLEMSOFCOMPLETESYNTACTICPARSINGARE21’TSOLVEDYETTHETHESISAIMSTODISCUSSTHEMETHODSANDTECHNIQUESOFCHINESEPREPOSITIONALPHRASEIDENTIFICATIONTHENTHEFIRSTNOVELASPECTOFOU%WORKISDISCUSSINGTHESEMANTIC,SYNTAXANDUSAGEOFCHINESEPREPOSITIONALPHRASE,ANDMAKINGASPECIFICATIONFORANNOTATINGTHECHINESEPREPOSITIONALPHRASEFROMCOMPUTATIONALPOINTOFVIEWISCAREFULLYDESIGNEDBASEDONTHERELATEDWORKOFCHINESELINGUISTSDURINGTHERESEARCH,BASEDONCHURCH’SIDEATHATBASENPIDENTIFICATIONCANBETREATEDASPARTOFSPEECHTAGGING,ANEFFECTIVEAIGOFITHMISPROMOTEDINTHISPAPERTOIDENTIFYPREPOSITIONALPHRASESINSHALLOWPARSINGLEVELUSINGTHESEFEATURESTHESYSTEMOFCHINESEPREPOSITIONALPHRASEIDENTIFICATIONINTHISTHESISADOPTSASTATISTICALMODELBASEDMAXIMUMENTROPY匝INPRACTICE,USINGMEMODELWECANREACHHIGHACCURACYWITHKNOWLEDGEPOORFEATURESANOTHERADVANTAGEOFMEMODELISITSREUSABILITYANDTHETHEORYOFMEFRAMEWORKISINDEPENDENTOFANYPARTICULARNATURALLANGUAGETASKNLESELECTIONOFFEATURESISAKEYPROBLEMOFMEMODELWHICHDETERMINESTHEPERFORMANCEOFTHEIDENFIFIEATIONAIMINGATTHETASKOFCHINESEPREPOSITIONALPHRASEIDENTIFICATION,WEPROPOSEDTHATWORDANDPARTOFSPEECHARETHEMAINFACTORSWHICHCONSTRUCTAFEATUREGPACEOFMEMODELANDANALGORITHMISPRESENTEDTOAUTOMATICALLYACQUIREAFEATURESETNLERESULTSSHOWTHATTHEMETHODOFOURSYSTEMISEFFICIENTFORCHINESEPREPOSITIONALPHRASEIDENTIFICATIONINOPENTEST,THEPRECISIONREACH891%FURTHERMORE,THISMODELHASAGOODEXPANDABILITYWHICHCANBEUSEDTECOGNIZEOTHERPHRASESSUCHASBASENPANDTHELONGESTNPKEYWORDSNATURALLANGUAGEPROCESSING;SHALLOWPARSING;PREPOSITIONALPHRASEIDENTIFICATION;MAXIMUMENTROPY
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 54
大小: 1.49(MB)
子文件數(shù):
-
簡(jiǎn)介:語(yǔ)音識(shí)別是利用計(jì)算機(jī)對(duì)人類的語(yǔ)音進(jìn)行處理,將語(yǔ)音信號(hào)轉(zhuǎn)化為文字符號(hào)的一種技術(shù)。國(guó)內(nèi)外對(duì)漢語(yǔ)語(yǔ)音識(shí)別的研究已經(jīng)有了近60年的歷史,取得了很大的進(jìn)展,但仍存在很多問(wèn)題?,F(xiàn)有的語(yǔ)音識(shí)別技術(shù)還達(dá)不到人與機(jī)器通過(guò)自然語(yǔ)言交互的目標(biāo),大詞匯量、非特定人的連續(xù)語(yǔ)音識(shí)別仍是語(yǔ)音識(shí)別研究的難點(diǎn)與重點(diǎn)。本文主要研究漢語(yǔ)連續(xù)語(yǔ)音識(shí)別的關(guān)鍵技術(shù)。首先介紹了語(yǔ)音識(shí)別的原理、語(yǔ)音識(shí)別系統(tǒng)的組成以及漢語(yǔ)語(yǔ)音的基本知識(shí)。然后分別介紹了語(yǔ)音識(shí)別的預(yù)處理、特征參數(shù)提取、模式匹配和后處理階段的功能及其關(guān)鍵技術(shù),并針對(duì)傳統(tǒng)方法中存在的問(wèn)題提出了改進(jìn)方案。本文的主要工作有1在個(gè)人電腦平臺(tái)下,用MICROSOFTVISUALC,MATLAB,MICROSOFTSQLSERVER等工具實(shí)現(xiàn)了一個(gè)中等詞匯量、非特定人的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng),并對(duì)系統(tǒng)進(jìn)行了實(shí)驗(yàn)。系統(tǒng)選擇聲韻母作為識(shí)別基元,特征參數(shù)采用MEL頻標(biāo)倒譜系數(shù),識(shí)別模型選用動(dòng)態(tài)時(shí)間規(guī)整模型。2識(shí)別基元分割的準(zhǔn)確度對(duì)系統(tǒng)的識(shí)別性能影響很大,現(xiàn)有的聲韻母分割方法在非連續(xù)語(yǔ)音中分割準(zhǔn)確度較高,但在連續(xù)語(yǔ)音中分割準(zhǔn)確度大幅度降低。針對(duì)這一問(wèn)題,本文結(jié)合漢語(yǔ)連續(xù)語(yǔ)音的特性,利用熵與漢語(yǔ)元音的共振峰能量設(shè)計(jì)了一種新的聲韻母分割方法,有效提高了聲韻母分割的準(zhǔn)確度。3采用傳統(tǒng)動(dòng)態(tài)時(shí)間規(guī)整技術(shù)的語(yǔ)音識(shí)別系統(tǒng)在識(shí)別時(shí)計(jì)算量較大,系統(tǒng)響應(yīng)時(shí)間長(zhǎng)。針對(duì)這一問(wèn)題,本文提出了基于模板閾值的DTW改進(jìn)算法和基于待測(cè)語(yǔ)音特征矢量閾值的DTW改進(jìn)算法,有效減少了計(jì)算量,提高了系統(tǒng)的實(shí)時(shí)性。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 58
大小: 2.49(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 135
大小: 3.33(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-11
頁(yè)數(shù): 54
大?。?5.8(MB)
子文件數(shù):
-
簡(jiǎn)介:漢語(yǔ)休閑娛樂短信主要是指短信寫手創(chuàng)作的或者個(gè)人群發(fā)給他人他人覺得有轉(zhuǎn)發(fā)價(jià)值而大量傳遞的文字短信。它們以問(wèn)候、溝通情感或消遣娛樂為目的復(fù)制頻率高、流行速度快、傳播面積廣、影響力度大。它不同于一般日常交際語(yǔ)言和傳媒語(yǔ)言對(duì)語(yǔ)言進(jìn)行了信息化處理具有簡(jiǎn)潔性通俗性幽默性。休閑娛樂短信已經(jīng)引起了學(xué)者的廣泛關(guān)注。但以往的研究基本上注重描述其修辭學(xué)、美學(xué)特點(diǎn)和表達(dá)技巧闡述其興起的社會(huì)文化根源突出的幽默效果和語(yǔ)言功能。很少?gòu)恼J(rèn)知語(yǔ)言學(xué)角度研究此類短信產(chǎn)生的認(rèn)知理?yè)?jù)和理解過(guò)程中的認(rèn)知機(jī)制問(wèn)題即語(yǔ)篇的深層連貫問(wèn)題。本文從認(rèn)知語(yǔ)言學(xué)的角度出發(fā)用LAKOFF的理想認(rèn)知模型IDEALIZEDCOGNITIVEMODELS為理論支撐與出發(fā)點(diǎn)通過(guò)理論與實(shí)際語(yǔ)料相結(jié)合的方法對(duì)漢語(yǔ)休閑娛樂短信的語(yǔ)篇連貫進(jìn)行解釋。通過(guò)研究為CETMS提供新的視角證明理想認(rèn)知模型的解釋力也為理解CETMS的語(yǔ)篇連貫提供了認(rèn)知機(jī)制進(jìn)而幫助短信創(chuàng)作者創(chuàng)作和讀者更好的理解。ICMS以經(jīng)驗(yàn)主義哲學(xué)為基礎(chǔ)是知識(shí)得以組織的結(jié)構(gòu)強(qiáng)調(diào)用百科知識(shí)來(lái)分析動(dòng)態(tài)的語(yǔ)篇運(yùn)作機(jī)制。休閑娛樂短信不同于一般交際語(yǔ)言有著其獨(dú)特的語(yǔ)篇特征。它由多個(gè)語(yǔ)句組成的每個(gè)語(yǔ)句或部分有其自身的ICM組織構(gòu)成語(yǔ)句或部分之問(wèn)不同的ICMS不斷出現(xiàn)、更新、完善幫助讀者在心智中整合出一個(gè)連貫的語(yǔ)篇。在語(yǔ)義連貫上休閑娛樂短信具有三種特點(diǎn)正常連貫、聯(lián)想連貫和偏離連貫。研究發(fā)現(xiàn)理想認(rèn)知模型的四個(gè)基本模式是宏觀上構(gòu)建正常連貫和聯(lián)想連貫休閑娛樂短信語(yǔ)篇連貫的保證短信收發(fā)者ICM的差異是我們微觀上理解和鑒賞偏離連貫的關(guān)鍵。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 84
大?。?3.04(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-11
頁(yè)數(shù): 61
大?。?8.46(MB)
子文件數(shù):
-
簡(jiǎn)介:在當(dāng)今全球信息一體化的時(shí)代,網(wǎng)絡(luò)資源的不斷增長(zhǎng)提供給人們的電子文本信息越來(lái)越多。人們能從這些文本信息中獲取大量的知識(shí)或技能,但又面臨著信息太多而時(shí)間不夠的問(wèn)題。雖然目前有很多搜索網(wǎng)站,人們可以通過(guò)搜索關(guān)鍵詞的方式來(lái)查找相關(guān)信息,但搜索出來(lái)的信息量依然太多,往往只有人們閱讀完文本后才發(fā)現(xiàn)不是所需要的信息。因此,如何能有效地對(duì)文本進(jìn)行主題分析成為迫切需要解決的問(wèn)題。本文針對(duì)文本主題分析技術(shù)中的主題分割和主題識(shí)別展開了研究,主要包括以下幾部分工作首先,分析了當(dāng)前文本主題分析技術(shù)的研究現(xiàn)狀、相關(guān)的概念與現(xiàn)有的技術(shù),并分析了自然語(yǔ)言處理中常用的評(píng)價(jià)方法如何在文本主題分析中得到使用。其次,本文提出了基于SVO的段落相似度計(jì)算方法,并將該方法應(yīng)用到文本主題分割中。接著,提出了基于關(guān)鍵句的文本主題識(shí)別方法。該方法是基于文本主題分割后的結(jié)果,對(duì)每個(gè)相對(duì)獨(dú)立的主題文本塊進(jìn)行主題識(shí)別,找出適合做文本塊主題的關(guān)鍵句,并將其進(jìn)行處理使得關(guān)鍵句語(yǔ)義完整。將這種主題分割和主題識(shí)別的方法統(tǒng)稱為基于統(tǒng)計(jì)的文本主題分析技術(shù)。實(shí)驗(yàn)結(jié)果表明該技術(shù)在文本主題分割中比傳統(tǒng)的建立段落向量空間模型計(jì)算連續(xù)段落相似度的方法更有效,在主題識(shí)別上找出的關(guān)鍵句在一定程度上優(yōu)于MICROSOFTWD尋找的關(guān)鍵句。另外,針對(duì)上面先進(jìn)行主題分割后進(jìn)行主題識(shí)別的方法導(dǎo)致主題漏識(shí)的情況,提出了統(tǒng)計(jì)與知識(shí)相結(jié)合的文本主題分析技術(shù)。該技術(shù)中使用了同義知識(shí)和主題知識(shí),先進(jìn)行主題識(shí)別再進(jìn)行主題分割,將主題分割后的文本塊進(jìn)一步進(jìn)行主題識(shí)別,將兩次主題識(shí)別結(jié)果的并集作為整個(gè)文本的主題。該技術(shù)一定程度上提高了主題分割和主題識(shí)別的準(zhǔn)確率。然后,使用VC和MATLAB混合編程實(shí)現(xiàn)了文本主題分析系統(tǒng),將其用于文本主題分析。最后,本文對(duì)研究工作進(jìn)行了總結(jié),提出了今后進(jìn)一步的研究方向。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-11
頁(yè)數(shù): 114
大?。?2.11(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 72
大?。?2.84(MB)
子文件數(shù):
-
簡(jiǎn)介:詞性是詞匯的最基礎(chǔ)的屬性它不僅為句法、語(yǔ)法分析提供了相應(yīng)的知識(shí)基礎(chǔ)同時(shí)也為諸如詞性標(biāo)注等自然語(yǔ)言任務(wù)提供了有利的判定信息。詞性標(biāo)注的主要任務(wù)是對(duì)連續(xù)的詞匯串中的詞匯的詞性進(jìn)行標(biāo)注由于其在自然語(yǔ)言處理領(lǐng)域具有非常重要的地位所以具有比較廣泛的研究背景。詞性標(biāo)注的標(biāo)注結(jié)果對(duì)于自然語(yǔ)言任務(wù)的眾多語(yǔ)言任務(wù)的精確度起到了決定性作用目前主要利用統(tǒng)計(jì)學(xué)模型和建立語(yǔ)言規(guī)則庫(kù)的方法對(duì)詞性標(biāo)注的結(jié)果進(jìn)行改進(jìn)。其中利用隱馬爾科夫模型HIDDENMARKOVMODELHMM方法進(jìn)行詞性標(biāo)注的方法是基于統(tǒng)計(jì)學(xué)模型的詞性標(biāo)注方法中比較常用的。由于漢語(yǔ)語(yǔ)言學(xué)的存在著一些獨(dú)特的語(yǔ)法特性在使用HMM在詞性標(biāo)注的標(biāo)注過(guò)程中經(jīng)常出現(xiàn)了包括模型的數(shù)據(jù)稀疏、兼類詞歧義以及未登錄詞等諸多問(wèn)題。在不斷地對(duì)HMM的研究過(guò)程中眾多學(xué)者相繼提出了利用神經(jīng)網(wǎng)絡(luò)、規(guī)則庫(kù)以及有限狀態(tài)機(jī)等方法與傳統(tǒng)HMM相結(jié)合而演化成的新的詞性標(biāo)注方法這些方法都在一定程度上優(yōu)化了詞性標(biāo)注系統(tǒng)的標(biāo)注結(jié)果。本論文首先在研究了傳統(tǒng)的統(tǒng)計(jì)模型與神經(jīng)網(wǎng)絡(luò)對(duì)漢語(yǔ)的詞性標(biāo)注過(guò)程后分析了BP網(wǎng)絡(luò)與傳統(tǒng)隱馬爾科夫模型在詞性標(biāo)注領(lǐng)域的特點(diǎn)提出了一種新的模型負(fù)反饋隱馬爾科夫模型BACKPROPAGATIONHIDDENMARKOVMODELBPHMM。BPHMM模型可以充分地利用上下文信息輔助詞性標(biāo)注系統(tǒng)進(jìn)行詞性標(biāo)注任務(wù)。其次由于目前傳統(tǒng)平滑算法不能滿足新模型的數(shù)據(jù)平滑需要因此針對(duì)模型的特點(diǎn)和特性選取刪除插值法進(jìn)行優(yōu)化對(duì)模型的狀態(tài)轉(zhuǎn)移矩陣進(jìn)行平滑處理并調(diào)整模型的觀察概率矩陣。同時(shí)將經(jīng)過(guò)BP網(wǎng)絡(luò)建立的語(yǔ)法規(guī)則庫(kù)加入未登錄詞處理辦法中利用規(guī)則庫(kù)有效的處理未登錄詞的標(biāo)注問(wèn)題。本文從北大的1998年人民日?qǐng)?bào)標(biāo)注語(yǔ)料庫(kù)中抽取訓(xùn)練語(yǔ)料在復(fù)旦大學(xué)開源自然語(yǔ)言處理系統(tǒng)FUDANNLP的基礎(chǔ)上利用JAVA在ECLIPSE平臺(tái)上實(shí)現(xiàn)對(duì)負(fù)反饋隱馬爾科夫模型的訓(xùn)練學(xué)習(xí)經(jīng)過(guò)語(yǔ)料庫(kù)預(yù)處理、平滑處理以及未登錄詞處理等操作最后對(duì)VITERBI算法進(jìn)行改進(jìn)優(yōu)化對(duì)待標(biāo)注的語(yǔ)料進(jìn)行標(biāo)注并測(cè)試結(jié)果。實(shí)驗(yàn)表明通過(guò)使用負(fù)反饋隱馬爾科夫模型在加入平滑算法以及生詞處理算法之后進(jìn)行詞性標(biāo)注可以獲得更加理想的詞性標(biāo)注效果。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 54
大?。?1.21(MB)
子文件數(shù):
-
簡(jiǎn)介:本文開發(fā)基于詞匯功能文法的面向數(shù)據(jù)的漢語(yǔ)句法分析方法,其研究目標(biāo)即為基于詞匯功能文法的形式化描述體系,研究面向數(shù)據(jù)的分析理論在漢語(yǔ)句法分析處理中的具體應(yīng)用。給出了一個(gè)LFGDOP的漢語(yǔ)句法分析模型,并對(duì)這個(gè)模型的技術(shù)框架語(yǔ)料庫(kù)的標(biāo)注、表達(dá)、片段、分解操作、組合操作進(jìn)行構(gòu)建,通過(guò)對(duì)漢語(yǔ)句子的分析實(shí)例闡明了這個(gè)模型框架。再給出了對(duì)漢語(yǔ)句子的概率計(jì)算和可能性模式,根據(jù)所有片段單元的共現(xiàn)頻率來(lái)評(píng)估最有可能性的分析結(jié)果。最后比較了兩種片段的評(píng)估方法選擇最有可能的分析、經(jīng)驗(yàn)主義的評(píng)估法,來(lái)驗(yàn)證了這個(gè)模型的可行性。以DOP技術(shù)作為基本框架,同時(shí)利用基于相似的概率評(píng)估技術(shù),實(shí)現(xiàn)漢語(yǔ)句法分析的方法。隨著日益增長(zhǎng)的大量信息成為可利用,尤其是已成為全球最大數(shù)字式信息空間的INTEMET,其指數(shù)膨脹帶來(lái)了緊迫的資源發(fā)現(xiàn)問(wèn)題,即怎樣在巨大的、不斷增長(zhǎng)的各類資源中準(zhǔn)確地查詢用戶所需要的信息。本課題為更加有效地利用詞匯功能文法與面向數(shù)據(jù)的分析技術(shù)來(lái)提高語(yǔ)言分析的性能,提出了一條嶄新的途徑,必將具有廣泛應(yīng)用和推廣價(jià)值,將會(huì)對(duì)人類更好地解決自然語(yǔ)言分析難題起到積極的推動(dòng)作用。為深入探討針對(duì)漢語(yǔ)這種作為世界上使用人數(shù)最多的這種自然語(yǔ)言與其它西方語(yǔ)言的信息處理方法,進(jìn)行基于詞匯功能文法的面向數(shù)據(jù)的漢語(yǔ)句法分析的課題研究,是非常有意義的一項(xiàng)課題。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 64
大小: 1.87(MB)
子文件數(shù):
-
簡(jiǎn)介:數(shù)據(jù)庫(kù)自然語(yǔ)言界面NLIDB是自然語(yǔ)言處理NLP最早和最廣泛的研究領(lǐng)域之一它主要涉及到自然語(yǔ)言處理和數(shù)據(jù)庫(kù)系統(tǒng)的研究是一個(gè)具有重大理論價(jià)值和巨大實(shí)用價(jià)值的研究領(lǐng)域在數(shù)據(jù)庫(kù)自然語(yǔ)言查詢界面的研究中對(duì)用戶輸入的查詢語(yǔ)句的理解是其關(guān)鍵部分而其中的查詢條件與查詢目標(biāo)的理解又是其主要內(nèi)容該文的研究工作即是對(duì)查詢語(yǔ)句中查詢目標(biāo)與查詢條件的識(shí)別的研究主要工作有1系統(tǒng)地研究了數(shù)據(jù)庫(kù)隱含知識(shí)并給出了相應(yīng)的知識(shí)表示數(shù)據(jù)庫(kù)隱含知識(shí)是指那些由于數(shù)據(jù)之間的相關(guān)性引起的并可通過(guò)自然語(yǔ)言表現(xiàn)出來(lái)而在數(shù)據(jù)庫(kù)中雖然存在這一部分?jǐn)?shù)據(jù)但必須通過(guò)某幾種操作或邏輯運(yùn)算才能得到的知識(shí)數(shù)據(jù)庫(kù)隱含知識(shí)反映了用戶對(duì)現(xiàn)實(shí)世界的理解從而用戶在進(jìn)行查詢時(shí)會(huì)使用大量的數(shù)據(jù)庫(kù)隱含知識(shí)一個(gè)系統(tǒng)處理數(shù)據(jù)庫(kù)隱含知識(shí)的能力反映了它的易用性問(wèn)題該文增強(qiáng)了對(duì)查詢語(yǔ)句中的數(shù)據(jù)庫(kù)隱含知識(shí)的處理能力2在查詢目標(biāo)的識(shí)別中增強(qiáng)了對(duì)數(shù)據(jù)庫(kù)隱含知識(shí)的處理能力對(duì)查詢目標(biāo)進(jìn)行了不同的分類并給出了相關(guān)的變換算法給出了基于數(shù)據(jù)庫(kù)語(yǔ)義的查詢語(yǔ)句中的查詢目標(biāo)識(shí)別的模板這種模板可識(shí)別出不同句型中不同的查詢目標(biāo)3在查詢條件的識(shí)別中提出了基于數(shù)據(jù)庫(kù)語(yǔ)義的以域值為中心的查詢條件識(shí)別方法增強(qiáng)了對(duì)含數(shù)據(jù)庫(kù)隱含知識(shí)的查詢條件的處理并對(duì)含領(lǐng)域動(dòng)詞的查詢條件項(xiàng)的識(shí)別和含否定詞的查詢條件項(xiàng)的識(shí)別等查詢條件識(shí)別的難點(diǎn)進(jìn)行了詳細(xì)的研究給出了解決方法與算法最后給出了查詢條件識(shí)別的一般算法
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 92
大?。?2.6(MB)
子文件數(shù):
-
簡(jiǎn)介:語(yǔ)音識(shí)別技術(shù)是利用計(jì)算機(jī)處理語(yǔ)音信號(hào),并將語(yǔ)音信號(hào)轉(zhuǎn)換成有意義符號(hào)序列的一項(xiàng)技術(shù)。以命令詞識(shí)別、關(guān)鍵詞識(shí)別和連續(xù)數(shù)字串識(shí)別為代表的中小訶匯量語(yǔ)音識(shí)別技術(shù),是語(yǔ)音識(shí)別實(shí)甩化研究中相當(dāng)重要的方向。本文開展的工作主要集中于仿生模式識(shí)別理論在漢語(yǔ)關(guān)鍵詞識(shí)別領(lǐng)域的應(yīng)用。仿生模式識(shí)別強(qiáng)調(diào)“認(rèn)識(shí)”事物,而不是對(duì)事物進(jìn)行“分類”。已有的大部分實(shí)現(xiàn)均采用了神經(jīng)網(wǎng)絡(luò)的硬件方式,本文則依靠軟件方式,并提出了自己的超多面體覆蓋檢測(cè)算法。與傳統(tǒng)的連續(xù)隱馬爾可夫模型的比較實(shí)驗(yàn)表明,仿生模式識(shí)別的方法在少量樣本的情況下識(shí)別率遠(yuǎn)遠(yuǎn)優(yōu)于隱馬爾可夫模型。而將該理論應(yīng)用到端點(diǎn)檢測(cè)方面也取得了很好的效果。關(guān)鍵訶識(shí)別系統(tǒng)在識(shí)別之后需要經(jīng)過(guò)說(shuō)話驗(yàn)證階段。本文采用后分類器作為驗(yàn)證器實(shí)現(xiàn)說(shuō)話驗(yàn)證。在研究了統(tǒng)計(jì)學(xué)習(xí)理論中的嚴(yán)格支持向量機(jī)算法后,提出了參數(shù)優(yōu)化迭代的訓(xùn)練算法。實(shí)驗(yàn)表明應(yīng)用該算法實(shí)現(xiàn)的后分類器在關(guān)鍵詞識(shí)別系統(tǒng)的說(shuō)話驗(yàn)證階段提高了系統(tǒng)的檢出率。綜合上述的研究成果,本文實(shí)現(xiàn)了一個(gè)有關(guān)旅游信息的關(guān)鍵詞識(shí)別系統(tǒng)。自行建立了有關(guān)旅游信息的語(yǔ)音庫(kù),從特征提取、端點(diǎn)檢測(cè)到關(guān)鍵詞識(shí)別均采用本文所述的算法。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-11
頁(yè)數(shù): 76
大?。?2.25(MB)
子文件數(shù):
-
簡(jiǎn)介:近年來(lái)漢語(yǔ)數(shù)字語(yǔ)音識(shí)別系統(tǒng)越來(lái)越廣泛的應(yīng)用于各個(gè)領(lǐng)域。在實(shí)際生活中,由于噪聲等因素的影響,常常造成漢語(yǔ)數(shù)字較低的識(shí)別率。本文對(duì)漢語(yǔ)數(shù)字語(yǔ)音識(shí)別系統(tǒng)的訓(xùn)練數(shù)據(jù)、評(píng)測(cè)數(shù)據(jù)及聲學(xué)模型進(jìn)行了研究。完成了對(duì)兩個(gè)新語(yǔ)音庫(kù)中評(píng)測(cè)講話者的選擇。并對(duì)系統(tǒng)識(shí)別精確度進(jìn)行分析,通過(guò)對(duì)單音子模型及雙音子模型的狀態(tài)數(shù)的調(diào)整,提高了語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精確度。本文主要研究了以下三方面的內(nèi)容1研究了漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)中聲學(xué)模型的構(gòu)造。并了解語(yǔ)音識(shí)別系統(tǒng)中相關(guān)聲學(xué)模型參數(shù)估計(jì)、識(shí)別過(guò)程的算法及步驟。這個(gè)過(guò)程有利于對(duì)語(yǔ)音庫(kù)中訓(xùn)練數(shù)據(jù)和評(píng)測(cè)數(shù)據(jù)的區(qū)分,并為提高系統(tǒng)識(shí)別精確度提供了依據(jù)。2提出了一種為語(yǔ)音庫(kù)選擇評(píng)測(cè)講話者的方法。對(duì)于目前已擁有的幾組不同的評(píng)測(cè)講話者,通過(guò)分別比較各組評(píng)測(cè)講話者識(shí)別精確度曲線與語(yǔ)音庫(kù)所有講話者識(shí)別精確度曲線之間的最小均方差值,選擇出該值最小的一組評(píng)測(cè)講話者,作為此語(yǔ)音庫(kù)的評(píng)測(cè)講話者,用于客觀衡量語(yǔ)音識(shí)別系統(tǒng)中模型的訓(xùn)練好壞。3在提高識(shí)別系統(tǒng)精確度的研究中,對(duì)數(shù)字1和數(shù)字5的識(shí)別錯(cuò)誤率進(jìn)行了分析并找出相應(yīng)的問(wèn)題,通過(guò)逐步調(diào)整單音子模型及雙音子模型的狀態(tài)數(shù),進(jìn)而對(duì)模型進(jìn)行改進(jìn)。最后,在實(shí)驗(yàn)中逐步修改數(shù)字1、數(shù)字5的單音子模型及雙音子模型的狀態(tài)數(shù),對(duì)修改后的模型進(jìn)行訓(xùn)練、參數(shù)重估,并對(duì)系統(tǒng)進(jìn)行評(píng)測(cè),得到新的識(shí)別精確度。結(jié)果表明,通過(guò)對(duì)模型狀態(tài)數(shù)的修改,系統(tǒng)的識(shí)別精確度得到提高。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 61
大?。?7.61(MB)
子文件數(shù):
-
簡(jiǎn)介:漢語(yǔ)作為世界上使用人口數(shù)量最多的語(yǔ)言,是各國(guó)公眾了解中國(guó)的重要工具,也日益受到了許多國(guó)家的政府及教育機(jī)構(gòu)的重視。全球范圍內(nèi)學(xué)習(xí)漢語(yǔ)的人數(shù)越來(lái)越多,但由于某些原因,傳統(tǒng)課程的漢語(yǔ)學(xué)習(xí)已經(jīng)不能滿足某些學(xué)習(xí)者學(xué)習(xí)漢語(yǔ)的需求,另外傳統(tǒng)教學(xué)模式的單調(diào)統(tǒng)一有時(shí)并不能引起學(xué)習(xí)者的興趣,對(duì)于漢語(yǔ)初學(xué)者來(lái)說(shuō)還有可能打擊其學(xué)習(xí)的積極性,這些都在某種程度上限制了漢語(yǔ)學(xué)習(xí)以及漢語(yǔ)在全球的普及發(fā)展。另外由于計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)尤其是INTER的飛速發(fā)展,將從根本上消除人們進(jìn)行信息交流時(shí)的時(shí)空限制,從而也將對(duì)傳統(tǒng)的以課堂教學(xué)為核心的傳統(tǒng)教學(xué)模式帶來(lái)一場(chǎng)“革命”。本文針對(duì)漢語(yǔ)學(xué)習(xí)對(duì)“聚焦?jié)h語(yǔ)”在線漢語(yǔ)學(xué)習(xí)網(wǎng)站進(jìn)行設(shè)計(jì)、開發(fā)、實(shí)現(xiàn)與測(cè)試,在系統(tǒng)的設(shè)計(jì)開發(fā)過(guò)程中,注重了科學(xué)的軟件設(shè)計(jì)思路。首先在總體設(shè)計(jì)上,采用了模塊化和分層的設(shè)計(jì)理念,使整個(gè)系統(tǒng)流程清晰、邏輯合理,為系統(tǒng)的實(shí)現(xiàn)創(chuàng)造了良好的條件;其次,在各功能模塊的實(shí)現(xiàn)上,采用了在技術(shù)上非常流行的BS架構(gòu);然后,在網(wǎng)站的實(shí)現(xiàn)過(guò)程中,采用了PHP技術(shù)編寫WEB應(yīng)用程序,并使用PHP模板設(shè)計(jì)網(wǎng)站整體風(fēng)格;最后,數(shù)據(jù)的存儲(chǔ)和管理均使用MYSQL。本文就以網(wǎng)站內(nèi)容和實(shí)現(xiàn)途徑為主,試圖讓大家可以全方位地了解這個(gè)網(wǎng)站。在網(wǎng)站內(nèi)容方面,主要實(shí)現(xiàn)了教師與學(xué)生之間的相互交流和學(xué)習(xí)互動(dòng),老師可以通過(guò)該系統(tǒng)發(fā)布教學(xué)資源和解答學(xué)生提問(wèn),學(xué)生可以通過(guò)該系統(tǒng)瀏覽、下載學(xué)習(xí)資料以及向老師提問(wèn)等,其中漢語(yǔ)發(fā)音困難聲母的發(fā)音三維動(dòng)畫短片是本網(wǎng)站的一大特色。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 66
大小: 2(MB)
子文件數(shù):
-
簡(jiǎn)介:語(yǔ)音識(shí)別技術(shù)經(jīng)過(guò)30多年的發(fā)展,目前的研究已經(jīng)進(jìn)入非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別的高級(jí)階段。在這個(gè)過(guò)程中,隱馬爾可夫模型HMM扮演了重要的角色,當(dāng)前幾乎所有優(yōu)秀的語(yǔ)音識(shí)別系統(tǒng)都是基于HMM的。但是,傳統(tǒng)的連續(xù)密度隱馬爾可夫模型CDHMM有狀態(tài)輸出獨(dú)立的假設(shè),并假定其狀態(tài)輸出概率密度函數(shù)為混合高斯分布函數(shù)線性加權(quán)和。針對(duì)這些問(wèn)題,本文提出了一種新結(jié)構(gòu)的識(shí)別模型CDHMMMLP混合網(wǎng)絡(luò)模型,即將傳統(tǒng)的HMM和多層感知器MLP網(wǎng)相結(jié)合,以HMM為基本框架,每個(gè)HMM狀態(tài)對(duì)應(yīng)于一個(gè)MLP網(wǎng),用相繼的若干幀特征矢量作為MLP網(wǎng)的輸入,利用改進(jìn)的BP算法,對(duì)系統(tǒng)的輸出進(jìn)行預(yù)測(cè),從而實(shí)現(xiàn)對(duì)每個(gè)狀態(tài)的輸出概率密度函數(shù)的估計(jì),這樣識(shí)別系統(tǒng)的狀態(tài)輸出概率取決于MLP網(wǎng)對(duì)實(shí)際語(yǔ)音信號(hào)的逼近程度。該方法不僅能有效地在語(yǔ)音識(shí)別中引入幀間相關(guān)性,而且能克服狀態(tài)輸出概率密度函數(shù)為混合高斯分布的束縛,很好地描述了語(yǔ)音信號(hào)中存在的非線性特性。本論文為基于基本的HMM和基于混合網(wǎng)絡(luò)模型這兩種不同算法分別建立了非特定人漢語(yǔ)連續(xù)數(shù)碼串語(yǔ)音識(shí)別系統(tǒng),通過(guò)對(duì)比分析這兩個(gè)系統(tǒng)的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)后者的識(shí)別效果明顯優(yōu)于前者,充分證實(shí)了該方法的有效性。本論文首先介紹了語(yǔ)音識(shí)別的發(fā)展、現(xiàn)狀、方向和應(yīng)用前景,接著重點(diǎn)介紹了目前應(yīng)用最廣泛的MFCC特征參數(shù)的提取過(guò)程。其次,從評(píng)估問(wèn)題、訓(xùn)練問(wèn)題、解碼問(wèn)題三個(gè)方面對(duì)HMM進(jìn)行了詳細(xì)的介紹。再次,對(duì)神經(jīng)網(wǎng)絡(luò)及其在語(yǔ)音識(shí)別中的應(yīng)用做了介紹,并對(duì)本文中選用的MLP網(wǎng)進(jìn)行了詳細(xì)的探討。最后應(yīng)用這兩種不同的模型借助MATLAB平臺(tái)分別建立了漢語(yǔ)非特定人連續(xù)數(shù)碼串語(yǔ)音識(shí)別系統(tǒng),并對(duì)這兩個(gè)識(shí)別系統(tǒng)的實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比、分析,證實(shí)了基于混合網(wǎng)絡(luò)模型的系統(tǒng)識(shí)別效果要優(yōu)于基本模型的,同時(shí)對(duì)本論文的工作做了總結(jié),對(duì)今后進(jìn)一步的研究做了展望。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 75
大?。?2.08(MB)
子文件數(shù):