-
簡介:語義角色標注是語義分析的一個重要的研究方向。本文針對漢語虛詞能夠表征漢語句子句法信息的特點,提出并實現(xiàn)了兩種將漢語虛詞用法特征加入語義角色標注系統(tǒng)從而提高其性能的方法。本文首先嘗試通過添加漢語虛詞用法特征來改善依存句法分析的結(jié)果,再利用改進了的依存句法分析結(jié)果作為輸入來進行語義角色標注,即基于依存句法分析優(yōu)化結(jié)果的語義角色標注改進的研究工作。然后提出了一系列漢語虛詞用法特征相關(guān)的單個和組合特征,并利用貪心算法求出一個最有效的漢語虛詞相關(guān)特征集,通過直接添加漢語虛詞相關(guān)特征集進入語義角色標注特征集的方法來提高語義角色標注性能,即基于漢語虛詞用法相關(guān)特征的語義角色標注改進的研究工作。實驗證明,以上兩種方法的語義角色標注改進都是行之有效的改進方法,漢語虛詞是一種有效的語義角色標注特征。本研究在借鑒目前流行和高性能的技術(shù)成果以及前人對語義角色標注系統(tǒng)的相關(guān)研究的基礎(chǔ)上,構(gòu)造了本文所使用的基礎(chǔ)語義角色標注系統(tǒng)。利用前人關(guān)于漢語虛詞特征對依存句法分析的改進的相關(guān)研究,提出并實現(xiàn)了通過添加漢語虛詞特征來改善依存句法分析結(jié)果,再用改進了的依存句法分析結(jié)果作為輸入來進行語義角色標注的方法,即基于依存句法分析優(yōu)化結(jié)果的語義角色標注改進的研究工作。提出了多個可直接用于語義角色標注系統(tǒng)的漢語虛詞相關(guān)的單個和組合特征,并利用實驗方法分別測定了其對語義角色標注系統(tǒng)性能上的影響,最后利用貪心算法擇優(yōu)構(gòu)建了可直接用于語義角色標注系統(tǒng)的特征集合。提出并實現(xiàn)了將擇優(yōu)構(gòu)建了的漢語虛詞相關(guān)特征集加入到基礎(chǔ)語義角色標注系統(tǒng)的相關(guān)特征集中,以此方法來提高語義角色標注性能的方法,即基于漢語虛詞用法相關(guān)特征的語義角色標注改進的研究工作。并對比了基于依存句法分析優(yōu)化結(jié)果的語義角色標注改進與基于漢語虛詞用法相關(guān)特征的語義角色標注改進的結(jié)果。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 65
大小: 2.17(MB)
子文件數(shù):
-
簡介:分類號學校代碼10542密級學號201570040253韓國學生漢語易混詞偏誤分析及教學對策研究以韓國圓光大學孔子學院為THEANALYSESONCONFUSABLE緯白RDSOFKOREANSTUDENTSINCHINESE一一D』L●ANDTEACHINGMETHEODMETL饈EOAUSINGKOREANWONKWANGUNIVERSITYCONFUCIUSINSTITUTEASANEXAMPLE研究生姓名顏湘指導教師姓名、職稱羅昕如教授學科專業(yè)研究方向漢語國際教育漢語國際教育湖南師范大學學位評定委員會辦公室二零一七年五月習者易混詞語料進行全面的收集,通過對已有研究中建立起的“韓國留學生詞匯偏誤語料庫“中總結(jié)出的209對易混詞,以及本人在教學中遇到的典型普遍的問題,與同義、近義詞的關(guān)系以及存在的問題進行分析研究,對易混詞的主要類型與特點,以及本文中出現(xiàn)的易混詞進行確定與分類。第三章韓國學生易混詞的使用情況調(diào)查及偏誤分析對確定的易混詞進行分類整理,做出數(shù)據(jù)統(tǒng)計后,選取各類別中有代表性的詞語有針對性地設(shè)計出調(diào)查問卷對韓國漢語學習者易混詞學習現(xiàn)狀進行調(diào)查,對調(diào)查結(jié)果進行分析。最后對以上語料進行描述和總結(jié)性分析,對偏誤產(chǎn)生的原因進行探討。第四章對易混詞教學方法和策略建議根據(jù)易混詞的偏誤類型以及偏誤產(chǎn)生的原因,結(jié)合筆者在韓一年以來的教學實踐和韓國學生的學習情況,從教材編寫和課堂教學兩個角度,對韓國學習者漢語詞匯學習和在韓漢語教師的詞匯教學提出了幾點教學建議。第五章幾組易混詞的教學設(shè)計對具有代表性的幾組易混詞進行教學設(shè)計。第六章結(jié)語對本文所做的研究進行概括總結(jié),總結(jié)本文的研究成果。本文對韓國漢語學習者易混詞進行了研究。研究結(jié)果表明,當前韓國學生最易出現(xiàn)偏誤的易混詞類型是有相同語素且意義相近的一類易混詞,其次是語素不同但意義相近一類易混詞。造成韓國學生易混詞偏誤的主要原因是詞義上的相近,而不是語素相同。我們還對學
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 61
大小: 2.17(MB)
子文件數(shù):
-
簡介:電子耳蝸是唯一能恢復全聾患者部分聽覺感知的醫(yī)學裝置其有效縮短了神經(jīng)細胞再生或者基因治療等技術(shù)治愈感音神經(jīng)性耳聾的研發(fā)周期主要采用電極脈沖刺激耳聾患者的殘留聽神經(jīng)纖維以使全聾人恢復部分聽覺感知能力。最新研究表明采用傳統(tǒng)的電子耳蝸編碼策略電子耳蝸植入患者在安靜環(huán)境下甚至可以進行正常的電話交流但是在噪聲環(huán)境下語音感知力明顯不足尤其是漢語感知能力急劇下降。本文主要設(shè)計一種符合漢語聲學特征的電子耳蝸編碼策略以此解決目前電子耳蝸編碼策略的漢語感知不足問題。本文在已有的電子耳蝸中文編碼策略的基礎(chǔ)上通過探索正常人耳聽覺刺激模式以及患者的實際頻率感知閾限進而提出了采用低頻過零刺激高頻邊帶編碼LFZSHFSELOWFREQUENCYZEROCROSSINGSTIMULATINGHIGHFREQUENCYSIDEBENCODING方案詳細闡述了該方案的理論基礎(chǔ)并對涉及的相關(guān)問題進行了深入的分析討論。為了驗證本方案的優(yōu)越性采用聽覺仿真實驗對電子耳蝸編碼策略建模并采用主客觀分析方法評估不同電子耳蝸編碼策略對漢語識別的優(yōu)劣性。本文主要工作如下1詳細分析了時域和頻域聲學參數(shù)對漢語識別的影響介紹了目前電子耳蝸主流編碼策略連續(xù)交替采樣CISCONTINUOUSINTERLEAVEDSAMPLING方案高級混合編碼ACEADVANCEDCOMBINATIONENCODING方案并通過聽覺仿真實驗?zāi)M實際聽覺效果分析其在漢語識別方面的不足。2探索了人耳聽覺感知的電刺激模式闡述了準鎖相刺激PLSPHASELOCKINGSTIMULATING方案的原理并提出了基于精細結(jié)構(gòu)過零FSZCFINESTRUCTUREZEROCROSSING刺激方案用于提高漢語聲調(diào)識別率采用過零時刻形式對時間精細結(jié)構(gòu)編碼在脈沖間隔傳遞語音信息。聽覺仿真結(jié)果表明FSZC方案在低信噪比下漢語聲調(diào)識別率維持在90%左右語句識別率維持在45%左右優(yōu)于CIS方案、ACE方案、PLS方案。3針對患者受限于頻率感知閾限問題及其聽覺實際電刺激模式基于FSZCFINESTRUCTUREZEROCROSSING方案和SSESINGLESIDEBENCODING方案的理論和仿真實驗結(jié)果本文最終提出了采用低頻過零刺激高頻邊帶編碼LFZSHFSELOWFREQUENCYZEROCROSSINGSTIMULATINGHIGHFREQUENCYSIDEBENCODING方案并進行漢語聲調(diào)、輔音、單詞、語句識別率仿真實驗結(jié)果顯示本文方案在低信噪比下聲調(diào)識別率維持在95%左右輔音和單詞的識別率也維持在40%以上語句識別率維持在75%以上較其他方案都有一定的提高。綜上所述本文設(shè)計了一種符合患者實際聽覺感知模式的電子耳蝸中文編碼方案聽覺仿真實驗表明了本文方案在漢語聲調(diào)、輔音、單詞、語句識別上均得到了一定程度提高表明了本文方案的可行性及優(yōu)越性。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 75
大?。?3.51(MB)
子文件數(shù):
-
簡介:寧夏大學碩士學位論文漢語成語修辭的文化闡釋姓名馮學娟申請學位級別碩士專業(yè)漢語言文字學指導教師馮玉濤20060301ABSTRACTTHEREARECLOSERELATIONSAMONGCHINESE.CHINESEIHETORICANDHARTCULTURE.CHINESEIDINMSAREPRECIOUSTREASUREOFLANGUAGEOFHAN.ITISNOTONLYTHECARRIEROFHANCULTURE,BUTALSOTHECRYSTALLIZATIONOFIT.THEPAPER,FROMTHEPO缸OFTHECULTURALBACKGROUND,ISTODISCUSSTHERHETORICPHENOMENAINCHINESEIDIOMS.THEREAREABUNDANTFIGURESOFSPEECHINCHINESEIDIOMS.THE21KINDSOFRHETORICSPEECHCANBEDIVIDEDINTOTWOGROUPSFIGURESOFSPEECHNAMEDBYCONTENTCHARACTERISTICSANDFIGURESOFSPEECHNAMEDBYFORMCHARACTERISTICS.CHINESEIDIOMSARETHEPRODUCTOFRHETORICACTIVITY.THEREARETWORHETORICUSAGESDURINGEXERTINGTHECHINESEIDIOMS,THATISPOSITIVEDEVIATIONANDNEGATIVEDEVIATION.THEFORMERIMPROVESTHEEXPRESSIVEEFFECTOFTHECHINESEIDIOMSANDTHELATTERDECREASESIT.HLANGUAGEAPPLICATION,THECHINESEIDIOMSOWNMANYRHETORICFUNCTIONS,SUCHASMUSICALQUALITFIVIVIDNESS,POINTEDNESS,SHARPNESSANDCLASSICALGRACE.SOTHEYAREUSEDFIEQUENTLYINPRACTICE.HANCULTUREISANIMPORTANTFACTORFORFORMINGTHECHINESEFIGURESOFSPEECH.THEVALUES,CULTURALPSYCHOLOGY,AESTHETICSENTIMENTANDTHINKINGMETHODSAGEFULLYEMBODIEDINTHECHINESEFIGURESOFSPEECH.THISPAPERREVEALTHERELATIONSOFTHECHINESEIDIOMS,CHINESERHETORICANDHANCULTURE,INORDERTOLEARNANDUNDERSTANDTHEFEATURESOFTHECHINESEIDIOMSTOPUTTHEMINTOPRACTICEBETTERTHANEVERBEFORE,T0HIGHLIGHTTHEEXPRESSIVEEFFECT.STATISTICS,INDUCTIVEMETHOD,COMPARISON,ILLUSTRATIONANDCULTURALEXPLANATIONALEAPPLIEDINTHISPAPER.THEPAPERALSOANALYZECOMPREHENSIVELYTHEFIGURESOFSPEECHOFTHECHINESEIDIOMS,THECULTURALCONNOTATIONINNOVATIONOFTHISPAPER,THEDEVIATIONOFTHECHINESEIDIOMSANDITSRHETORICFUNCTIONS.KEYWORDSCHINESEIDIOMS,F(xiàn)IGURESOFSPEECH,DEVIATION,CULTURALPERSPECTIVE
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 45
大?。?1.5(MB)
子文件數(shù):
-
簡介:該文嘗試從漢語詞類角度出發(fā),以三個平面理論為基礎(chǔ),對現(xiàn)代漢語描狀性副詞的定義、歸屬、范圍、分類、運用等問題作了初步探討,得出了相應(yīng)結(jié)論。首先以句法功能為標準,語義為參照,定義了該文所討論的描狀性副詞;據(jù)此定義,討論了描狀性副詞的命名和詞類歸屬;在此基礎(chǔ)上,將描狀性副詞和其它相關(guān)詞類作了區(qū)分,通過對張誼生和李泉二人列舉的對比,提出了該文列舉描副的標準和原則,從而在統(tǒng)計語料的基礎(chǔ)上確定描副的范圍和數(shù)量。然后,根據(jù)描副的語義特征以及與其它句子成分之間的關(guān)系,將描副分成了若干小類。以上是針對描狀性副詞的本體研究。該文的第四章以本體研究為背景,對留學生的漢語教學大綱和HSK考試大綱作了對比,對教學大綱提出了一點建議。同時,以中介語語料為基礎(chǔ),分類談了留學生在使用描狀性副詞中的偏誤情況,并以此來談了關(guān)于描狀性副詞的教學方法問題。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 49
大?。?1.36(MB)
子文件數(shù):
-
簡介:近年來,自然語言研究的熱點已經(jīng)轉(zhuǎn)到了語義角色標注上來。本文以漢語框架語義知識庫為基礎(chǔ),結(jié)合漢語自身的特點,重點研究了漢語框架語義角色自動標注問題,為以后構(gòu)建大規(guī)模的語料庫,推動中文信息檢索、自動問答、信息抽取等自然語言處理技術(shù)的發(fā)展,做出了有益的探索。由于漢語的完全句法分析器的性能達不到使用階段,本文將漢語框架語義角色看做是以詞為標注單位的序列標注問題,使用支持向量機作為分類器來訓練模型,并將詞層面特征和基本塊層面特征融合到標注模型中。本文的語義角色標注任務(wù)為給定目標詞和目標詞所屬的框架,在句子中自動識別出框架元素并為其標上相應(yīng)的框架語義角色。本文從漢語框架語義知識庫中挑出25個框架作為實驗語料,并在此實驗語料上進行了3組2折交叉驗證,最后用這3組2折交叉驗證的均值作為我們模型的性能。實驗中,我們首先為每類候選特征提供幾種窗口大小,然后用正交表對特征及其窗口的大小進行選擇。本文構(gòu)建了兩類語義角色標注模型一類是基于詞特征的語義角色標注,在把語義角色的識別和分類分開進行時,我們得到了5965%的F值,把識別和分類聯(lián)合起來進行實驗時,我們得到的性能是5872%另一類是基于基本塊特征的語義角色標注,在語義角色識別和分類分開進行時我們得到了5967%的F值,識別和分類聯(lián)合進行時得到了5892%的F值。實驗結(jié)果表明1將語義角色標注分為兩步進行比兩步聯(lián)合起來進行的性能要好2加入基本塊信息后,語義角色識別和分類的性能都有所提高,但提高不大3兩類模型都表現(xiàn)出了明顯的高準確率低召回率的現(xiàn)象。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 92
大?。?3.06(MB)
子文件數(shù):
-
簡介:漢語框架網(wǎng)(CHINESEFRAME,CFN)是以FILLME的框架語義學作為理論基礎(chǔ),以FRAME為參照,以漢語語料事實為依據(jù)的供計算機使用的漢語詞匯語義資源。CFN主要是由框架庫、句子庫和詞元庫三部分組成。目前構(gòu)建了323個漢語框架,涉及3947個詞元,標注了20000個句子,為計算機進行漢語框架語義分析及其應(yīng)用研究提供了寶貴的漢語語義資源。如何有效的對漢語框架網(wǎng)的資源進行知識表示,是實現(xiàn)其應(yīng)用價值的關(guān)鍵所在。本文使用可擴展標記語(XML)來表示CFN資源數(shù)據(jù),通過使用統(tǒng)一的描述策略,使計算機可讀,且適合人閱讀和理解,并為后續(xù)研究及相關(guān)語義輔助工具的應(yīng)用提供幫助。本文的主要研究內(nèi)容如下(1)漢語框架網(wǎng)語義資源包含框架庫、句子庫和篇章庫,針對三個庫的結(jié)構(gòu)特點,遵循XML規(guī)范,參照FRAME、語言技術(shù)平臺LANGUAGETECHNOLOGYPLATFMLTP相關(guān)資源的表示,系統(tǒng)地制定了漢語框架網(wǎng)語義資源XML表示體系。(2)框架庫、詞元庫資源均以WD文檔格式存儲學習并掌握了JACOB技術(shù),同時結(jié)合微軟OFFICE的組件,完成了WD文檔向XML文件的轉(zhuǎn)換。目前現(xiàn)有的資源已全部轉(zhuǎn)換,共計4270篇。(3)針對已經(jīng)標注好的句子和篇章生成XML文件的特點,設(shè)計并實現(xiàn)了漢語框架網(wǎng)語義資源句子庫和篇章庫的XML文件自動生成系統(tǒng)。目前已生成18000條句子和164個篇章的XML文件。(4)為了讓研究人員更直觀地分析理解所用資源的語義信息,針對框架庫資源的多角度展現(xiàn)角色關(guān)系的特點,借鑒FRAME展示技術(shù),掌握并使用XSL樣式表,使資源在WEB瀏覽器上展現(xiàn)出來更加美觀。同時構(gòu)建索引對資源進行統(tǒng)一管理,使研究人員更快速的檢索資源。本文根據(jù)漢語框架網(wǎng)資源的結(jié)構(gòu)特點,建立了一個基于XML語言的漢語框架網(wǎng)語義資源表示體系,目前已經(jīng)實現(xiàn)自動生成XML文件系統(tǒng),達到機器自動高效讀取,以及在WEB瀏覽器上展示框架的XML文件,為研究人員直觀分析理解框架資源的語義信息提供了便利。同時,該系統(tǒng)可結(jié)合自動語義分析系統(tǒng),將其語義分析結(jié)果自動生成XML文件,擴展了CFN的應(yīng)用范圍,為后續(xù)相關(guān)研究奠定了基礎(chǔ)。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 51
大?。?1.24(MB)
子文件數(shù):
-
簡介:同濟大學碩士學位論文漢語“被”字式與英語“BEVEN”式的語法化比較研究姓名潘攀申請學位級別碩士專業(yè)外國語言學及應(yīng)用語言學指導教師向明友20050102眾多的被動表示法中,“被”字式和BEYEN式能夠在競爭中取勝,是由于它們本身有益于更清晰、更經(jīng)濟地表達被動意義。通過這一研究,語法化理論的強大解釋能力得到證明,也為漢語“被”字式和英語BEGEN結(jié)構(gòu)研究中~直懸而未決的問題找到了答案。關(guān)鍵詞語法化X又“被“字式BEVEN結(jié)構(gòu)被動夷逛法漢語“稈曼”宇式萇語8E十VENUEN
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 74
大?。?1.44(MB)
子文件數(shù):
-
簡介:隨著語音識別技術(shù)的發(fā)展,越來越多的語音產(chǎn)品走進我們的生活。近年來,汽車的普及率不斷提高,消費者對汽車功能的要求也越來越高。應(yīng)用語音識別技術(shù),通過語音指令控制車內(nèi)的輔助設(shè)備,可以提高乘車的舒適性和安全性。車載漢語語音控制命令識別系統(tǒng)具有實時性、魯棒性和識別率高等特點。本文研究的是小詞匯量特定人組漢語孤立詞語音識別。首先介紹了語音識別的基本原理和識別流程。然后,詳細介紹語音識別的各個環(huán)節(jié)和所用的方法,并用MATLAB軟件完成編程和仿真實驗。本文使用數(shù)字高通濾波器濾除大部分噪聲提出一種用于端點檢測的參數(shù),將語音信號每一幀的分帶譜熵、C0復雜度和譜能量結(jié)合在一起,作為端點檢測的特征參數(shù)提取24維MEL頻率倒譜系數(shù)作為語音識別的特征參數(shù)根據(jù)語音信號的長度,將語音指令切分為動詞和名詞兩部分,采用不同的識別算法分別對這兩部分進行識別將兩部分的算法進行組合,得到9種組合算法根據(jù)車載語音識別的各項評價指標,采用灰色定權(quán)聚類的方法,對各種組合算法進行評估,并選擇最優(yōu)識別算法。根據(jù)實驗結(jié)果,動詞部分的識別算法采用BP神經(jīng)網(wǎng)絡(luò),名詞部分的識別算法采用隱馬爾可夫模型。這種組合算法更適用于本文研究的車載語音識別系統(tǒng)。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 54
大?。?7.64(MB)
子文件數(shù):
-
簡介:語音的數(shù)字化分析和處理是語音信號數(shù)字傳輸和數(shù)字存儲的重要過程。隨著語音通信技術(shù)的發(fā)展,高音質(zhì)、低帶寬等優(yōu)點一直是人們追求的目標,語音壓縮編碼在實現(xiàn)這一目標的過程中擔當著十分重要的角色。目前語音信號的分析與壓縮編碼都是采用線性理論和線性預測編碼技術(shù),而語音信號的產(chǎn)生系統(tǒng)是一個復雜的非線性時變系統(tǒng),具有混沌性和分形特征,所以采用線性方法來對語音進行處理無法從根本上提高語音傳輸和存儲的性能。因此,論文在深入研究了語音信號非線性特性的基礎(chǔ)上,結(jié)合徑向基神經(jīng)網(wǎng)絡(luò)(簡稱RBF神經(jīng)網(wǎng)絡(luò),RADICALBASISFUNCTIONWK)構(gòu)造了一個語音信號非線性預測模型,并基于該模型設(shè)計出一個非線性預測編碼系統(tǒng)。論文主要研究工作和創(chuàng)新點如下1語音信號的混沌性檢測和分形特征在非線性理論的基礎(chǔ)上,針對漢語語音音素非線性特征參數(shù)的求解算法進行了研究,提出采用WOLF算法計算出33個漢語語音音素的最大LYAPUNOV指數(shù),所得結(jié)果證明了漢語語音信號具有混沌性。然后采用GP算法求解出33個漢語語音音素的關(guān)聯(lián)維數(shù),根據(jù)所得結(jié)果說明濁音信號的產(chǎn)生系統(tǒng)是低維系統(tǒng),而部分清音的發(fā)音系統(tǒng)是高維系統(tǒng)。2語音信號的相空間重構(gòu)及其參數(shù)確定對語音信號非線性預測的理論依據(jù)以及預測工具進行了分析,并研究相空間重構(gòu)參數(shù)延遲時間和嵌入維數(shù)的確定方法。針對CC算法存在的局限性,采用結(jié)合自相關(guān)算法、虛假近鄰法的方法分別求解出漢語語音音素的延遲時間和嵌入維數(shù)。針對實驗中采樣率的選擇和語音源的問題,論文運用統(tǒng)計分析的方法進行了研究,所得結(jié)果表明計算出的延遲時間和嵌入維數(shù)對不同的采樣率和語音源具有較強的魯棒性。3基于RBF神經(jīng)網(wǎng)絡(luò)的漢語語音非線性預測模型將漢語語音音素的非線性特征參數(shù)與RBF神經(jīng)網(wǎng)絡(luò)分析方法相結(jié)合,提出根據(jù)所計算出的33個漢語語音音素的延遲時間及嵌入維數(shù)作為RBF神經(jīng)網(wǎng)絡(luò)模型中三層網(wǎng)絡(luò)神經(jīng)元個數(shù),構(gòu)造出一個基于RBF神經(jīng)網(wǎng)絡(luò)的漢語語音信號非線性預測模型,并將該預測模型與現(xiàn)有的ADPCM線性預測模型進行了性能比較,仿真結(jié)果表明非線性預測模型預測誤差較小,說明所提出的非線性預測模型具有更好的預測性能。4基于小波變換的語音增強處理針對語音信號的預測編碼性能在噪聲環(huán)境下會迅速下降的問題,研究了基于小波變換的語音增強處理技術(shù),著重對小波去噪算法中的閾值去噪法進行了研究。一方面,針對閾值去噪算法中的傳統(tǒng)閾值的選取難以適應(yīng)非平穩(wěn)噪聲的這一缺點,將MCRA算法應(yīng)用于小波域計算其噪聲方差,得到隨實時變化的噪聲估計,并利用譜平坦度自適應(yīng)調(diào)整閾值另一方面,針對傳統(tǒng)的軟硬閾值函數(shù)的不足,在BREIMAN提出的非負死區(qū)閾值函數(shù)的基礎(chǔ)上進行了改進,設(shè)計出一種改進的閾值函數(shù),并從連續(xù)性、單調(diào)性等方面進行分析,驗證其合理性。5語音ECENP編碼系統(tǒng)的設(shè)計運用構(gòu)造出的非線性預測模型,結(jié)合增強處理和CELP語音編碼算法,設(shè)計了一個非線性預測編碼系統(tǒng)ECENP。系統(tǒng)中,預處理部分加入了所提出的小波變換的語音增強處理,預測器部分采用了所設(shè)計的RBF神經(jīng)網(wǎng)絡(luò)的非線性預測模型。仿真結(jié)果表明與CELP線性預測編碼系統(tǒng)相比,該非線性預測編碼系統(tǒng)具有編碼語音質(zhì)量高、魯棒性好等優(yōu)點。論文運用非線性的理論和方法,構(gòu)造了一個ECENP語音編碼系統(tǒng),與CELP編碼系統(tǒng)相比,該編碼系統(tǒng)編解碼后恢復出的語音信號的音質(zhì)比較高而且魯棒性較好,說明所提出的非線性理論的研究方法適合于具有非線性特性的語音,為語音信號的處理技術(shù)提供了新的思路和新的方法。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 116
大?。?10.53(MB)
子文件數(shù):
-
簡介:句法分析是自然語言處理的基本任務(wù)之一,是語義理解、問答系統(tǒng)等自然語言理解任務(wù)實現(xiàn)的基礎(chǔ)。本文根據(jù)已有的現(xiàn)代漢語虛詞用法知識庫,初步探討了基于漢語虛詞用法的短語邊界識別在句法分析中的應(yīng)用,將虛詞用法應(yīng)用于不同短語邊界識別方法;在此基礎(chǔ)上進一步提出了基于短語邊界的句法分析模型PHRASE_BASEDPARSER。在CTB80數(shù)據(jù)集上進行的實驗表明PHRASE_BASEDPARSER能夠改正因某些短語邊界錯誤而導致的錯誤句法樹,平均準確率提升了69%。本文的主要研究工作如下1)根據(jù)現(xiàn)代漢語虛詞用法知識庫對CTB80(CHINESETREEBANK80)中的虛詞分布進行了統(tǒng)計分析,統(tǒng)計顯示在CTB80的全部詞中虛詞占有很重要的比例。利用CRF模型對CTB80中的虛詞用法進行自動識別標注。使用BERKELEYPARSER對CTB80的原語料進行句法分析,對得到的句法樹進行錯誤分析,發(fā)現(xiàn)包含虛詞成分的短語邊界平均錯誤率達4076,可見短語邊界的正確性將會影響句法分析的準確率。2)構(gòu)建基于CTB80的語料庫。本文構(gòu)建了基于CTB80的標準短語邊界標注語料庫,設(shè)計了一組短語標記符號,并構(gòu)建了基于CTB80的短語標記樹庫。3)研究基于虛詞用法的規(guī)則和統(tǒng)計模型在介詞短語、連詞相關(guān)短語以及包含助詞“的”的短語邊界識別中的應(yīng)用,實驗結(jié)果表明,基于規(guī)則的短語邊界識別結(jié)果平均準確率達到4706;基于CRF模型的短語邊界識別結(jié)果平均準確率達到了7369,基于CNN模型的短語邊界識別結(jié)果平均準確達到了7554。4)提出了一個基于短語邊界的句法分析模型PHRASE_BASEDPARSER,在CTB80的數(shù)據(jù)集上的實驗表明,對包含介詞短語的句子,PHRASE_BASEPARSER的句法分析結(jié)果比BERKELEYPARSER的結(jié)果F值提高了272,對包含連詞相關(guān)短語的句子PHRASE_BASEPARSER的句法分析結(jié)果比BERKELEYPARSER的結(jié)果F值提高了132。5提出了一個基于虛詞用法的句法分析模型USAGE_BASEDPARSER,將短語邊界識別的結(jié)果使用USAGE_BASEDPARSER進行句法分析。實驗結(jié)果表明,介詞“據(jù)”的介詞短語的句法分析結(jié)果準確率提升2069,連詞相關(guān)短語的句子句法分析結(jié)果準確率平均提升69。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 59
大?。?2.91(MB)
子文件數(shù):
-
簡介:句法分析是自然語言處理領(lǐng)域的一個關(guān)鍵問題,其任務(wù)是根據(jù)給定的語法,自動推導出句子的語法結(jié)構(gòu)。近幾年,依存句法分析逐漸受到重視,然而,依存句法分析對單句研究得比較多,而對復句關(guān)注得比較少。在漢語研究領(lǐng)域,復句是重要的語法實體,它表達的語義信息豐富而復雜,因而在依存句法分析領(lǐng)域具有更加重要的研究價值。基于以上原因,本文主要是對漢語復句語料庫CCCS中的并列類復句進行依存句法分析。CCCS語料庫中的并列類復句大多是長句,為了解決長句帶來的句法分析難題,結(jié)合并列類復句自身的特點,首先依據(jù)關(guān)系詞搭配和逗號對并列類復句進行分句,這樣可以在一定程度上降低復句的長度。然而這樣分句后,還是會有分句是長句。依據(jù)依存語法的定義,漢語句子根結(jié)點兩邊的依存關(guān)系不存在交叉現(xiàn)象。于是運用機器學習的方法構(gòu)造了根查找器,用來找到分句的根結(jié)點,然后利用根結(jié)點再次對分句中的長句進行分割。這樣經(jīng)過兩次分句后,不僅可以更好地降低復句的長度,降低句子分析的復雜度,而且在一定程度上提升了并列類復句依存句法分析的準確率。在分析復句的依存關(guān)系時,選取的是ARCEAGER決策式依存句法分析算法,然而,在漢語中這種方法容易出現(xiàn)動詞和動詞以及動詞和介詞的過早規(guī)約問題。于是,改進了兩段式依存句法分析方法,使其能夠同時解決這兩種過早規(guī)約問題。實驗開始前,在漢語復句語料庫中選取了2000句并列類復句進行依存關(guān)系標注,作為實驗使用的漢語并列類復句依存樹庫。隨后,在不同數(shù)量的訓練集和測試集上進行了根查找器和依存句法分析器的實驗和實驗結(jié)果分析,對比了一次分析和兩階段分析,證明了兩階段分析的有效性。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 60
大?。?1.9(MB)
子文件數(shù):
-
簡介:篇章指由一系列連續(xù)的子句、句子或語段構(gòu)成的語言整體單位,每個篇章不僅具有內(nèi)部連貫性,而且篇章中的各級語言整體。在一個篇章中,子句、句子或語段間具有一定的層次結(jié)構(gòu)和語義關(guān)系,篇章結(jié)構(gòu)分析旨在分析出這種結(jié)構(gòu)關(guān)系。篇章結(jié)構(gòu)分析結(jié)果對于提高自動文摘、知識抽取、自動問答等相關(guān)系統(tǒng)的性能均有重要作用。隨著詞法、句法分析技術(shù)的成熟,篇章結(jié)構(gòu)分析成為制約自然語言處理單位是描述同一問題或同一種情境的相對完整的語言的關(guān)鍵基礎(chǔ)問題。目前篇章結(jié)構(gòu)分析研究主要面向英語,面向漢語的研究相對落后。主要表現(xiàn)在1適用于漢語的篇章結(jié)構(gòu)分析理論還不完善2)符合漢語特點的大規(guī)模漢語篇章結(jié)構(gòu)語料資源匱乏3)由于漢英語言上的差異性,適用于英語的篇章結(jié)構(gòu)分析方法不能直接應(yīng)用在漢語篇章結(jié)構(gòu)分析研究中。本文重點研究了漢語篇章結(jié)構(gòu)的理論表示體系。借鑒英語修辭結(jié)構(gòu)理論和賓州篇章樹庫體系的優(yōu)點,參考漢語復句和句群的研究成果,結(jié)合漢語本身特點,本文提出一種基于連接依存樹的漢語篇章結(jié)構(gòu)表示體系,并根據(jù)漢語特點定義了其中的關(guān)鍵元素子句(基本篇章單位)、連接詞、篇章結(jié)構(gòu)關(guān)系、篇章單位主次。連接依存樹的主要特征是葉子節(jié)點為子句,內(nèi)部節(jié)點為連接詞,連接詞通過其層級地位(管轄范圍)表示篇章結(jié)構(gòu)層次,通過其語義(具體與抽象)表示篇章關(guān)系,連接詞所連接的篇章單位根據(jù)篇章整體意圖區(qū)分主次。與修辭結(jié)構(gòu)理論、賓州篇章樹庫體系的理論對比表明,本文所提基于連接依存樹的漢語篇章結(jié)構(gòu)表示體系在理論上具有一定的優(yōu)越性,并且符合漢語特點?;谶B接依存樹的漢語篇章結(jié)構(gòu)表示體系是進一步開展篇章結(jié)構(gòu)語料庫構(gòu)建的理論基礎(chǔ)。在此基礎(chǔ)上,進行了漢語篇章結(jié)構(gòu)語料庫的構(gòu)建研究。基于連接依存樹表示體系,本文采用自頂向下的標注策略和人機結(jié)合的語料庫標注方式,構(gòu)建了漢語篇章結(jié)構(gòu)語料庫CHINESEDISCOURSETREEBANK,CDTB。CDTB目前包含來自CHINESETREEBANK的500個文檔,本文對其進行分析并展示了語料庫的標注情況。標注一致性測試表明CDTB標注質(zhì)量較好,統(tǒng)計數(shù)據(jù)表明所標CDTB達到一定規(guī)模。CDTB可以為漢語篇章結(jié)構(gòu)分析研究提供資源支持。最后,本文實現(xiàn)了基于連接依存樹的漢語篇章結(jié)構(gòu)分析平臺。該平臺包括子句識別、篇章結(jié)構(gòu)樹構(gòu)建、篇章關(guān)系識別、篇章單位主次識別任務(wù),實驗結(jié)果驗證了本文所提基于連接依存樹的漢語篇章結(jié)構(gòu)表示體系的合理性,以及所標CDTB語料庫的可用性。目前,漢語篇章結(jié)構(gòu)分析研究尚處于起步階段,本文研究亦屬探索性工作,上述工作在理論研究、資源建設(shè)、計算分析上對漢語篇章結(jié)構(gòu)分析研究均有不同程度的創(chuàng)新,對該領(lǐng)域的相關(guān)研究具有重要參考價值。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 136
大?。?5.77(MB)
子文件數(shù):
-
簡介:山西大學2010屆博士學位論文漢語框架語義角色的自動標注技術(shù)研究作者姓名指導教師學科專業(yè)研究方向培養(yǎng)單位學習年限李濟洪梁吉業(yè)劉開瑛教授計算機應(yīng)用技術(shù)中文信息處理計算機與信息技術(shù)學院2006年9月2010年6月二。一。年六月目錄『IFLLLLLLLLLLLLLLLIFLFLLFLIJIIFLLLLLLLIIJIJFJIY2680259中文摘要I第1章引言11。L漢語框架語義網(wǎng)知識庫L12研究現(xiàn)狀6第2章漢語框架語義角色標注任務(wù)描述1021標注單元1022語義角色的標注步驟11第3章條件隨機場模型介紹1331條件隨機場CI強模型簡介1332同一個框架不同詞性詞元角色分布的檢驗1433后處理方法15第4章特征提取和特征選擇2041詞層面特征2042基本塊特征2L43利用正交表進行特征模板的選優(yōu)2543。1方案一基于11個詞層面特征的模板選優(yōu)27432方案二基于26個詞層面特征和基本塊特征的模板選優(yōu)27433方案三基于分批實驗的正交表特征模板選優(yōu)方案28第5章語料切分與評價方法351語料來源與切分3L52評價指標3353評價指標的方差的估計3354兩個系統(tǒng)性能差異的顯著性檢驗35第6章實驗結(jié)果及分析3761基于詞層面特征的實驗37611基于詞層面特征的邊界識別與角色分類兩步同時進行的實驗37612基于詞層面特征的先邊界識別,然后再做角色分類的實驗結(jié)果4362模型中加入基本塊特征的實驗45
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 86
大小: 5.24(MB)
子文件數(shù):
-
簡介:語言是人類進行溝通和交流的一種最便捷方式,語音是語言的一種形式。語音合成與轉(zhuǎn)換是語音信號處理的重要分支,得到了廣泛的應(yīng)用。語音預處理是語音合成與轉(zhuǎn)換的重要組成部分,其結(jié)果直接影響合成和轉(zhuǎn)換語音的質(zhì)量。然而語音預處理、語音合成與轉(zhuǎn)換算法仍然存在一些不足和有待解決的問題,如含噪語音清濁音分類準確度不是很高、協(xié)同發(fā)音現(xiàn)象沒有很好地得到解決、合成與轉(zhuǎn)換語音的自然度不能令人滿意等。語音合成與轉(zhuǎn)換的關(guān)鍵技術(shù)是語音預處理、小語料庫的語音合成與轉(zhuǎn)換,本文研究上述相關(guān)算法,解決了合成與轉(zhuǎn)換語音清晰度、自然度低的問題,提高了合成與轉(zhuǎn)換語音的質(zhì)量。在語音預處理方面,針對以往清、濁音分類算法的不足,提出基于MEL子帶能量高斯混合模型的分類算法,該算法采用MEL頻率來計算語音信號在頻譜各子帶能量分布比例,作為特征來建立高斯混合模型,計算各類語音信號對應(yīng)高斯混合模型的最大后驗概率,對語音信號進行清、濁音分類,仿真實驗證明了該算法的有效性。針對基音檢測存在的問題,提出了幅值補償?shù)腁MDF基音檢測算法,降低了由于語音信號幅值衰減而造成的檢測誤差,仿真實驗表明,該方法具有更高的基音檢測準確度。在語音合成方面,考慮到自然語音存在協(xié)同發(fā)音的現(xiàn)象,提出了波形拼接和參數(shù)合成相結(jié)合的算法頻譜能量過渡協(xié)同發(fā)音語音合成算法和共振峰過渡協(xié)同發(fā)音語音合成算法。第一種算法是根據(jù)協(xié)同發(fā)音過程中頻譜能量連續(xù)過渡這一現(xiàn)象,通過調(diào)整協(xié)同發(fā)音上下段音素對應(yīng)的頻帶能量進行協(xié)同發(fā)音語音合成;第二種算法是根據(jù)協(xié)同發(fā)音過程中共振峰連續(xù)過渡現(xiàn)象,通過對共振峰位置、幅值、帶寬的修改進行協(xié)同發(fā)音語音合成。將兩種算法和滑動窗拼接協(xié)同發(fā)音語音合成算法進行了比較,仿真實驗證明了本文算法的有效性。連續(xù)變調(diào)現(xiàn)象是自然語流中經(jīng)常出現(xiàn)的現(xiàn)象,能否解決此問題,直接關(guān)系到詞匯語義的正確理解。提出了決策樹建模,按照模型進行音節(jié)的音高、時長等修改的連續(xù)變調(diào)語音合成算法,仿真實驗結(jié)果表明,本算法合成連續(xù)變調(diào)詞匯的可懂度、自然度均高于聲調(diào)模型基音同步疊加算法。針對漢語語調(diào)受聲調(diào),重讀詞匯等影響,難以準確建模的問題,通過分析聲調(diào)、重讀詞匯等在語調(diào)大波浪中的作用,提出了采用決策樹對語調(diào)建模,根據(jù)模型對音節(jié)進行時長、音高、能量等修改,進行漢語語調(diào)合成的算法,將本算法和句尾基頻曲線調(diào)整語調(diào)合成算法進行了比較,仿真實驗證明了算法的有效性。在語音轉(zhuǎn)換方面,針對語音轉(zhuǎn)換過程中源、目標語音動態(tài)時間規(guī)整出現(xiàn)的匹配誤差問題提出了變滑動窗語音轉(zhuǎn)換算法,該算法根據(jù)當前幀的基音檢測結(jié)果確定滑動窗的寬度,將源話者語音和目標話者語音對齊,采用高斯混合模型進行話者頻譜包絡(luò)轉(zhuǎn)換;韻律參數(shù)也是體現(xiàn)話者個性特征的重要參數(shù),本文采用決策樹對源、目標話者進行韻律參數(shù)建模,建立源、目標話者韻律特征映射規(guī)則,將源、目標話者韻律特征進行轉(zhuǎn)換。該算法降低了采用固定窗進行源、目標話者語音對齊時產(chǎn)生的誤差,同時將代表話者個性特征的韻律參數(shù)進行了轉(zhuǎn)換,仿真實驗表明該算法有更好的語音轉(zhuǎn)換效果。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 112
大小: 1.81(MB)
子文件數(shù):