基于含噪短語音的魯棒說話人識(shí)別研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩119頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、說話人自動(dòng)識(shí)別技術(shù)在眾多需要語音輔助的應(yīng)用下,已發(fā)展成為越來越重要的現(xiàn)代生物認(rèn)證技術(shù)。之前的研究表明,對(duì)于訓(xùn)練和測(cè)試聲學(xué)環(huán)境一致的高質(zhì)量語音已可以獲得很好的結(jié)果。然而現(xiàn)實(shí)生活中,往往遇到語料缺失、環(huán)境噪聲等問題,此時(shí)說話人識(shí)別系統(tǒng)性能嚴(yán)重下降,為了進(jìn)一步提高說話人識(shí)別的實(shí)用性,魯棒性研究是說話人識(shí)別領(lǐng)域至關(guān)重要的研究熱點(diǎn)。本文針對(duì)含噪短語音的魯棒說話人識(shí)別技術(shù)進(jìn)行了研究和探索。為了提高含噪短語音的說話人識(shí)別率,本文涉及的補(bǔ)償算法有多特征

2、融合算法、噪聲分離算法、語音幀質(zhì)量判別算法、識(shí)別模型優(yōu)化和改進(jìn)。
  本文的主要工作和創(chuàng)新成果點(diǎn)集中在以下幾個(gè)方面:
  (1)針對(duì)含噪短語音說話人辨認(rèn)訓(xùn)練和測(cè)試語料不充分的特點(diǎn),將聲源信息與聲道信息相結(jié)合,彌補(bǔ)在語料信息嚴(yán)重缺失的情況下,只提取單一特征不能充分表達(dá)說話人語音特征的缺陷。提取的多種特征的噪聲魯棒性和識(shí)別能力不同,可以起到互補(bǔ)的作用,并使用差分進(jìn)化算法優(yōu)化特征組合中單一特征的融合系數(shù)。實(shí)驗(yàn)證明,在相同條件下使用

3、特征組合綜合系統(tǒng)(MFCC_D_LPCC+WOWOR4)+(MFCC_D_LPCC+WOWOR6)+(MFCC_D_LPCC+WOWOR8)的含噪短語音說話人識(shí)別率比使用單一特征MFCC平均提高13.34%,比使用特征組合MFCC_DLPCC平均提高10.21%。在各種信噪比環(huán)境下,使用差分進(jìn)化算法優(yōu)化特征組合中單一特征的融合系數(shù)可以使系統(tǒng)的識(shí)別率平均提高1.62%。
  (2)為了降低噪聲對(duì)說話人識(shí)別效果的影響,對(duì)噪聲進(jìn)行分離是

4、重要的。提出了基于受限非負(fù)矩陣分解(Constrained Non-negative Matrix Factorization,CNMF)的噪聲分離算法用于分離環(huán)境噪聲,該算法首先使用FastICA噪聲分離算法對(duì)含噪短語音進(jìn)行分離,將其結(jié)果作為NMF(Non-negative Matrix Factorization)的初始值,并在NMF中加入鑒別性限制,以便有效分離噪聲。實(shí)驗(yàn)證明,相同條件下CNMF分離算法的識(shí)別率比隨機(jī)初始化NMF分

5、離算法的識(shí)別率平均提高3.75%。
  (3)使用CNMF算法對(duì)含噪短語音進(jìn)行噪聲分離之后,語音幀仍然不同程度地含有殘留噪聲,需要對(duì)其進(jìn)一步處理:使用語音幀質(zhì)量判別算法將語音幀分為高質(zhì)量類和低質(zhì)量類,高質(zhì)量類語音幀直接用于說話人識(shí)別,低質(zhì)量類語音幀進(jìn)行處理后用于說話人識(shí)別,既可以顯著降低噪聲的影響,又可以充分地利用含噪短語音的有限語料用于說話人識(shí)別,有助于提高含噪短語音的說話人識(shí)別率。本文分別提出了三種語音幀質(zhì)量判別算法,分別是改

6、進(jìn)的信噪比判別算法(Improved SNR Discrimination Algorithm,ISNRDA)、差異檢測(cè)與判別算法(Differences Detection and Discrimination Dlgorithm,DDADA)、基于NMF的信噪比判別算法(NMF-SNR Discrimination Algorithm,NMF-SNRDA)。實(shí)驗(yàn)證明,相同條件下使用ISNRDA判別算法相比分離噪聲后不進(jìn)行語音幀質(zhì)量判

7、別與分類可以平均提高含噪短語音的說話人識(shí)別率3.26%,使用DDADA判別算法的識(shí)別率相比使用ISNRDA判別算法的識(shí)別率平均提高1.71%,使用NMF-SNRDA判別算法的識(shí)別率相比使用DDADA判別算法的識(shí)別率平均提高1.74%。
  (4)為了更加精確地對(duì)語音幀進(jìn)行分類,本文提出了雙重信息質(zhì)量判別算法。若兩種語音幀質(zhì)量判別算法同時(shí)判定一個(gè)語音幀為高質(zhì)量,則將該語音幀分類為高質(zhì)量類;若一種語音幀質(zhì)量判別算法判定一個(gè)語音幀為高質(zhì)

8、量,另一種語音幀質(zhì)量判別算法判定該語音幀為低質(zhì)量,則將該語音幀分類為中等質(zhì)量類;若兩種語音幀質(zhì)量判別算法同時(shí)判定一個(gè)語音幀為低質(zhì)量,則將該語音幀分類為低質(zhì)量類。實(shí)驗(yàn)證明,在各種信噪比環(huán)境下,本文提出的雙重信息質(zhì)量判別算法與單一判別算法相比,含噪短語音的說話人識(shí)別率平均提高2.32%。
  (5)分類得到的三類語音幀分別與本文構(gòu)建的GMM-UBM三階段分類模型相結(jié)合,使短語音的有限語料得到更加充分地利用,有效的降低了噪聲和語料缺失對(duì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論