基于稀疏分解的音頻場(chǎng)景識(shí)別方法研究.pdf_第1頁
已閱讀1頁,還剩72頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、現(xiàn)在人們已經(jīng)進(jìn)入了信息化時(shí)代,并且隨著科技的發(fā)展,信息在人們平時(shí)的生產(chǎn)和生活中變得越來越重要。這些信息以不同的方式出現(xiàn)在我們的生活中,如何將這些信息加以良好的有效的利用,是信息化時(shí)代賦予我們的重要使命。在這些信息中,音頻信號(hào)又是其中一個(gè)不可或缺的重要組成部分。
  網(wǎng)絡(luò)多媒體以及數(shù)字信號(hào)處理技術(shù)現(xiàn)在已經(jīng)有了長(zhǎng)足的進(jìn)步。音頻信號(hào)作為數(shù)字信號(hào)的一部分,其規(guī)模也日益增長(zhǎng)。然而,對(duì)越來越多的音頻數(shù)據(jù)及其中包含著的海量信息而言,如何從中找到

2、我們感興趣的內(nèi)容,是一個(gè)難點(diǎn)問題,也是一個(gè)亟待解決的問題。常規(guī)人工檢索的方式顯然無法有效處理網(wǎng)絡(luò)中多模態(tài)的海量規(guī)模的音頻數(shù)據(jù),所以我們需要有效的技術(shù)手段來實(shí)現(xiàn)音頻數(shù)據(jù)自動(dòng)處理和內(nèi)容分析識(shí)別。而這些技術(shù)手段必將可以有效支撐現(xiàn)實(shí)中的各類智能系統(tǒng)的音頻處理需求。
  音頻場(chǎng)景識(shí)別是通過對(duì)音頻信號(hào)中所包含的聲學(xué)事件進(jìn)行檢測(cè)分析,從而對(duì)音頻進(jìn)行語義內(nèi)容的理解,進(jìn)而達(dá)到識(shí)別出特定的音頻場(chǎng)景的目的。所謂音頻場(chǎng)景是指包含特定語義的某個(gè)音頻數(shù)據(jù)片段

3、,這個(gè)語義往往具有很強(qiáng)的代表性和區(qū)分度,是人類分析和區(qū)別音頻內(nèi)容的重要依據(jù)和手段,在現(xiàn)實(shí)中有很多重要的應(yīng)用。
  音頻場(chǎng)景的識(shí)別,主要依靠提取出來的音頻信號(hào)特征,和音頻場(chǎng)景的識(shí)別模型,來識(shí)別出表征該場(chǎng)景的語義標(biāo)簽。提取一個(gè)有優(yōu)良效果的音頻信號(hào)特征,對(duì)音頻場(chǎng)景的識(shí)別有很大幫助。在特征的數(shù)據(jù)分析方面,根據(jù)成分分析的思想,可以對(duì)音頻信號(hào)的聲學(xué)特征加以優(yōu)化。本文使用稀疏分解的理論,提取出了一種音頻信號(hào)的稀疏特征,這種特征具有長(zhǎng)時(shí)的性質(zhì),在

4、音頻場(chǎng)景識(shí)別方面具有良好的效果。隨后使用成分分析的思想,對(duì)特征進(jìn)行加權(quán)優(yōu)化。該方法可以獲取音頻信號(hào)特征中的關(guān)鍵成分。
  本文使用的稀疏分解思想,是一種信號(hào)處理的方式,最初主要應(yīng)用于圖像信號(hào)的處理中。在人們使用非冗余正交變換進(jìn)行數(shù)據(jù)表示時(shí),發(fā)現(xiàn)了很多的問題。如一些信號(hào)本身就是很多復(fù)雜的信號(hào)的混合體,在單一的正交變換中不能得到很好的表示。稀疏表示是使用一種過完備冗余函數(shù)系統(tǒng)的原子庫來代替基函數(shù)進(jìn)行數(shù)據(jù)表示的方法。其中原子是原子庫中的

5、元素。選擇出原子庫中的m個(gè)原子對(duì)原始數(shù)據(jù)信號(hào)進(jìn)行最佳表示,就是數(shù)據(jù)信號(hào)在原子庫上的稀疏分解。根據(jù)信號(hào)的稀疏分解理論,本文提出了一種新的音頻場(chǎng)景的識(shí)別方式。首先對(duì)目標(biāo)場(chǎng)景和集外場(chǎng)景分別訓(xùn)練原子庫,并將得到的原子庫組合。然后將待識(shí)別的音頻信號(hào)特征在組合得到的原子庫上進(jìn)行稀疏分解。對(duì)稀疏分解中的原子來源進(jìn)行分析,通過這些原子的是否為目標(biāo)場(chǎng)景原子庫中的原子來進(jìn)行投票,來判斷該音頻信號(hào)的場(chǎng)景歸屬。
  本文的實(shí)驗(yàn)語料來源于網(wǎng)絡(luò)上的真實(shí)音頻數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論