基于分形矩的印刷體藏文字符識(shí)別技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、字符識(shí)別是模式識(shí)別的一個(gè)重要分支,藏文字符識(shí)別則因其字型的結(jié)構(gòu)復(fù)雜、相似字的比例高等原因,而一直是字符識(shí)別中一個(gè)具有挑戰(zhàn)性的難題。相對(duì)于漢字的字符識(shí)別研究而言,目前印刷體藏文字符的識(shí)別研究還比較少。藏文字符的自動(dòng)識(shí)別研究是進(jìn)行少數(shù)民族語言文字信息處理和信息化的一個(gè)重要方面,它對(duì)于整理藏文記錄的經(jīng)典文獻(xiàn)、古籍著述具有重要的價(jià)值,對(duì)于穩(wěn)定邊境和推進(jìn)西部開發(fā)等方面也有潛在的作用。 本文首先介紹了字符識(shí)別的一般原理、步驟和字符識(shí)別的常用

2、方法,以及印刷體藏文字符識(shí)別的特殊性和研究現(xiàn)狀等。然后,文中對(duì)印刷體藏文字符識(shí)別進(jìn)行了具體的研究。首先是藏文字丁圖像的預(yù)處理,其過程大致可分為二值化、平滑、行字切分和歸一化等步驟,預(yù)處理后將得到大小統(tǒng)一的藏文字丁圖像。對(duì)于這里的每個(gè)步驟,文中都選取了適合于處理藏文字丁的方法:對(duì)于初始得到的藏文字符圖像,首先采用整體閾值二值化方法對(duì)其進(jìn)行了二值化處理,并使用中值濾波器對(duì)二值化之后的字符圖像進(jìn)行了平滑,然后,采用積分投影法進(jìn)行行、字切分,最

3、后通過三次B樣條函數(shù)將藏文字符歸一化為96×48的點(diǎn)陣。 第二步是特征提取工作,目的是為了去除圖像信息中對(duì)分類沒有幫助的部分,將圖像信息集中到有代表性的特征上來的過程。特征向量中只有包含足夠的類別信息,才有可能通過分類器完成無差錯(cuò)的模式分類。文中首先對(duì)前人提出的兩種特征提取方法——圖像投影法和方向線素法——進(jìn)行了介紹。圖像投影法的抗干擾能力較強(qiáng),但是該方法區(qū)分相似字的能力較差;方向線素法的特征提取效果較好,通常能夠提取出原字丁的

4、足夠特征,但其提取的特征向量維數(shù)過多,從而使得字丁匹配過程的復(fù)雜度較高。鑒于前面兩種方法的不足,本文提出了一種基于分形矩的藏文字符特征提取算法,用該算法提取的特征可以有效地反映藏文字丁的局部和全局特征,在一定程度上克服了藏文相似字丁極多而造成的誤識(shí)率高的缺點(diǎn),并且解決了由于特征向量維數(shù)較多造成的運(yùn)算速度慢的問題。 由于難以確定特征向量中是否已包含足夠的類別信息,為了提高類別正確識(shí)別率,在進(jìn)行特征提取時(shí),往往盡可能地增加提取的特征

5、的數(shù)目,這就使得提取到的特征向量中存在相關(guān)性和冗余,因此,為了減輕分類器的設(shè)計(jì)難度,提高系統(tǒng)的運(yùn)行效率,在提取到藏文字丁的原始特征后,還需要進(jìn)行特征選擇(降維)。關(guān)于特征選擇,文中主要對(duì)主成份分析和多重判別分析進(jìn)行了介紹和分析對(duì)比。主成分分析的目的是尋找在最小均方意義下,最能夠代表原始數(shù)據(jù)的投影,而多重判別分析的目的是尋找在最小均方意義下,最能夠分開各類數(shù)據(jù)的投影。 最后一步工作是分類識(shí)別,在統(tǒng)計(jì)模式識(shí)別中,往往把各類模式的特征

6、向量的統(tǒng)計(jì)平均值作為該類的基準(zhǔn)模板,將待分類模式的特征向量與各類模式的基準(zhǔn)模板進(jìn)行比較,按照最小距離分類準(zhǔn)則進(jìn)行決策分類。本文把各個(gè)藏文字丁圖像的特征向量的統(tǒng)計(jì)平均值作為該藏文字丁的基準(zhǔn)模板,將待分類字丁圖像的特征向量與各個(gè)藏文字丁的基準(zhǔn)模板進(jìn)行比較,采用最小距離分類器進(jìn)行印刷體藏文字符的識(shí)別。并主要介紹了KNN算法和多種距離度量(歐氏距離、馬氏距離和街區(qū)距離)下的Bayes分類算法。 文中使用不同的特征提取、特征選擇和識(shí)別算法

7、,進(jìn)行了多次藏文字符識(shí)別實(shí)驗(yàn),并從藏文字丁的識(shí)別率、識(shí)別速度、拒識(shí)率和識(shí)別的可靠性等方面,將它們進(jìn)行了對(duì)比。在本文的藏文字丁分類識(shí)別實(shí)驗(yàn)中,通過使用方向線素法和分形矩法提取特征,使用主成分分析法選擇特征并使用基于馬氏距離的Bayes分類算法,可以達(dá)到最高的識(shí)別率。此時(shí),對(duì)使用分形矩法提取到的特征進(jìn)行識(shí)別時(shí)得到的識(shí)別率略高,并且對(duì)使用分形矩法提取到的特征進(jìn)行分類識(shí)別時(shí),其識(shí)別速度遠(yuǎn)遠(yuǎn)高于使用方向線素法時(shí)的速度。因此,本文提出的分形矩法可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論