基于BP神經(jīng)網(wǎng)絡的印刷字符識別系統(tǒng).pdf_第1頁
已閱讀1頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、光學字符識別(OCR)是人類的一項瑣碎任務,但要建立一個計算機程序進行字符識別是很困難的。識別這些模式僅僅是這些瑣碎任務中的一件,人能很好的做到但計算機不能,主要因為是實際應用中有許多可變因素。例如,由隨機變化的模式組成的噪聲,特別是靠近邊緣處,并且有許多噪音的字符很可能被計算機程序解釋成一個完全不同的字符。另一個混亂的來源是高水平的抽象化;必須認識到有成千上萬風格的常用類型和字符,其中大部分對識別程序是沒有用的。這些因素以及其他因為使

2、得這個領(lǐng)域非常有趣和有挑戰(zhàn)性,這就是為什么選擇這方面作為論文的研究來源。還應該提到的是:在過去幾十年里,光學字符識別已成為許多研究者的研究目標,是因為它在許多不同的行業(yè),如銀行業(yè),航運,商業(yè),通信,市場營銷,車牌識別等有重要影響。由于這一領(lǐng)域的重要性和美好未來,人們對這一領(lǐng)域的研究興趣非常濃厚。
   光學字符識別在大約1929年開始并由古斯塔夫陶舍所做。光學字符識別,通??s寫為OCR,是圖像的機械或電子轉(zhuǎn)換成機器可編輯的文本。

3、雖然,在這一領(lǐng)域的學術(shù)研究仍在繼續(xù),對光學字符識別的重點已轉(zhuǎn)移到技術(shù)證明。用光學技術(shù),例如光學反射鏡和透鏡技術(shù)的光學字符識別,用掃描儀和計算機算法的數(shù)字字符識別,起初都被認為是單獨的領(lǐng)域,現(xiàn)已擴大到包括數(shù)字圖像處理領(lǐng)域中。
   商業(yè)上,光學字符閱讀器出現(xiàn)在20世紀50年代,從那時起,字符和文檔識別技術(shù)已經(jīng)提供了非常先進的產(chǎn)品和系統(tǒng),以滿足整個開發(fā)過程中的工業(yè)和商業(yè)的需要。同時,基于此項技術(shù)的企業(yè)投資到研究和開發(fā)更先進的技術(shù)。在

4、這里我們可以看到一個良性循環(huán),即新技術(shù)促使新的應用,以及新的應用支持開發(fā)更先進的技術(shù)。
   因此,我們認為研究和發(fā)明一個能夠識別機打印字符的系統(tǒng)是非常有意義的。雖然,我們知道創(chuàng)造一個百分之百正確識別率的系統(tǒng)在充斥噪音和不同的字體風格的世界里很可能無法實現(xiàn),因為在不同系列的特征上算法的作用普遍多于人類不同的功能設置。不過,我們?nèi)匀豢梢蚤_發(fā)一個能夠識別出大量樣品的系統(tǒng)。總之,本論文提出了一個識別系統(tǒng),這個系統(tǒng)使用功能特征提取和神經(jīng)

5、網(wǎng)絡分類器的反向傳播算法訓練,可以正確識別一定數(shù)量的印刷英文字符。
   事實上,這存在著幾個不同的技術(shù)來識別字符,但我們選擇使用人工BP神經(jīng)網(wǎng)絡。這是因為人工神經(jīng)網(wǎng)絡在OCR中應用可以大大簡化代碼,提高識別質(zhì)量,同時實現(xiàn)良好的性能。利用光學字符識別的另一個好處是神經(jīng)網(wǎng)絡系統(tǒng)的可擴展性,它能夠識別比初始定義的更多的字符集。因此,人工神經(jīng)網(wǎng)絡(ANN)是一種奇妙的工具,有助于解決此類問題。人工神經(jīng)網(wǎng)絡,往往善于解決對于傳統(tǒng)技術(shù)過于

6、復雜的問題,例如,沒有一個算法解決問題或?qū)τ谶@個問題解決方案的算法由于過于復雜而無法找到,它們是優(yōu)良的模式識別器和強大的分類器。對于不同的分類問題,提供了理想的解決方案,如講話,性格,信號識別,以及預測功能和系統(tǒng)建模(其中的物理過程很難理解,或者是高度復雜的),由于這些優(yōu)勢,所以我們選擇BP神經(jīng)網(wǎng)絡作為分類器。
   該系統(tǒng)首先應用于二值化,是指一個灰度圖像轉(zhuǎn)換成二值圖像,以及其他主要的預處理,通過假設輸入數(shù)據(jù)有噪聲。有了這個假

7、設,然后繼續(xù)尋找特征點。特征點的選擇問題意味著從一整套可用的功能子集的選擇,允許判別性地選擇合適的子集。一個良好的特征點集的選擇是分類過程的關(guān)鍵,如果所考慮的特征點集不包括所有的信息需求,以區(qū)分屬于不同階級的樣本,不管學習算法的有效性,所達到的性能可能會不理想。
   在我們的工作中,所描述的特征點提取一共有兩種方法:第一種是所謂的離散特征點提取,這種方法掃描圖像的某些預先確定的點,依次檢查每一個像素,同時它檢查其8個鄰居點,并

8、對現(xiàn)有的系統(tǒng)有10個顯著特征點的定義,這足夠?qū)崿F(xiàn)我們的目標,其優(yōu)勢是不會擁有太多無趣的點,使特征點提取更快和更可靠。第二種方法是所謂的分區(qū),這需要以圖像的亮度圖為基礎(chǔ)功能,劃分區(qū)域中的圖像,并計算每個亮度圖的平均水平。
   一旦我們從特征提取中收集數(shù)據(jù),仍然需要修復圖像。其功能需要我們從特征矩陣轉(zhuǎn)移到一個向量形式,以使用它作為輸入向量送入神經(jīng)網(wǎng)絡來學習和分類。為了達到這個目標,需要改變矩陣的值,以適應變化的差別。這只是因為根據(jù)

9、分類器(神經(jīng)網(wǎng)絡)每個字母都是一種模式?;旧?每個訓練模式包括:兩個浮點數(shù)字的一維數(shù)組的以及輸入和輸出(目標)陣列。輸入數(shù)組包含每個特征提取方法的每個字母的特征向量表示,輸出數(shù)組代表預期的反應,在輸出數(shù)組系統(tǒng)能夠識別和字符一樣多的元素。因此,為了使人們認識所有的英文詞匯字母,我們將需要26個輸出數(shù)組元素。
   我們在所有的模式設置完畢后,加入神經(jīng)網(wǎng)絡。該網(wǎng)絡被設計成一個使用三層S形輸出功能和反向傳播算法。但清晰的反向傳播運行

10、很慢,我們希望它更快。因此,我們有一些可以被設置為加快學習階段的調(diào)整。對一些輸出功能進行調(diào)整與修改,這使系統(tǒng)運算要求不高,其次我們依照一些技術(shù)在每一層找到適當?shù)碾[藏層和神經(jīng)元的數(shù)量。進行一些測試之后,發(fā)現(xiàn)變量更適合我們設計的系統(tǒng)。隨著這些都作了調(diào)整,并對網(wǎng)絡進行有效訓練,可以嘗試對表現(xiàn)最好的訓練集中識別所有的模式。
   在實驗部分,用不同的樣本進行了多次試驗。在第一個實驗中,從英語詞匯所有的26個字母中選擇了一個非正規(guī)的圖像數(shù)

11、據(jù)集(模糊,傾斜和洗圖像),發(fā)現(xiàn)訓練時間之間存在差異,這是因為使用離散特征接近網(wǎng)絡所用的收斂時間比使用分區(qū)方法要長。另一個重要區(qū)別是識別率,用分區(qū)制得到85%的識別率,但是用離散特征只得到78%的識別率,略低于分區(qū)制。
   第二個實驗是調(diào)查輸入特征向量的大小如何會影響識別率的準確性。因此,我們嘗試了四種不同的圖像大小,并運用兩種方法進行測試。對于離散特征方法,注意到增加特征向量的大小越多,在網(wǎng)絡融合所花費的時間越多,而字符的識

12、別率下降越多。至于分區(qū)方法,用同一種方法進行實驗,但網(wǎng)絡的行為結(jié)果卻不同,在這種情況下,發(fā)現(xiàn)隨著向量大小的增加,可以得到更好的識別率,直至到達一個點才開始下降。
   我們還進行了第三個實驗,這一次是當我們在樣本中分別添加模糊和噪聲時觀察網(wǎng)絡的行為。首先,我們添加模糊特性到樣本中,通過使用高斯方法對字符數(shù)據(jù)加入噪聲。之后,將模糊的樣本輸入到系統(tǒng),接著進行識別過程,正如預期的那樣,用分區(qū)制和離散特征方法都增加了模糊量樣本的識別率。

13、即用分區(qū)方法也可以取得較高的識別率。在這個實驗的第二部分,為了研究,如果增加噪音到樣本中將得到什么樣的結(jié)果,采用椒鹽噪聲添加到字符中。在四個運行階段的每一步,我們都增加噪音量,這明顯降低兩者的識別率。我們注意到,用圖像噪音并用分區(qū)的方法可得到更好的效果。
   最后,總結(jié)我們的工作,文章開始提到如何調(diào)查和對模式識別的研究,特別是光學字符識別系統(tǒng),詳細闡述了它的背景、定義、應用和技術(shù)。選擇離散特征和分區(qū)制作為特征提取的兩種方法。研

14、究的另一項內(nèi)容是分類器,選擇BP神經(jīng)網(wǎng)絡,實驗證明了這種網(wǎng)絡的優(yōu)越性。在達到良好的識別性能的同時能夠改善質(zhì)量,并使得系統(tǒng)更具有擴展性,能夠識別比初始定義更多的字符集。
   仔細分析和研究了上述過程之后可以發(fā)現(xiàn),先前提到的兩個特征點提取的技術(shù)在結(jié)合神經(jīng)網(wǎng)絡分類器,對機器印刷的英文字符識別時存在差異。實驗結(jié)果表明上述描述的光學字符識別系統(tǒng)的性能相當高。當考慮到所測試幾個非正常的圖像(原始的,干凈的,模糊的,有噪聲的圖像)時,我們沒

15、有使用任何噪聲濾波技術(shù)。在我們的研究中,使用分區(qū)制技術(shù)獲得高達85%的識別率,用離散特征技術(shù)獲得78.57%的識別率。顯然,我們看到的分區(qū)制技術(shù)稍微好一點,盡管大多數(shù)實驗中得知,兩種技術(shù)的得到的識別率都很高。
   此外,我們對樣本進行添加噪聲和不同幅度模糊處理兩種方法做了比較,結(jié)果顯示:性能呈現(xiàn)一定程度下降,并對于這兩種方法是令人滿意的。盡管用分區(qū)制得到了更好的識別率。結(jié)果還表明:使用神經(jīng)網(wǎng)絡設計光學字符識別系統(tǒng),發(fā)現(xiàn)面向?qū)ο?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論