如何提高掃描儀的文本識(shí)別率一直是掃描儀用戶所關(guān)心的問(wèn)題之一。下面,筆者就把自己在長(zhǎng)期使用掃描儀進(jìn)行文本識(shí)別的過(guò)程中所積累的經(jīng)驗(yàn)介紹給大家,希望對(duì)各位讀者有所幫助。
一、合理設(shè)置掃描參數(shù)
要進(jìn)行文本識(shí)別,首先就要把文本掃描成為圖片文件。文檔圖像的掃描質(zhì)量是OCR軟件能正確進(jìn)行識(shí)別的前提條件。因此,掃描參數(shù)的設(shè)置就顯得尤為重要。那么,到底有哪些設(shè)置會(huì)影響到最終的識(shí)別效果呢?
1.圖像類型
在以前的OCR軟件中,只能對(duì)黑白效果的圖像進(jìn)行識(shí)別,因此我們?cè)谶x取掃描圖像類型時(shí)不得不選擇黑白,這對(duì)于一些帶有灰色底圖(水。┑奈母鍋(lái)講,掃描后的識(shí)別率將會(huì)變得很低。現(xiàn)在,新版的OCR軟件都支持灰度甚至彩色識(shí)別,例如漢王OCR5.0與尚書(shū)六號(hào)等。因此,如果你碰上此類的文稿,不妨在掃描時(shí)選擇圖像類型為“灰度”(也稱灰階),可以大大提高識(shí)別的成功率。
2.掃描分辨率
對(duì)任何掃描任務(wù)來(lái)說(shuō),分辨率的選擇都是至關(guān)重要的。對(duì)于文字識(shí)別來(lái)講,分辨率并不是越高越好,關(guān)鍵是要讓OCR軟件“認(rèn)賬”。一般說(shuō)來(lái),使用200dpi的分辨率就已經(jīng)能夠滿足識(shí)別的需要,一味地增大掃描分辨率并不會(huì)提高掃描圖像的質(zhì)量,相反只會(huì)徒增掃描文件的體積和減緩掃描速度。
3.掃描圖像的修正
許多用戶在掃描時(shí)經(jīng)常忽略了正式掃描之前的圖像修正工作。對(duì)于文本識(shí)別來(lái)說(shuō),恰當(dāng)?shù)膱D像修正能夠大大提高圖像中文本的清晰程度,從而提高最終的文本識(shí)別率。例如,通過(guò)對(duì)Gamma的調(diào)整,圖像明顯比原圖像更為清晰(圖1)。另外,亮度、對(duì)比度的設(shè)置在一定程度上也會(huì)影響到掃描后的圖像效果。許多掃描軟件還針對(duì)報(bào)刊和雜志提供了去網(wǎng)紋的功能,在掃描時(shí)選擇此項(xiàng)功能可以自動(dòng)過(guò)濾掉圖像上的網(wǎng)紋,對(duì)提高識(shí)別率也能起到很大作用。
二、妙用圖像處理軟件
掃描完成后,或許掃描出來(lái)的圖像還不是很讓你滿意,這時(shí)就可以使用一些常用的圖像處理軟件對(duì)圖像進(jìn)一步地調(diào)整。例如,當(dāng)你的掃描儀沒(méi)有提供去除網(wǎng)紋的功能時(shí),不妨先以較高的分辨率來(lái)掃描文稿,然后再利用圖像軟件將圖片縮小為需要的尺寸,這樣通常能夠有效消除網(wǎng)紋。另外,在ACDSee中有“曝光”的功能,這對(duì)于提高圖像的清晰度非常有效。而在Photoshop“圖像”菜單的“調(diào)整”項(xiàng)中我們還可以對(duì)圖像的亮度、對(duì)比度等一系列參數(shù)進(jìn)行設(shè)定,并能夠立刻查看效果。因此,如果你覺(jué)得在掃描軟件中進(jìn)行設(shè)置不夠直觀,同時(shí)擔(dān)心因?yàn)榻?jīng)驗(yàn)不足可能重復(fù)多次掃描,那么待掃描完成后再到這些軟件中來(lái)調(diào)整也不失為一個(gè)好方法。
三、不可忽略的OCR軟件
在購(gòu)買(mǎi)掃描儀時(shí),廠商都會(huì)在隨機(jī)光盤(pán)中附送一款OCR軟件,例如明基掃描儀提供的漢王OCR(適用于中文識(shí)別)、FineReader(適用于英文識(shí)別)。一般說(shuō)來(lái),這些隨盤(pán)軟件都針對(duì)該類掃描儀進(jìn)行過(guò)一定優(yōu)化,因此筆者并不推薦用戶去使用其他的OCR軟件。下面,我們就以漢王5.0為例來(lái)看看在OCR軟件使用時(shí)我們應(yīng)該注意些什么。
1.傾斜校正
在進(jìn)行文稿掃描時(shí),由于原稿的放置偏差,掃描后的圖像可能會(huì)出現(xiàn)傾斜的現(xiàn)象。對(duì)此,大部分的OCR軟件都提供了傾斜校正的功能。但是,如果傾斜角度較大,就可能在校正后發(fā)生部分文字扭曲的情況,這樣這些文字就可能無(wú)法被正確識(shí)別。因此,我們?cè)趧傞_(kāi)始進(jìn)行掃描時(shí)就應(yīng)該擺正原稿的位置,而不要等到后面才來(lái)“亡羊補(bǔ)牢”。
2.簡(jiǎn)單的圖像“修飾”
如果要識(shí)別的圖像上有雜點(diǎn),也可能會(huì)影響到識(shí)別的效果。幸好OCR軟件都提供了一個(gè)“橡皮擦”,我們可以像在Windows的畫(huà)圖程序中那樣,對(duì)不需要的地方進(jìn)行擦除,以保證識(shí)別順利進(jìn)行。另外,如果在文稿內(nèi)有OCR軟件無(wú)法識(shí)別的非文字圖形,也應(yīng)該將它清除。
3.識(shí)別區(qū)域、順序的選擇
在很多情況下,我們需要識(shí)別的文稿都進(jìn)行了分欄。如果我們直接把整個(gè)文件作為一個(gè)識(shí)別區(qū)域,那么OCR軟件將會(huì)按照通常的順序(以行為單位)而不是我們的閱讀順序進(jìn)行識(shí)別。因此,識(shí)別區(qū)域的選取也是非常重要的。在按照閱讀習(xí)慣分塊選取區(qū)域后,OCR軟件將會(huì)自動(dòng)給出識(shí)別順序,我們也可以通過(guò)點(diǎn)擊工具條上的“設(shè)定識(shí)別順序”按鈕進(jìn)行自定義操作。