當(dāng)前位置:首頁(yè)>>硬件技巧>>外設(shè)>>新聞內(nèi)容
提高掃描儀的文本識(shí)別率“三板斧”
作者:Vicen/電腦報(bào) 發(fā)布時(shí)間:2004-4-7 18:10:04 文章來(lái)源:西部E網(wǎng)

  如何提高掃描儀的文本識(shí)別率一直是掃描儀用戶所關(guān)心的問(wèn)題之一。下面,筆者就把自己在長(zhǎng)期使用掃描儀進(jìn)行文本識(shí)別的過(guò)程中所積累的經(jīng)驗(yàn)介紹給大家,希望對(duì)各位讀者有所幫助。

一、合理設(shè)置掃描參數(shù)

  要進(jìn)行文本識(shí)別,首先就要把文本掃描成為圖片文件。文檔圖像的掃描質(zhì)量是OCR軟件能正確進(jìn)行識(shí)別的前提條件。因此,掃描參數(shù)的設(shè)置就顯得尤為重要。那么,到底有哪些設(shè)置會(huì)影響到最終的識(shí)別效果呢?

1.圖像類型

  在以前的OCR軟件中,只能對(duì)黑白效果的圖像進(jìn)行識(shí)別,因此我們?cè)谶x取掃描圖像類型時(shí)不得不選擇黑白,這對(duì)于一些帶有灰色底圖(水。┑奈母鍋(lái)講,掃描后的識(shí)別率將會(huì)變得很低。現(xiàn)在,新版的OCR軟件都支持灰度甚至彩色識(shí)別,例如漢王OCR5.0與尚書(shū)六號(hào)等。因此,如果你碰上此類的文稿,不妨在掃描時(shí)選擇圖像類型為“灰度”(也稱灰階),可以大大提高識(shí)別的成功率。

2.掃描分辨率

  對(duì)任何掃描任務(wù)來(lái)說(shuō),分辨率的選擇都是至關(guān)重要的。對(duì)于文字識(shí)別來(lái)講,分辨率并不是越高越好,關(guān)鍵是要讓OCR軟件“認(rèn)賬”。一般說(shuō)來(lái),使用200dpi的分辨率就已經(jīng)能夠滿足識(shí)別的需要,一味地增大掃描分辨率并不會(huì)提高掃描圖像的質(zhì)量,相反只會(huì)徒增掃描文件的體積和減緩掃描速度。

3.掃描圖像的修正

  許多用戶在掃描時(shí)經(jīng)常忽略了正式掃描之前的圖像修正工作。對(duì)于文本識(shí)別來(lái)說(shuō),恰當(dāng)?shù)膱D像修正能夠大大提高圖像中文本的清晰程度,從而提高最終的文本識(shí)別率。例如,通過(guò)對(duì)Gamma的調(diào)整,圖像明顯比原圖像更為清晰(圖1)。另外,亮度、對(duì)比度的設(shè)置在一定程度上也會(huì)影響到掃描后的圖像效果。許多掃描軟件還針對(duì)報(bào)刊和雜志提供了去網(wǎng)紋的功能,在掃描時(shí)選擇此項(xiàng)功能可以自動(dòng)過(guò)濾掉圖像上的網(wǎng)紋,對(duì)提高識(shí)別率也能起到很大作用。

二、妙用圖像處理軟件

  掃描完成后,或許掃描出來(lái)的圖像還不是很讓你滿意,這時(shí)就可以使用一些常用的圖像處理軟件對(duì)圖像進(jìn)一步地調(diào)整。例如,當(dāng)你的掃描儀沒(méi)有提供去除網(wǎng)紋的功能時(shí),不妨先以較高的分辨率來(lái)掃描文稿,然后再利用圖像軟件將圖片縮小為需要的尺寸,這樣通常能夠有效消除網(wǎng)紋。另外,在ACDSee中有“曝光”的功能,這對(duì)于提高圖像的清晰度非常有效。而在Photoshop“圖像”菜單的“調(diào)整”項(xiàng)中我們還可以對(duì)圖像的亮度、對(duì)比度等一系列參數(shù)進(jìn)行設(shè)定,并能夠立刻查看效果。因此,如果你覺(jué)得在掃描軟件中進(jìn)行設(shè)置不夠直觀,同時(shí)擔(dān)心因?yàn)榻?jīng)驗(yàn)不足可能重復(fù)多次掃描,那么待掃描完成后再到這些軟件中來(lái)調(diào)整也不失為一個(gè)好方法。

三、不可忽略的OCR軟件

  在購(gòu)買(mǎi)掃描儀時(shí),廠商都會(huì)在隨機(jī)光盤(pán)中附送一款OCR軟件,例如明基掃描儀提供的漢王OCR(適用于中文識(shí)別)、FineReader(適用于英文識(shí)別)。一般說(shuō)來(lái),這些隨盤(pán)軟件都針對(duì)該類掃描儀進(jìn)行過(guò)一定優(yōu)化,因此筆者并不推薦用戶去使用其他的OCR軟件。下面,我們就以漢王5.0為例來(lái)看看在OCR軟件使用時(shí)我們應(yīng)該注意些什么。

1.傾斜校正

  在進(jìn)行文稿掃描時(shí),由于原稿的放置偏差,掃描后的圖像可能會(huì)出現(xiàn)傾斜的現(xiàn)象。對(duì)此,大部分的OCR軟件都提供了傾斜校正的功能。但是,如果傾斜角度較大,就可能在校正后發(fā)生部分文字扭曲的情況,這樣這些文字就可能無(wú)法被正確識(shí)別。因此,我們?cè)趧傞_(kāi)始進(jìn)行掃描時(shí)就應(yīng)該擺正原稿的位置,而不要等到后面才來(lái)“亡羊補(bǔ)牢”。

2.簡(jiǎn)單的圖像“修飾”

  如果要識(shí)別的圖像上有雜點(diǎn),也可能會(huì)影響到識(shí)別的效果。幸好OCR軟件都提供了一個(gè)“橡皮擦”,我們可以像在Windows的畫(huà)圖程序中那樣,對(duì)不需要的地方進(jìn)行擦除,以保證識(shí)別順利進(jìn)行。另外,如果在文稿內(nèi)有OCR軟件無(wú)法識(shí)別的非文字圖形,也應(yīng)該將它清除。

3.識(shí)別區(qū)域、順序的選擇

  在很多情況下,我們需要識(shí)別的文稿都進(jìn)行了分欄。如果我們直接把整個(gè)文件作為一個(gè)識(shí)別區(qū)域,那么OCR軟件將會(huì)按照通常的順序(以行為單位)而不是我們的閱讀順序進(jìn)行識(shí)別。因此,識(shí)別區(qū)域的選取也是非常重要的。在按照閱讀習(xí)慣分塊選取區(qū)域后,OCR軟件將會(huì)自動(dòng)給出識(shí)別順序,我們也可以通過(guò)點(diǎn)擊工具條上的“設(shè)定識(shí)別順序”按鈕進(jìn)行自定義操作。


最新更新
·PSP3000破解相關(guān)小知識(shí)問(wèn)答
·什么是USB PLUS?傳輸速度有
·修復(fù)受損DVD光盤(pán)的幾點(diǎn)注意事
·常見(jiàn)CRT和液晶顯示器分辨率詳
·PSP3000與PSP2000的區(qū)別、變
·16:10與16:9的液晶顯示器有什
·世界主流藍(lán)光光盤(pán)播放器主體
·解決移動(dòng)硬盤(pán)拷貝錯(cuò)誤刪除不
·解決電腦接上麥克風(fēng)出現(xiàn)噪音
·走進(jìn)四川地震“震中”的3C科
相關(guān)信息
·了解掃描儀主要性能和選購(gòu)技巧
·禁用掃描儀的多種方法
·四種因素阻礙USB掃描儀被成功識(shí)別
·USB掃描儀的“穩(wěn)定”秘訣
·技巧:掃描儀使用捷徑
·千招百式練成掃描高手
·掃描表格快速編輯
·打印機(jī)和掃描儀“dpi”的含義
·USB掃描儀無(wú)法識(shí)別之后
·底掃與掃描儀透掃有什么區(qū)別
放生
愚愛(ài)
夠愛(ài)
觸電
白狐
心跳
知足
犯錯(cuò)
降臨
分愛(ài)
葬愛(ài)
光榮
畫(huà)心
火花
稻香
愛(ài)得起
這種愛(ài)
大丈夫
花蝴蝶
二缺一
小酒窩
下雨天
右手邊
安靜了
棉花糖
明天過(guò)后
邊做邊愛(ài)
擦肩而過(guò)
沒(méi)有如果
懷念過(guò)去
等一分鐘
越來(lái)越愛(ài)
寂寞暴走
你的承諾
Nobody
我們都一樣
永遠(yuǎn)在身邊
天使的翅膀
原諒我一次
i miss you
原諒我一次
吻的太逼真
姑娘我愛(ài)你
做你的愛(ài)人
一定要愛(ài)你
飛向別人的床
愛(ài)上別人的人
感動(dòng)天感動(dòng)地
心在跳情在燒
不潮不用花錢(qián)
如何能把你忘記
即使知道要見(jiàn)面
愛(ài)上你是一個(gè)錯(cuò)
最后一次的溫柔
愛(ài)上你是我的錯(cuò)
怎么會(huì)狠心傷害我
親愛(ài)的那不是愛(ài)情
傷心時(shí)候可以聽(tīng)情歌
愛(ài)上你等于愛(ài)上了錯(cuò)
不是因?yàn)榧拍畔肽?/a>