如何提高掃描儀的文本識別率一直是掃描儀用戶所關心的問題之一。下面,筆者就把自己在長期使用掃描儀進行文本識別的過程中所積累的經驗介紹給大家,希望對各位讀者有所幫助。
一、合理設置掃描參數
要進行文本識別,首先就要把文本掃描成為圖片文件。文檔圖像的掃描質量是OCR軟件能正確進行識別的前提條件。因此,掃描參數的設置就顯得尤為重要。那么,到底有哪些設置會影響到最終的識別效果呢?
1.圖像類型
在以前的OCR軟件中,只能對黑白效果的圖像進行識別,因此我們在選取掃描圖像類型時不得不選擇黑白,這對于一些帶有灰色底圖(水。┑奈母鍋碇v,掃描后的識別率將會變得很低。現在,新版的OCR軟件都支持灰度甚至彩色識別,例如漢王OCR5.0與尚書六號等。因此,如果你碰上此類的文稿,不妨在掃描時選擇圖像類型為“灰度”(也稱灰階),可以大大提高識別的成功率。
2.掃描分辨率
對任何掃描任務來說,分辨率的選擇都是至關重要的。對于文字識別來講,分辨率并不是越高越好,關鍵是要讓OCR軟件“認賬”。一般說來,使用200dpi的分辨率就已經能夠滿足識別的需要,一味地增大掃描分辨率并不會提高掃描圖像的質量,相反只會徒增掃描文件的體積和減緩掃描速度。
3.掃描圖像的修正
許多用戶在掃描時經常忽略了正式掃描之前的圖像修正工作。對于文本識別來說,恰當的圖像修正能夠大大提高圖像中文本的清晰程度,從而提高最終的文本識別率。例如,通過對Gamma的調整,圖像明顯比原圖像更為清晰(圖1)。另外,亮度、對比度的設置在一定程度上也會影響到掃描后的圖像效果。許多掃描軟件還針對報刊和雜志提供了去網紋的功能,在掃描時選擇此項功能可以自動過濾掉圖像上的網紋,對提高識別率也能起到很大作用。
二、妙用圖像處理軟件
掃描完成后,或許掃描出來的圖像還不是很讓你滿意,這時就可以使用一些常用的圖像處理軟件對圖像進一步地調整。例如,當你的掃描儀沒有提供去除網紋的功能時,不妨先以較高的分辨率來掃描文稿,然后再利用圖像軟件將圖片縮小為需要的尺寸,這樣通常能夠有效消除網紋。另外,在ACDSee中有“曝光”的功能,這對于提高圖像的清晰度非常有效。而在Photoshop“圖像”菜單的“調整”項中我們還可以對圖像的亮度、對比度等一系列參數進行設定,并能夠立刻查看效果。因此,如果你覺得在掃描軟件中進行設置不夠直觀,同時擔心因為經驗不足可能重復多次掃描,那么待掃描完成后再到這些軟件中來調整也不失為一個好方法。
三、不可忽略的OCR軟件
在購買掃描儀時,廠商都會在隨機光盤中附送一款OCR軟件,例如明基掃描儀提供的漢王OCR(適用于中文識別)、FineReader(適用于英文識別)。一般說來,這些隨盤軟件都針對該類掃描儀進行過一定優化,因此筆者并不推薦用戶去使用其他的OCR軟件。下面,我們就以漢王5.0為例來看看在OCR軟件使用時我們應該注意些什么。
1.傾斜校正
在進行文稿掃描時,由于原稿的放置偏差,掃描后的圖像可能會出現傾斜的現象。對此,大部分的OCR軟件都提供了傾斜校正的功能。但是,如果傾斜角度較大,就可能在校正后發生部分文字扭曲的情況,這樣這些文字就可能無法被正確識別。因此,我們在剛開始進行掃描時就應該擺正原稿的位置,而不要等到后面才來“亡羊補牢”。
2.簡單的圖像“修飾”
如果要識別的圖像上有雜點,也可能會影響到識別的效果。幸好OCR軟件都提供了一個“橡皮擦”,我們可以像在Windows的畫圖程序中那樣,對不需要的地方進行擦除,以保證識別順利進行。另外,如果在文稿內有OCR軟件無法識別的非文字圖形,也應該將它清除。
3.識別區域、順序的選擇
在很多情況下,我們需要識別的文稿都進行了分欄。如果我們直接把整個文件作為一個識別區域,那么OCR軟件將會按照通常的順序(以行為單位)而不是我們的閱讀順序進行識別。因此,識別區域的選取也是非常重要的。在按照閱讀習慣分塊選取區域后,OCR軟件將會自動給出識別順序,我們也可以通過點擊工具條上的“設定識別順序”按鈕進行自定義操作。