淺談光學字型辨識技術(OCR;Optical Character Recognition)
Tags: none 發表: 2008-04-29, 點閱: 5,928 , 加入收藏櫃 , 列印 , 轉寄
「效率」二字,現代人說得理直氣壯,彷彿從紙本到電子檔的過程輕而易舉,若是懂得善用資訊工具,傳統的土法煉鋼法將不復見。過去兩眼必須不斷盯著印刷品上密密麻麻成千上萬的黑點,十指還得不停地在鍵盤上敲打,如今有光學字型辨識技術(OCR;Optical Character Recognition),只要一台掃描器、一套辨識軟體,就能讓文件資料電子化更加省時省力。
隨著光學字型辨識技術(OCR;Optical Character Recognition)的發展,以光學掃描器將整頁文本圖像輸入至電腦,再利用辨識核心技術,將圖形文字轉換成電腦上可以修改編輯的系統字元,這跟人工打字的效果是一樣的,但速度卻比人工打字快了幾十倍。它影響傳統打字生態,使人們從繁瑣的鍵盤打字工作中解脫,讓部分打字工作變成了文件掃描與文字校對,解決了低速資訊輸入與高速資訊處理之間的不平衡,進而提高了工作效率。
一般來說,字型辨識過程會歷經掃描、轉檔、校對、歸檔等四個過程,其中掃描是後續工作能否順利的關鍵,諸如掃描物件擺放位置傾斜與否?掃描解析度和雜點多不多?文字顏色濃淡,以及文件圖文多寡和字體是否複雜等因素,都會影響到OCR軟體對圖字的辨識率,若事前作業處理得好,接續工作便容易上手。辨識完成後,一篇文章能否完整呈現,有賴於線上校對工具是否簡單、清楚,能夠讓使用者毫不費力檢查原稿內文和轉換後的文件檔案內容是否一致,修改介面最好有待選字或鄰近字供點選,以避免人力與時間的浪費。
而通常我們在購買掃描器時,附帶的掃描軟體中普遍都帶有OCR識別功能,但其識別率很少令人滿意。現在市場上有多廠牌OCR產品,如丹青中文OCR、蒙恬認識王、清華紫光OCR等,每種產品都標明自己能達到最高識別率。可是用戶往往在使用之後發現其達不到所標稱的效果。實際上,即使使用識別率很高的OCR產品,識別效果可能仍然會不理想,原因在於使用掃描器輸入文本圖像的時候,沒有把掃描器的相關參數設置調整到最佳狀態,而這些參數直接影響輸入圖像的品質,導致OCR識別率下降。掃描解析度DPI (Dot Per Inch)便是影響OCR辨識率的關鍵參數之一,使用者可根據實際操作狀況調整至最佳掃描解析度,而非最高掃描解析度。總而言之,OCR識別率高低不僅取決於其軟體本身的品質,供OCR識別用的文本圖像品質也有極大關聯。