期刊報紙數位化工作流程指南
Tags: 指南 發表: 2009-10-07, 點閱: 54,549 , 加入收藏櫃 , 列印 , 轉寄
(一)儀器之色彩校正
色彩校正之目的在於充分保留報紙期刊的原狀,尤其是色彩以及文字資訊部分,讓使用者能從閱覽數位化檔案便能獲取與原物件相同之資訊內容,並了解期刊報紙在掃描當時的保存狀況為何。而色彩校正也一直是電腦繪圖及印刷最困難亦最不易解決的問題,因電腦螢幕上的顏色有許多根本就無法印出來,或者有嚴重的色偏等,其每一環節皆環環相扣,從螢幕、掃描器至輸出到印刷,每一層轉換步驟都有色偏的問題。造成色偏之因素如下:
1. 螢幕:螢幕校正需要使用貼在螢幕上之光學儀器,藉由讀取螢幕上特定色塊之顏色值來修正。
2. 掃描器:掃描器則必須使用該掃描器專用的校正用色卡,經由比對理論顏色與實際掃描得到的顏色來作修正。
3. 印表機、印刷機:依然必須執行色彩校正才能在可能範圍內得到最佳的輸出品質。
(二)色彩校正方式
就桌上型掃描器而言,是依照國際照明協會(法文Commission internationale de l’嶰lairage,簡稱CIE;或英文International Commission on Illumination,簡稱ICI)於1976年將CIE Yxy以數理方式轉換成新的CIE Lab模型為基準,並以色彩工業標準─IT8標準色彩導表來作為桌上型掃描器校色之基礎。
而近年來則因為數位相機的誕生,便出現取代傳統相機底片的電子光學元件,即感光耦合元件(Charge Coupled Device,簡稱CCD),而隨著CCD或互補性氧化金屬半導體(Complementary Metal-Oxide Semiconductor,簡稱CMOS)技術的進步,各設備皆有其相對專用之色彩導表以進行色彩校正,並產生裝置色彩描述檔ICC Profile,根據此影像標準格式檔與前、後端設備做連結,盡可能保持輸出的一致性。倘若儀器設備狀況有任何變動,則必須重新進行色彩校正與調整。在此本文以專業多用途掃描器為例(廠牌:I2S、型號:DiGiBook10000RGB)進行色彩校正。詳細色彩校正流程與專用色彩導表請參閱附錄四。
(三)特例說明
數位化過程中若需要較大的亮度才能顯現掃描物件本身的細節與特性,則必須考慮需求與目的為何,是否以物件本身色彩為第一優先,或以清晰呈現細節為優先考量。例如植物標本的掃描,若考慮使葉脈更為銳利化,則物件本身顏色即會些微偏差。
(四)輸出應用模式
1. 列印(印表機)
一般個人使用並不會特別注重印表機的色彩校正,然而以專業色彩校正而言,印表機本身及所使用紙張、碳粉或於墨水更換時都必須確實執行色彩校正,才能確保輸出之色彩品質均具有一致性。
2. 印刷(印刷機)
為確保印刷文件品質與原件相同,印刷機也必須執行色彩校正,因目前台灣市場上大部分的印刷機器並不支援色彩校正,所以實務上執行有其困難度存在。
3. 網路瀏覽
經過螢幕及掃描設備色彩校正後之檔案可直接應用於網路瀏覽。
回顧以往多數以數位化產出為首要考量基礎的設備或技術,因在數位化過程中較少將重心放置於文物的保護上,導致原件因設備(如掃描機器離心力過大或燈光過熱等)、存放空間(如過於陰暗潮濕)或人為因素(如無使用適宜手套翻閱掃描)而造成毀損或破壞。目前則因有專門適合期刊報紙進行數位化之機器設備(如書籍掃描器、專業多用途掃描器等),使得文物能兼顧數位化產出及保持現狀之需求,以降低數位化過程中原件受傷害程度。值得一提的是,目前市面上掃描器已能支援在不破壞原件的情形下,進行書背較厚的裝訂式期刊報紙之數位化,其過程不需接觸文物或拆卸裝訂,原理是運用180度書籍支架(圖4-1)或120度翻開面支架(圖4-2)來支撐物件左右兩邊重量之平衡。另外若物件本身裝訂處過於緊靠文字,則建議以盡量不傷害原件為原則,使操作人員依然能清晰可見裝訂處之文字並進行掃描,例如使用手套將物件四邊拉平,而手套則需準備棉質與膠質二種,端視期刊報紙物件狀況而決定穿戴何種手套4-1。
圖4-1、180度書籍支架
圖4-2、120度書籍支架
圖片提供:磁軒資訊媒體行銷有限公司
(一)光學文字辨識系統說明
所謂光學文字辨識是利用掃描器或數位相機等光學輸入設備獲取印刷文件或手寫於紙上的文字圖片資訊,再以各種模式識別演算法逐一辨識分析文字形態特徵,並轉換成電腦可操作的文字編碼,例如美國資訊交換標準碼(American National Standard Code for Information Interchange,簡稱ASCII code)或BIG-5碼,然後轉入資料庫供使用者檢索查詢。
對OCR光學文字辨識而言,進行中文字辨識的困難度遠高過於歐美國家的拼音文字,因中文字字數特多,且需考慮字形架構、字型變化的複雜度等,故國內的中文OCR研究至近期才邁入實用的階段。傳統將整張文件掃描經過壓縮存成影像檔的儲存方法,不僅占用空間龐大,且內文不易修改、編排或複製,一旦涉及建檔、索引、歸類等資料庫處理時更是一項繁瑣且廢時的工作,若能將文件中影像部分壓縮,再利用OCR將文字部分加以數位化轉成字碼方式儲存,則不但節省大量檔案儲存空間,且新增、刪除或修改文字內容均極為容易。
(二)OCR技術與產品現況
目前OCR的研究與技術開發,在台灣有力新國際科技、蒙恬科技、全景軟體,在大陸則以清華文通和北京漢王最著名。以下介紹上述OCR主要廠商之技術與產品現況。
1. 力新國際科技
原本為力捷電腦(UMAX)的軟體部門,負責開發掃描器驅動程式與搭售軟體,後來於1987年獨立成為「力新國際」公司。目前產品以影像處理(非常好色)、光學文字辨識(丹青)軟體與名片辨識系統為主。其中丹青文件辨識系統4-1技術移轉自工業技術研究院電腦與通訊研究所,是國內最早技術達至成熟的產品,功能包括處理黑白、彩色文件、文件版面分析、表格抽取、印刷多種字體中英數字夾雜的辨識。力新國際也積極以專案方式與各機構單位合作,例如國防部電訊發展室「傳真文件的辨識與分類」、中華電子佛典協會(Chinese Buddhist Electronic Text Association,簡稱CBETA)與日本「大藏出版株式會社」簽約進行的《大正新脩大藏經》數位化,均與該公司合作。其中,力新國際科技研發部更專為CBETA輸入作業需求而設計,進而發展出「丹青for CBETA版」的OCR辨識軟體。
2. 蒙恬科技
蒙恬科技為獨資企業,成立於1991年,由蔡義泰博士創辦,以手寫輸入系統切入市場,為當時手寫辨識(Handwritten Recognition)技術最先進的中文手寫輸入系統。1994年自工研院電通所前瞻資訊技術中心(Advanced Technology Center,簡稱ATC)移轉OCR辨識核心,並與中央大學資訊工程學系合作,開發OCR相關技術,於1996年推出「認識王」可辨認手寫稿之OCR軟體。並自1997年開始研發語音辨識技術,經由IBM的ViaVoice語音辨識核心的授權,於1998年首推「聽寫王」彙集語音與手寫辨識系統。其它OCR的應用技術則有整合掃描、辨識、翻譯三種介面的「掃譯筆」以及名片辨識與編輯的「名片王」。並將辨識技術推為為全球產品「WorldocScan」,以輕巧型機身包含辨識文件、表格、名片與照片並轉製為PDF檔案格式,並可建檔用關鍵字搜尋,解析度為600dpi (optical),加強許多功能且與其他裝置連結性更高。
3. 全景軟體
全景軟體公司於1998年正式成立,創始人為前國立交通大學校長、交通部長郭南宏博士,公司在創立初期藉由產學合作計畫自交通大學引進了OCR、文件影像分析、彩色影像處理、影像壓縮、音訊處理、檔案加解密等資訊關鍵技術,進行技術商業化及個人用套裝軟體開發,目的在於將實驗室內可商品化的實驗結果帶出,持續研發成為商品。目前的產品領域包括與OCR相關文件影像、網路安全、與虛擬實境三類。而藉由企業化經營的過程,公司目前已成功發展出國內產學合作的良好典範。但其OCR部分為企業解決方案形式進行整合,並未包裝成商品套件上市。
4. 清華文通
北京文通信息技術有限公司(Wintone,原北京清華紫光文通資訊技術有限公司)成立於1992年,是在中國科技部(原中國國家科委)與清華大學電子工程系的支援下,為推廣應用國家「863高科技計畫」資訊領域多字體印刷漢字自動識別技術研究成果而形成之企業。TH-OCR是清華大學自1985年即開始研發,TH則是TsingHua(清華)之縮寫,文通資訊以工程院院士吳佑壽為首,在丁曉青教授領導下,長期致力於清華TH-OCR的研究與開發,目前能自動識別多體漢字、漢英混排文字、印刷及手寫體,其產品在大陸市場佔有率達65%以上,其中日、韓文與英文混排文字檔的識別水準甚至超過日本及韓國對其本國文字的識別水準,而亞洲文字(中文簡體、中文繁體、日文、韓文)識別技術也因此獲得微軟高度認可,並在Microsoft Office 2003中全面配裝。
5. 北京漢王
漢王科技股份有限公司成立於1998年,以「中國國家文字識別工程中心」科技研究為基礎,在中國「七五計畫」、「八五計畫」、「九五計畫」、「863高科技計畫」、國家自然科學基金等重點專案支持下,專注於手寫、語音、OCR、生物特徵等識別技術的研究和推廣,相繼推出了語音命令合成技術、OCR掃描輸入、名片識別管理系統、指紋識別、身份證識別、車牌號碼識別、銀行票據防偽識別認證甚至人臉辨識等系列,與OCR相關的產品系列有漢王文本王、漢王E摘客、漢王名片通以及漢王文本儀等。
(三)OCR技術與實際操作
1.辨識操作程序:
評估掃描過後的影像圖檔是否需要進行去雜點或頁面傾斜校正,之後再經過OCR軟體做版面切割動作,並比對字形檔與圖像內之字樣,經檢索出對應字後,再就文句本身的詞義做詞庫之自動校正,待人工方式做對照校正後,即可儲存成一般的文字檔,最後依照各使用者之需求,運用其他應用軟體加以處理。
2.OCR技術分析:
OCR在技術研發方面以文件分析與光學文字辨識研究為主,其中文件分析包括彩色背景的去除、文件區塊(文字、影像、表格)的分離、直橫排的偵測、閱讀順序的決定等;而光學文字辨識則包括文字切割、手寫或印刷字之判斷、印刷字體的偵測、手寫及印刷中文和英數字的辨認核心等。OCR的處理過程除了本身的辨識引擎之外,還可針對辨識前的影像圖檔或辨識後的結果做進一步的處理與分析。以下略為描述前處理、辨識引擎及後處理等步驟。
(1) 前處理
期刊報紙等物件經由掃描成為影像檔至進入辨識引擎之前,這期間的處理過程均屬於前處理範圍。此步驟又可分為影像處理、版面分析與字元切割等三部分。
A. 影像處理
本文曾說明物件本身的文字與底色反差明顯者較宜進行OCR,亦即直接以黑白文件且清楚而無雜點者進行掃描較佳,然而,為避免因掃描品質不佳而使得黑白文件影像檔中的字元產生破碎或模糊不清,如今OCR辨識系統已能允許彩色或灰階的文件影像輸入,並利用影像處理技術4-2求得較佳的黑白影像檔,以提高辨識率的準確性。
B. 版面分析
由於OCR辨識引擎通常只辨認單一字元,因此文件影像需先經過版面分析,而版面分析原理及使用技術敘述如下:
(A) 版面分析原理
將文件區分為影像、表格與文字三種區塊,其中影像區塊是不可辨認者,可經過壓縮予以儲存;表格區塊則經過格線抽取、交點偵測、欄位抽取等,將表格的格線與欄位分離,而表格的欄位和文字區塊,則需經過文字行的抽取與字元的切割,將每個字元抽取出來後再進入辨識引擎做辨認處理。
(B) 版面分析使用技術
a. 區塊分割4-3
在一般文件影像中,每個區塊均會以空白行(大小不定)做區隔,因此在理想情況下,可將每一文字行切出,甚至切出每個字元。
b. 區塊型態判斷
上述區塊分割之後,通常會以下列三種區塊特性進行區塊的型態判斷:
(a) 黑白點比例
首先,先計算區塊內的黑白點比例,若黑點遠多於白點,則可能為影像區塊。
(b) 線段的存在
若區塊內可找到數段直線,則可能是表格區塊。
(c) 相連元件的平均大小與間隔
區塊內相連元件的大小與間隔分佈平均,且找不到直線,則應為文字區塊。
c. 傾斜校正
一般而言,OCR通常可進行些微傾斜字元的辨識(傾斜角度在正負0.5度以內),但若傾斜角度過大,將會影響版面分析與文字辨識率,因此在版面分析階段,會先做傾斜角度的偵測與校正。目前新技術「地理性校正」已能針對頁面或內容文字傾斜進行曲度修正,並盡量將影像頁面調整至水平以利後續OCR辨識作業。以下就期刊為數位化物件作範例,以影像掃描後製軟體Book Restorer進行地理性校正前後之比對。(圖4-3、圖4-4)
圖4-3、原始物件掃描之影像檔
圖片提供:磁軒資訊媒體行銷有限公司 |
C. 字元切割
當版面分析將每行或段落文字切出後,在進行辨識之前,尚須將每一文字元切割清楚。在此可利用一些文字特性,來決定哪些是正確的切割位置。例如,中文字乃方正字,若採用某切割位置,則可能導致切出太狹長的字元而無法採用。但若辨識文件為中英文夾雜者,可將切出的非方正字先進行英文辨識,如果辨識結果符合原字元,則此切割位置方法將可採用。當辨識文件中的每行字元間距夠明顯,即可提高字元切割的效率與速度。
(2) 辨識引擎
當字元切割完成後,即可將每個字元影像以辨識引擎進行辨認。最基本的辨認方式,即將字元影像與資料庫中每個中文字的影像比對,並計算相對位置的顏色是否相同,找出差異最小者即為辨識結果。辨識引擎的內部技術有特徵抽取、特徵比對與加速技術。詳述說明請參閱附錄五。
(3) 後處理
一般而言,在文件本身的影像品質不佳的情況下,辨識率其實不易達到令人滿意的效果,然而在後處理的技術方面,加強OCR系統學習功能是有可能微幅提高辨識率的。此部份可採取字典查詢或者前後文相關方法來進行:
A. 字典查詢法
針對辨識內容特定的需求與用途(例如名片辨識、新聞字幕等),可事先內建辭典以提供候選字做更正的步驟。以名片辨識而言,通常會有一欄位為「電話:」,而其後緊接的字元就可限制為阿拉伯數字及特定字(如#、轉、分機等),如此便能降低辨識系統誤認的情況。
B. 前後文相關法
蒐集大量辨識字元,並統計每個字元前後相關聯字出現最頻繁者,讓OCR系統具備自動學習關聯字之功能,待完成辨識結果後,即可以本身字元的候選字加上前後文來判斷最有可能的辨識結果。
3. 辨識範例說明:
進行OCR辨識測試物件有橫式中英文夾雜文件JPEG、TIFF;直式中文文件JPEG、TIFF;直式表格JPEG;直式中日文夾雜文件TIFF等。詳細測試圖檔列於下圖五:
圖片提供:磁軒資訊媒體行銷有限公司
圖4-5 、OCR辨識測試圖檔
本文以實地採訪方式進行OCR辨識軟體的操作過程與結果分析,其中因全景軟體版本無商業發行版可茲比較,而北京漢王則無發行台灣版,故本文在此針對台灣的力新國際、蒙恬科技以及大陸清華文通三家廠商軟體進行操作介面、辨識速度及效果之測試及研究。下列為OCR軟體測試系統版本:丹青中英日文文件辨識系統4.5、蒙恬認識王專業版V3.1、清華TH-OCR 2003錄入工廠。
在進行物件測試OCR辨識的過程中,可發現文字與底圖色差愈明顯,則辨識效果愈佳,並且以印刷體文字較適宜進行OCR。故物件圖檔格式建議轉為黑白TIFF、解析度為150dpi,如此一來便能提升OCR辨識率的速度及效率。
根據測試物件的版面分析及辨識結果差異較大者,本文以辨識進行畫面作說明:在橫式中英文夾雜文件測試結果中,以清華軟體辨識率較丹青及蒙恬軟體高;直式中文文件的測試結果則較無太大差異,唯獨清華軟體較能分辨出上下引號之符號(即「」)。至於直式中日文夾雜文件的辨識結果,因為蒙恬軟體版本無法支援辨識日文,強制執行下的辨識率並不高;丹青軟體在進行辨識時,版面會有亂碼出現,但仍可進行辨識,而清華軟體的中日文夾雜辨識結果則出現一堆問號,必須另存至TXT檔才能出現辨識結果,其辨識率高過於丹青軟體;以直式表格文件作測試,則發現丹青及蒙恬軟體皆辨識出表格內容之文字行,而清華軟體的辨識結果則包含表格框線和內容文字(圖4-6)。另外,值得說明的是在本文測試軟體系統中,清華軟體可移動影像內容與辨識結果中的橫隔線,這對進行後製處理步驟而言,無疑較為方便且人性化(圖4-7)。
圖4-7、清華軟體─可移動式橫隔線
圖片提供:磁軒資訊媒體行銷有限公司
(五)OCR效能之分析與比較
OCR辨識最重要的指標是「辨識的正確率」,除了受內部辨識核心引擎系統強度之影響外,而圖檔清晰度、文稿排版樣式、不同字體與語系(如繁體中文、簡體中文、英文、阿拉伯數字及含表格的文件)混合編排的識別成功率,亦很重要。
表4-1、OCR辨識系統分析一覽表
資料彙整:拓展台灣數位典藏計畫
4-1 洪淑芬,《文獻典藏數位化的實務與技術》,頁96。「棉質手套」:如果所處理之事項多為搬移作業,接觸部分多為資料之外包裝,或是翻動之資料狀況良好,極易翻掀,則棉質手套可防汗垢沾上資料,但是,棉質手套必須隨時清洗乾淨,避免使用已髒污之手套。「膠質手套」:最好是手套內無粉者。膠質手套不透氣,穿戴時間稍長會感到不舒服,但對於有蟲蛀之資料,必須使用表面光滑之膠質手套,以防止資料上的蟲損之處,黏附於手套上,反而對資料造成傷害。
4-1 目前(97年)丹青文件辨識系統已發展至第5版,本文則以4.5版為範例。
4-2 曾逸鴻,《光學文字辨識(OCR)技術整理報告》,頁2。
4-3 曾逸鴻,《光學文字辨識(OCR)技術整理報告》,頁3。區塊切割有兩種方法:「遞迴投影法」(Recursive projection analysis)或「相連元件偵測法」(Connected component detection)。若文件屬於版面較傾斜者,則前者「遞迴投影法」較無法獲得準確的切割位置。
期刊報紙數位化工作流程指南全文下載 (11.6 MB, 3,072 hits)