- 拓展台灣數位典藏 - http://content.teldap.tw/index -

Posted By 褚 如君 On 十二月 10, 2007 @ 12:17 pm In 數位化書籍 | No Comments

目    錄

 

 

[1] 壹、引言

 

[2] 貳、數位化工作流程圖


[3] 參、前置作業


[4] 肆、物件數位化程序


[5] 伍、後設資料與資料庫建置


[6] 陸、設備與成本分析


[7] 柒、效益與侷限


[8] 捌、結語


[9] 玖、參考文獻附錄


[10] 拾、附錄

 


壹、引言

     民國九十一年一月一日,行政院國家科學委員會依據「數位博物館計畫」、「國家典藏數位化計畫」,以及「國際數位圖書館合作計畫」等三個計畫的合作經驗,整合規劃了「數位典藏國家型科技計畫」;計畫的首要目標是將國家重要的文物典藏數位化,建立國家數位典藏。計畫辦公室下設有五分項計畫,分別為:內容發展、技術研發、應用服務、訓練推廣及維運管理分項計畫,協助總計畫相關業務的推動。而其中「內容發展分項計畫」負責數位典藏內容之管理、規劃及各機構間的橫向聯繫、協調等事宜,並將各計畫的典藏品依照其性質分成各種主題小組,至民國九十四年止已成立16個主題小組,包括:動物、植物、地質、人類學、檔案、地圖與遙測影像、金石拓片、善本古籍、考古、器物、書畫、新聞、影音、語言、漢籍全文與建築等主題小組。

 

     為因應「內容發展分項計畫」所規劃之主題分類,新聞主題小組於民國九十一年正式成立,以報紙、期刊、新聞影音為主要數位化典藏內容,典藏品形態包含平面報刊媒體與電視媒體之文字、圖像、照片、影音等各項種類。歷年來參與新聞主題小組進行數位化計畫的機構單位有:本國家型計畫「維運管理分項計畫─出版子計畫」(九十一至九十四年度)、國家圖書館「國家圖書館期刊報紙典藏數位化計畫」(九十一年度迄今)、國立交通大學資訊工程系「電視新聞數位博物館」(九十一年度)、國立交通大學傳播研究所「蘭嶼原住民媒體資料庫建置與數位典藏計畫」(九十四年度)、「世新大學北平世界日報內容數位開發計畫」(九十一至九十四年度)以及淡江大學「台灣棒球運動珍貴新聞檔案數位資料館之建置」(九十三年度迄今)。


     以下簡略說明新聞主題小組內各計畫之數位化工作內容:維運管理分項計畫─出版子計畫主要負責《國家數位典藏通訊》發行,並以XML標誌語言加以分析進而建立檢索資料庫;國家圖書館則從事館藏之臺灣地區發行期刊約1,000種,與臺灣地區發行報紙約30種之數位化工作,其主要數位化工作項目為期刊典藏影像數位化、報紙典藏數位化、期刊篇目後設資料分析建檔等;國立交通大學資訊工程系則有「電視新聞數位博物館」網路資料庫,典藏中華電視公司新聞影音資料;國立交通大學傳播研究所的典藏有蘭嶼在地刊物《蘭嶼雙週刊》、數位化幻燈片影像資料及蘭嶼地方廣播節目的聲音內容,並建置多媒體資料庫;世新大學資訊傳播學系則取得北平世界日報之微縮膠卷資料(報紙原件存放於北京圖書館),並陸續全文輸入典藏北平世界日報之新聞內容;淡江大學與聯合報合作進行台灣棒球新聞之數位化,並建置「台灣棒球運動珍貴新聞檔案數位資料館」。

     為了解各機構單位典藏品內容以及數位化工作程序,內容發展分項計畫亦針對各主題小組進行數位化工作流程之調查,在九十三年曾經出版新聞主題小組數位化工作流程叢書,透過圖像及文字並陳方式來紀錄各計畫單位的數位化工作流程,以提供給其他數位化機構單位相關之參考經驗;而九十四年則預計將不同主題但為相同數位化物件者,進行跨主題式之全面性整合,「物件」包括平面物件─相片(正片、負片、照片)、文書、檔案、期刊報紙、書畫、拓片等;立體物件─動植物標本、考古遺物、地質標本、器物等,其中並以相同數位化方式(如:掃描、攝影翻拍)進行數位化工作流程參考標準之彙整,以提供一套完善的標準作業流程(Standard Operational Procedure,簡稱SOP)作為數位化參考依據。

    「期刊報紙全文輸入工作流程參考標準」的目標對象則針對以期刊、報紙為數位化物件的機構單位或有興趣之個人為主,並以全文輸入視為本文數位化方式之重點來撰寫,調查方式則藉由採訪數位化執行廠商並實際測試操作,針對目前全文輸入的現況與技術進行分析及歸納,讓不同階層的使用者能依據實際情形、人力或時間成本等,選擇適合進行數位化的參考標準,也提供其對數位化工作流程更進一步的認識與瞭解。


     本文以目前新聞主題小組下的各機構單位數位化計畫為例作說明:「國家圖書館期刊報紙典藏數位化計畫」主要數位化工作為影像掃描,並針對期刊部份建置單篇篇目後設資料;「世新大學北平世界日報內容數位開發計畫」則將世界日報微缩膠捲以人工輸入方式建立新聞資料;「蘭嶼原住民媒體資料庫建置與數位典藏計畫」數位化內容之一為蘭嶼廣播帶,計畫預計以達悟語及漢語全文輸入方式來記錄廣播節目內容;「台灣棒球運動珍貴新聞檔案數位資料館」計畫則將聯合報棒球新聞進一步做更深入的後設資料分析。內容主要包括有:(一)引言(二)數位化工作流程圖(三)前置作業(四)物件數位化程序(五)後設資料與資料庫建置(六)設備與成本分析(七)效益與侷限(八)結語(九)參考文獻等。

〈[11] 目錄

 
 
 

貳、數位化工作流程圖

 

〈[12] 目錄

 

 

參、前置作業


[13] 一、年度工作規劃
[14] 二、數位化執行方式之選擇
[15] 三、後設資料之建立

 


 

一、年度工作規劃
      數位化工作進行之際,因考量到藏品數量、預定數位化進度與範圍及計畫進行期間數位化品質之一致性,故必須針對數位化工作各階段環節進行標準規格的制訂與嚴謹明確的作業規範,以避免無統一而具體的脈絡規則可遵循。概括而言,數位化工作大致包含以下步驟:檢視原件、製作數位化物件清冊、制訂標準與規範、資料影像數位化、全文輸入檢索建置、後設資料(Metadata)分析與著錄、數位化資料儲存與管理、數位化成果運用與加值等。

(一)
原件檢視與類型
     「期刊報紙全文輸入工作流程參考標準」擬定數位化物件為期刊、報紙,而早期報紙除了以原件類型蒐藏之外,尚有彙集製作成微縮膠卷(Microfilm)及拍攝成單張黑白底片之形式,故本文在此將紙質的期刊報紙稱為「直接原件」,而膠捲及底片型則稱為「間接原件」。檢視「直接原件」必須注意其保存現狀、紙質與印刷品質、破損狀況、缺頁及裝訂方式等,若有需要進行修復者,則須依照物件性質的不同而使用專業修補方式。除此之外,尚需注意原件的完整性,建議以字跡清楚且富典藏價值的藏品作為數位化物件之首選。
     「間接原件」包含微縮膠卷,原理為將「直接原件」經攝影方法縮攝於鹵化銀底片或其他適於長久保存底片中,進行微縮作業,其常見的型號有16mm和35mm,於溫度21°C、濕度50%下可保存長達100~500年,僅需簡單工具(如放大鏡)即能閱讀,亦能減少保存空間,然而較不便之處為製作及複製均需一定的標準程序和機器。此種典藏方法大量應用於圖書館、報社之保存或醫院儲存病人之數碼病歷。下列簡略介紹微縮膠卷的效益與優點:
    
     1.
技術成熟穩定:微縮技術具百年歷史,且擁有國際統一規格標準。
     2.增加管理效率:體積小,易於管理或調閱。
     3.節省儲存空間:比原件紙質資料節省約95%以上的儲存空間。
     4.利於永久保存:屬銀鹽正片,可保存100年以上,適合圖書館作永久性的典藏。
     5.利於取得複本:讀者可利用閱讀複印機將原尺寸的報紙影印出來,提供研究和傳閱。

 

1、微縮膠卷蒐藏之報社
報紙名稱
微縮膠卷資料起訖時間
數量
聯合報
民國40年 ~ 92年12月
357卷
經濟日報
民國76年 ~ 92年12月
196卷
民生報
民國67年2月 ~ 92年12月
234卷
中華日報
民國35年2月 ~ 85年12月
269卷

資料來源:漢珍圖書數位公司

  

      這些古老且具有歷史價值的微縮膠卷,經過時間證明其保存時間較為長久,然而隨著資訊科技的發展,微縮膠片技術也迫面臨淘汰的窘境,若沒有延續保留原始寶貴資料的轉換技術,將對資料的可用性造成威脅。


(二)製作清冊
      根據各計畫單位所擬定的數位化物件,進行資料來源分類,因為物件種類的性質不盡相同,則後續的數位化方式選擇也將依照典藏與使用目的作彈性變更。前述檢視原件過後,將數位化物件編列流水號,並製作數位化清單,再交由專業人員重新核對清冊。另外,物件進行修復者,則待修復完成後再編入清冊中。
(三)訂定標準規範
      在進行數位化作業過程中,必須訂定嚴謹而明確的標準與規範。國家圖書館在執行期刊報紙數位化之相關計畫時,特邀請圖書資訊界專家與館內同仁,成立「文獻分析機讀格式計畫小組」,修訂期刊文獻資源建檔之後設資料格式,並共同訂定數位化作業的相關標準與規範。各項規範包含關於後設資料(Metadata)的《文獻分析機讀格式》及《資料數位化標準—檔案數位化與命名原則》、《國家圖書館期刊影像編碼原則》、《國家圖書館報紙影像編碼原則》,其中編碼原則的制訂是國家圖書館為避免日後期刊報紙連結後設資料時產生問題,所以依照期刊報紙卷期特性及編碼方式,訂定編碼原則各一份,以作為數位影像檔案編碼的依據。(詳見附錄一、二)
     
1.確立施作方式與工作程序
     一般在實際施行數位化工作時,考量到使用者的設備、使用的便利性、資訊檢索的需求、網路上資料的傳輸速度、資料的永久保存等問題,需依據工作內容等項目,區分為自行製作以及委外作業兩種方式,並建立後設資料分析與著錄作業方式等,目的為制訂前置作業至資料備份、建置Metadata與製作網站資料庫的整個工作流程順序,同時也可規劃並掌握數位化工作之進度。
     
2.製作文字輸入及校對規範
     無論是選擇以人工輸入或軟體辨識之數位化方式進行全文輸入,都得事先製作文字輸入建檔及校對規範,其中包括標點符號及字級行距之訂定、折行處之標示、難辨識文字與缺字情況之處理方法、檔案格式、檔案命名等,這些標準的制訂是為了確保檔案的一致性,同時也方便各執行單位進行內部控管,甚至可加入Metadata欄位,在做全文輸入時順便建置,以達事半功倍之效。如果資料內容較簡單易懂,僅需電腦打字輸入技能的話,則可考慮委外製作方式;而內容若以古字、變體字為主的文件,則建議交由專業人員執行建檔及校稿。此外,在全文輸入、文字建檔、校對、修改電子檔之工作進行過程中,會經過反覆校稿、列印、改正電子檔等作業,為確實掌控各部分資料之進展情形,可製作一份進度表供日常登錄之用,而比較詳細的工作記錄,仍以利用電腦軟體處理登錄,如此一來,將有利於追蹤掌握各工作環節實際進度或適時修正。


(四)確立數位化檔案規格及用途

1. 訂定數位化檔案規格
     依據典藏品資料性質,以及數位化方式的不同,需要考慮制訂不同的檔案格式。如果原始資料是以電腦打字的電子檔,則除了儲存一份文字的原始檔之外,另建議轉成HTML、PDF或RTF三種檔案格式。儲存文字檔的原因是為了方便做全文檢索,若只有建立後設資料之需求,須先將原件掃描,並以不壓縮格式,儲存一份永久檔,再視需求轉存成其他目的之格式,如網路下載格式及預覽格式等。若原始資料為照片、圖片、地圖等,則需以掃描器掃成影像檔,並以不壓縮格式儲存一份永久檔,同樣可視需求轉存成其他目的之格式。數位化後的檔案格式一般採用:TIFF不壓縮;TIFF G4;JPG 85%壓縮;PDF等格式。格式說明分別詳述如下:

(1)
TIFF(Tag Image File Format)
TIFF的第一個版本是由ALDUS公司於1986年所創立,它利用標籤(Tag)為其組成的基本架構,具有極大的擴充性。每一個TIFF檔可以是單頁或是多頁,在編輯的過程中能達到影像資訊無失真,已被大多數軟體所使用。TIFF格式具有豐富的色彩支援,包括全彩、灰階及黑白等影像格式亦或線條稿(純文字圖檔),並且提供多種壓縮模式,包括LZW(Lempel-Ziv-Welch Encoding,簡稱LZW)、Huffman’s Encoding、及變動長度編碼法等,能使檔案體積變小,但仍然不失真。使用者可依照需求使用合適的壓縮策略。針對純文字圖檔,建議利用TIFF G4格式(256階、黑白TIFF),使檔案體積最小的情況下,獲得最佳影像品質。以TIFF G4、300dpi、A4尺寸的檔案為例,每頁檔案體積為50KB。

(2)
JPEG(Joint Photographic Experts Group)
JPEG是由國際標準組織(International Organization for Standardization,簡稱ISO)和國際電話電報諮詢委員會(International Telegraph and Telephone Consultative Committee,簡稱CCITT)所建立的一個數位影像壓縮標準,主要是用於靜態影像壓縮方面,其採用可失真(Lossy)編碼法的概念,利用數位餘弦轉換法(Discrete Cosine Transform,簡稱DCT)將影像資料中較不重要的部份去除,僅保留重要的資訊,以達到高壓縮率的目的。雖然被JPEG處理後的影像會有失真的現象,但JPEG的失真比例可利用參數來加以控制,一般而言,當壓縮率在5%~15%之間時,JPEG依然能保證其適當的影像品質。其適合應用於壓縮全彩或是8位元的灰階影像,凡是照片或色彩連續的影像都非常適宜利用JPEG來壓縮,且同解析度的檔案體積也比TIFF格式小,更利於在網路上傳送閱讀,也由於JPEG壓縮率高,且影像品質在接受範圍內,所以目前支援JPEG的應用軟體相當多,是目前網路上使用最普遍的影像壓縮格式之一。

(3)
JPEG2000
JPEG2000正式名稱為「ISO 15444」,由JPEG(the Joint Photographic Experts Group)組織於2000年3月制訂完成。JPEG2000的壓縮率比傳統JPEG高約30%左右,並同時支援有損和無損壓縮,而JPEG 只支援有損壓縮,且具有支援「感興趣區域」特性,可任意指定部份影像壓縮量或先解壓縮。然而目前支援JPEG2000的應用軟體並不普及,較完整軟體則屬LuraTech技術廠商,其與 ACD Systems 公司簽訂協定,在使用率最高的圖形管理軟體 ACDSee 3.0 上,提供 JPEG2000 LWF 格式的外掛元件演算法,如此只要安置此插件就可觀看並製作 LWF 格式檔。

(4)
PDF(Portable Document Format)
PDF是Adobe公司所推出的一種跨平台軟體,為Adobe系統中Acrobat的原生性檔案格式,PDF格式獨立於原有製作這些文件的應用軟體、硬體、及作業系統之外,是不需用原有軟體就能閱讀的共用檔案格式。PDF能保存原始文件的字體、影像、圖形和版面,不受設備與解析度影響。目前常見的PDF為單層PDF,而雙層PDF則融合了OCR辨識結果,即文件內容上層為圖像,但底層包含OCR辨識的文字資料,可供搜尋之用,並具全文檢索功能,且能找出文字、書籤和資料欄的位置。因此,PDF不僅保存了原始文件的外觀和完整性,另一方面又兼顧了文字資料檢索的需求,讓文件的相容性與閱讀性大增。此外,PDF檔案可經由設定密碼來保護文件,以避免被不當複製或未經授權的檢視和修改,同時又可以讓授權的審閱者使用註解和編輯工具,因此除了微軟所出的Microsoft Reader之外,PDF也是目前世界上最通用的電子書(eBook)格式之一。

(5)
其它格式
CEB格式(Chinese Electronic Book,簡稱CEB)是由北大方正公司所創Apabi Reader中文電子書格式,具有版權紀錄與鎖定的功能,同樣也是不需用原有軟體而能閱讀的共用檔案格式。
 
2、常用格式的容量比較表(A4 300DPI)
 
會否失真
彩色
黑白
容量
TIFF 不壓縮
不會
極大
TIFF LZW 壓縮
不會
TIFF G4
會(部分文字不會)
不可
極小
JPEG 不壓縮
JPEG 85% 壓縮
JPEG2000
不會
極小
PDF
不確定

 

2. 數位化檔案之用途
1)印刷
 

A.期刊報紙之印刷用途
A)原物重現、再版發行
B)宣傳展示

 B.解析度需求
簡單而言,解析度即圖檔的清晰程度,而解析度越高則所需儲存空間也就越大。上述印刷用途皆可依照原始尺寸、放大或縮小以進行印刷作業。要達到原始尺寸的印刷,其解析度至少要300dpi。若要放大印刷,則解析度必須相對提高,然而因為報紙本身尺寸的關係,在掃描技術上就必須要克服提升解析度的困難;另外若放大的需求是大圖輸出,例如大型海報或外牆使用等,則解析度以72dpi為基準數,依照實際需求將長寬等比例放大即可,其目的在於遠距離觀看,故近距離檢視下出現馬賽克是可被接受的,此做法較適合量少的宣傳品使用。至於縮小作稿方式,原則上建議在電腦設備可支援情形下,使用72dpi、原尺寸1:1或300dpi、縮小4倍進行輸出作業較不易產生馬賽克,成品質感也較佳。

2)實體與數位化保存
對期刊報紙實體存放空間而言,不論是在何種場所、空間大小、溫濕度控制、照明亮度或是降低紙質成分的損毀度等,都是對於進行數位化工作相當重要的關鍵。簡單來說,期刊報紙必須在恆溫恆濕以及與空氣日光接觸少的環境空間下儲存,然而調閱瀏覽及操作掃描等人為因素次數愈頻繁,造成原件壞損的機會便愈大,於是進行數位化工作便等於增加另一種保存原件的方式。而期刊報紙原件也因為尺寸及數量的關係,累積蒐藏量體積相當龐大,需要絕對寬敞的儲存空間來存放,相對而言,儲存成本總金額也隨之增加,故採取何種數位化格式也就刻不容緩且須謹慎評估之。例如國家圖書館在進行館藏期刊報紙資料數位化時,為要求數位化內容清晰以及永久典藏,則依據「資料數位化與命名原則」之建議規格,決定採用文字檔及影像檔資料永久保存格式進行數位化。其中文字檔之永久保存格式建議規格為TIFF不壓縮、300~600dpi;下載格式建議規格為JBIG、150~300dpi;預覽影像建議規格為GIF、72dpi。詳細數位化檔案建議格式請參閱附錄三。

3)網路瀏覽
網路瀏覽的目的在於使數位化圖檔能夠在網路上供大眾瀏覽,然而因為網路頻寬的限制,所以必須選擇適合的檔案格式來進行數位化,而圖檔體積愈小,網路瀏覽便愈順利,相對地圖檔清晰度也會減少,尤其是圖檔內容以文字為主時特別明顯,而目前可透過新掃描技術提供品質較佳的低容量圖檔體積並且降低文字清晰度的流失。

4)電子書
期刊報紙進行數位化後的圖檔,可以依照所需主題組合而成電子書,以電子書形式提供予使用者下載、閱讀或列印。目前國際普遍檔案格式為PDF,而中文電子書則以方正Apabi Reader軟體市佔率最高。


二、數位化執行方式之選擇


    
以往期刊與報紙的數位化處理方式,有影像掃描、人工輸入、光學文字辨識(Optical Character Recognition,簡稱OCR)、電子報直接轉入資料庫等四種[16] [1],以下將以新聞主題小組內計畫作為範例,各數位化執行單位可依原始資料性質並評估成本預算後,再決定採行的數位化方式,或是數種方式搭配使用。

(一)
影像掃描
     影像掃描是將報紙版面掃描成為影像檔儲存,可存為JPG或PDF等圖檔格式,原則上解析度要到300dpi才夠清晰,為目前市面圖書館與大型研究機構較常用的一種數位化作業,而目前為止新技術已能滿足清晰度且高壓縮至150dpi,這種做法比較簡單而省時省力,且可提供仿真的資料原件複本給使用者,例如「國家圖書館期刊報紙典藏數位化計畫」所成立之報紙影像資料庫,即是此種方式的代表:將報紙掃描後(含微片轉製34種,共有445,584頁影像檔),另外建置標題與相關後設資料與欄位,以提供報紙文獻的全頁影像與新聞標題查詢。然而倘若掃描的影像內容無法直接辨識進而提供檢索,在使用上的效益將遠不如電子全文資料。故現今已有雙層PDF融合影像內容及OCR辨識結果,以彌補純粹影像掃描而無法進行全文檢索之憾。

(二)
人工輸入
      人工輸入則是將紙本原件或將已經掃描成影像或製成微縮膠卷的報紙重新輸出,再用人工方式重新打字建置資料,完成的內容必須再經人工校對,例如「世新大學北平世界日報內容數位化開發計畫」,最後是把校對好的文字檔轉換成為資料庫格式,上網供使用者查詢。這種全文輸入的方式,需要的是電腦打字輸入的技能,可以採外包的方式,再由單位內的人員進行檢校;若資料原件多異體字或有闕漏,則不建議交付外包。

(三)
光學文字辨識
      光學文字辨識是使用掃描設備將印刷文件讀入,並將文件上的文字辨認後轉換成電腦使用的文字編碼,例如ASCII 碼或BIG-5碼,再轉入資料庫供使用者檢索查詢,適合印刷清楚、資料量龐大的文獻,其正確率可達99.98%,若是期刊報紙的原件年代久遠、紙張泛黃,而產生漏字缺角、辨識模糊等缺陷,仍需要經由人工校對來提高正確率;有時掃描品質不佳,內容清晰度差,OCR效率反而比不上人工輸入,例如「世新大學世界日報內容數位化開發計畫」即在評估之下選擇使用人工輸入法。不過一般而言,在典藏品掃描後品質仍佳的情況下,利用OCR的技術來還原文字,其成本遠比人工輸入來得低廉。如果已有其他型式媒體備份,例如影本或微縮版,則第一階段之輸入建檔應利用影本或微縮資料列印文件。影本或微縮資料列印文件如有不清楚之處,再批次調取原件核對。要進行核對時,如果廠商數位檔已製作完成,則可利用數位檔進行核對;原則上是盡量減少提取原件的機會,以保護原件。

(四)
電子報直接轉入資料庫

    「辦公室維運分項:出版子計畫」則是直接將電子檔轉入資料庫,以《國家數位典藏通訊》電子報的形式發送,必須另外建置Metadata方能供使用者查詢。又如國內最知名的兩大報系─聯合報以及中國時報,早已將報紙編排方式數位化,並把當日新聞文字稿儲存至資料庫中,而所謂資料庫、Metadata的建置、XML的應用等則自從Internet普及後才逐漸受到重視。

 

 

3、期刊報紙數位化方式特性分析表

數位化方式
 

特點

弱點
影像掃描
提供原件複本
無法全文檢索
人工打字
可直接判斷出缺字或難字
耗費大量人力、時間成本
光學文字辨識
速度快、效率高
鉛字排版、印刷字與手寫字混排、
注音體、影像檔品質不良等辨識率低
電子報
本身形式即已經過數位化
 
      綜合上表四種期刊報紙數位化方式之優缺點比較,因影像掃描方式若無法提供使用者內容的全文檢索,因此使用效益不大;人工打字方式雖僅需打字技能,相較於光學文字辨識則耗費了太多的人力與時間成本;而OCR數位化效率雖高,但若無適合的文件類型,則辨識率仍有待突破;電子報本身形式已經過數位化,暫不在此進行比較。

 

      一般而言,執行單位在進行文字數位化時,較常遇見情形為OCR辨識率過低,不得已改而採取較耗費成本之人工輸入法,然而,若是能對物件影像檔做些適當的處理以提高其辨識率,不僅能使大量文字圖像內容能夠重新引用並方便檢索,同時也能減少許多不必要的人力或時間成本(OCR辨識處理步驟將於下一章節詳細作說明)。因此,本文除了針對OCR光學文字辨識作一深入探討研究之外,也提供一些選擇人工輸入或OCR辨識的參考依歸,其中以OCR品質檢驗要則為主要考量,利於使用者在進行全文輸入時,依據本身現有的實際情形自行斟酌並作調整。

 
      就文件類型而言,適合進行OCR辨識的文件類型有常見的印刷體為主、已清除雜點、傾斜校正且文字與底色反差明顯者。而不適合進行OCR辨識的文件類型則包括排版格式複雜、字體非一般常用字、帶有注音符號或數學運算公式等,甚至因為紙張較薄(磅數較低)、油墨較深者容易造成背面文字顯現於正面文件上,這些因素都將對OCR辨識率造成影響。另外,民國五十年左右的報紙是使用鉛字排版方式印刷,因排版字縫間有空隙,且因年代久遠或溫、濕度失恆而使紙張泛黃或毀損,導致掃描後品質不佳、內容清晰度差者,則建議使用人工輸入方式較有效率。
 
 4、數位化方式品質檢驗要點
      數位化方式
品質檢驗要點
OCR光學文字辨識
人工輸入
字體
常見印刷體
純手寫稿、夾雜注音體、數學運算公式
印刷體或手寫字混排、古文或變體字多
排版格式
電腦排版、格式簡單
讀文順序清楚
早期鉛字排版、格式複雜、
讀文順序不順暢
雜點
版面較為乾淨、無雜點
字體周圍較多標記或雜點
反差度
純黑白稿、字體清晰
、反差度高
本身影像品質不佳、字體較為模糊
、反差不明顯

    
就圖檔格式而言,OCR軟體在個人電腦問世後不久即產生,然而當時僅能支援150dpi、黑白TIFF或BMP檔案格式。目前則因個人電腦處理能力大幅提升及改善,OCR也已能處理JPG格式。而為確保辨識的精確性並提升辨識效率,建議將彩色或灰階文件圖檔進行影像處理,取得較佳的影像格式(150~200dpi、黑白TIFF),以利OCR作業之進行。目前測試結果顯示有利OCR之圖檔格式依序為:黑白TIFF G4、150dpi;黑白TIFF G4、300dpi;全彩JPG/TIFF、300dpi。黑白圖檔因文字與底色的反差明顯度大於彩色圖檔,故OCR辨識度較高;而在同樣能進行OCR作業情況下,黑白TIFF G4、150dpi則因檔案體積及佔用資源空間較小,故較優於黑白TIFF G4、300dpi進行OCR文字辨識。
 

5、利於OCR辨識之圖檔格式
圖檔格式
利於OCR辨識程度(依次排序)
黑白TIFF G4、150dpi
反差度高、體積較小
黑白TIFF G4、300dpi
反差度高
全彩JPG/TIFF、300dpi
底圖與文字反差不明顯,對OCR辨識造成干擾

 
三、後設資料之建立

(一)確立檔案格式
      目前影視新聞相關之後設資料格式尚無統一標準,這裡指的是在新聞主題小組中不同媒體類型的典藏品,可能需要不同的後設資料加以詮釋;有許多新聞傳播相關主題加入了數位典藏計畫,各個子計畫或典藏單位的資料庫,都具有描述各自典藏品的後設資料與整理工作,期望能與不同的資料庫與檢索系統加以結合。

(二)後設資料需求訪談
      不同類型數位化物件的後設資料不盡相同,若能訪查相關計畫或有經驗的單位,請專家們給予參考,建置符合使用者及管理者需求的後設資料,並參考國際相關標準,將可徵集多方意見,使得後設資料更加完備。

(三)訂定後設資料規範

      將各類型資料加以分析比較之後,即可依照各典藏品特性來訂定後設資料規範與欄位建置;由於聯合目錄所採用的是都柏林核心集(Dublin Core,簡稱DC﹞做為核心欄位,其普遍性雖然可以處理異質資料庫間的共通,但不同的媒介與計畫間應有適用於該主題更需被凸顯的核心欄位,由此整合的核心欄位再行對應DC欄位,並搭配個別資料庫欄位的分析,將可提高呈現內容的目錄價值。

〈[17] 目錄



1.孫正宜、林信成,〈中文報業數位化技術與現況探討-聯合知識庫數位化經驗〉,頁3~4。

肆、物件數位化程序

 

 

[18] 一、色彩校正
[19] 二、數位化掃描技術
[20] 三、光學文字辨識技術



一、色彩校正

(一)儀器之色彩校正

  

    色彩校正之目的在於充分保留報紙期刊的原狀,尤其是色彩以及文字資訊部分,讓使用者能從閱覽數位化檔案便能獲取與原物件相同之資訊內容,並了解期刊報紙在掃描當時的保存狀況為何。而色彩校正也一直是電腦繪圖及印刷最困難亦最不易解決的問題,因電腦螢幕上的顏色有許多根本就無法印出來,或者有嚴重的色偏等,其每一環節皆環環相扣,從螢幕、掃描器至輸出到印刷,每一層轉換步驟都有色偏的問題。造成色偏之因素如下:

1. 螢幕:螢幕校正需要使用貼在螢幕上之光學儀器,藉由讀取螢幕上特定色塊之顏色值來修正。
2. 掃描器:掃描器則必須使用該掃描器專用的校正用色卡,經由比對理論顏色與實際掃描得到的顏色來作修正。

3. 印表機、印刷機:依然必須執行色彩校正才能在可能範圍內得到最佳的輸出品質。


(二)
色彩校正方式
      就桌上型掃描器而言,是依照國際照明協會(Commission Intornation De’l E’ clairage,簡稱CIE或International Commission on Illumination,簡稱ICI)於1976年將CIE Yxy以數理方式轉換成新的CIE Lab模型為基準,並以色彩工業標準─IT8標準色彩導表來作為桌上型掃描器校色之基礎。
而近年來則因為數位相機的誕生,便出現取代傳統相機底片的電子光學元件,即感光耦合元件(Charge Coupled Device,簡稱CCD),而隨著CCD或互補性氧化金屬半導體(Complementary Metal-Oxide Semiconductor,簡稱CMOS)技術的進步,各設備皆有其相對專用之色彩導表以進行色彩校正,並產生裝置色彩描述檔ICC Profile,根據此影像標準格式檔與前、後端設備做連結,盡可能保持輸出的一致性。倘若儀器設備狀況有任何變動的話,則必須重新進行色彩校正與調整。在此本文以專業多用途掃描器為例(廠牌:I2S、型號:DiGiBook10000RGB)進行色彩校正,詳細色彩校正流程與專用色彩導表請參閱附錄四。
   
(三)特例說明
      數位化過程中若需要較大的亮度才能顯現掃描物件本身的細節與特性,則必須考慮需求與目的為何,是否以物件本身色彩為第一優先,或以清晰呈現細節為優先考量。例如植物標本的掃描,若考慮使葉脈更為銳利化,則物件本身顏色即會些微偏差。

(四)
輸出應用模式
1. 列印(印表機)
一般個人使用並不會特別注重印表機的色彩校正,然而以專業色彩校正而言,印表機本身及所使用紙張、碳粉或於墨水更換時都必須確實執行色彩校正,才能確保輸出之色彩品質均具有一致性。
2. 印刷(印刷機)
為確保印刷文件品質與原件相同,印刷機也必須執行色彩校正,因目前台灣市場上大部分的印刷機器並不支援色彩校正,所以實務上執行有其困難度存在。
3. 網路瀏覽
經過螢幕及掃描設備色彩校正後之檔案可直接應用於網路瀏覽。

二、數位化掃描技術

      回顧以往多數以數位化產出為首要考量基礎的設備或技術,因在數位化過程中較少將重心放置於文物的保護上,導致原件因設備(如掃描機器離心力過大或燈光過熱等)、存放空間(如過於陰暗潮濕)或人為因素(如無使用適宜手套翻閱掃描)而造成毀損或破壞。目前則因有專門適合期刊報紙進行數位化之機器設備(如書籍掃描器、專業多用途掃描器等),使得文物能兼顧數位化產出及保持現狀之需求,以降低數位化過程中原件受傷害程度。值得一提的是,目前市面上掃描器已能支援在不破壞原件的情形下,進行書背較厚的裝訂式期刊報紙之數位化,其過程不需接觸文物或拆卸裝訂,原理是運用180度書籍支架(圖一)或120度翻開面支架(圖二)來支撐物件左右兩邊重量之平衡。另外若物件本身裝訂處過於緊靠文字,則建議以盡量不傷害原件為原則,使操作人員依然能清晰可見裝訂處之文字並進行掃描,例如使用手套將物件四邊拉平,而手套則需準備棉質與膠質二種,端視期刊報紙物件狀況而決定穿戴何種手套[21] [2]
  

  圖一、180度書籍支架
 
 

 

 圖二、120度書籍支架
 
三、光學文字辨識技術

(一)光學文字辨識系統說明
      所謂光學文字辨識是利用掃描器或數位相機等光學輸入設備獲取印刷文件或手寫於紙上的文字圖片資訊,再以各種模式識別演算法逐一辨識分析文字形態特徵,並轉換成電腦可操作的文字編碼,例如美國資訊交換標準碼(American National Standard Code for Information Interchange,簡稱ASCII code)或BIG-5碼,然後轉入資料庫供使用者檢索查詢。
      對OCR光學文字辨識而言,進行中文字辨識的困難度遠高過於歐美國家的拼音文字,因中文字字數特多,且需考慮字形架構、字型變化的複雜度等,故國內的中文OCR研究至近期才邁入實用的階段。傳統將整張文件掃描經過壓縮存成影像檔的儲存方法,不僅占用空間龐大,且內文不易修改、編排或複製,一旦涉及建檔、索引、歸類等資料庫處理時更是一項繁瑣且廢時的工作,若能將文件中影像部分壓縮,再利用OCR將文字部分加以數位化轉成字碼方式儲存,則不但節省大量檔案儲存空間,且新增、刪除或修改文字內容均極為容易。

(二)OCR技術與產品現況
      目前OCR的研究與技術開發,在台灣有力新國際、蒙恬科技、全景軟體,在大陸則以清華文通和北京漢王最著名。以下介紹上述OCR主要廠商之技術與產品現況。
1. 力新國際
      原本為力捷電腦(UMAX)的軟體部門,負責開發掃描器驅動程式與搭售軟體,後來於1987年獨立成為「力新國際」公司。目前產品以影像處理(非常好色)、光學文字辨識(丹青)軟體與名片辨識系統為主。其中丹青文件辨識系統技術移轉自工業技術研究院電腦與通訊研究所,是國內最早技術達至成熟的產品,功能包括處理黑白、彩色文件、文件版面分析、表格抽取、印刷多種字體中英數字夾雜的辨識。力新國際也積極以專案方式與各機構單位合作,例如國防部電訊發展室「傳真文件的辨識與分類」、中華電子佛典協會(Chinese Buddhist Electronic Text Association,簡稱CBETA)與日本「大藏出版株式會社」簽約進行的《大正新脩大藏經》數位化,均與該公司合作。其中,力新國際研發部更專為CBETA輸入作業需求而設計,進而發展出「丹青for CBETA版」的OCR辨識軟體。
 
2. 蒙恬科技
     蒙恬科技為獨資企業,成立於1991年,由蔡義泰博士創辦,以手寫輸入系統切入市場,為當時手寫辨識(Handwritten Recognition)技術最先進的中文手寫輸入系統。1994年自工研院電通所前瞻資訊技術中心(Advanced Technology Center,簡稱ATC)移轉OCR辨識核心,並與中央大學資訊工程學系合作,開發OCR相關技術,於1996年推出「認識王」可辨認手寫稿之OCR軟體。並自1997年開始研發語音辨識技術,經由IBM的ViaVoice語音辨識核心的授權,於1998年首推「聽寫王」彙集語音與手寫辨識系統。其它OCR的應用技術則有整合掃描、辨識、翻譯三種介面的「掃譯筆」以及名片辨識與編輯的「名片王」。

3.
全景軟體
      全景軟體公司於1998年正式成立,創始人為前國立交通大學校長、交通部長郭南宏博士,公司在創立初期藉由產學合作計畫自交通大學引進了OCR、文件影像分析、彩色影像處理、影像壓縮、音訊處理、檔案加解密等資訊關鍵技術,進行技術商業化及個人用套裝軟體開發,目的在於將實驗室內可商品化的實驗結果帶出,持續研發成為商品。目前的產品領域包括與OCR相關的名片辨識系統、影像剪輯、網路安全、與虛擬實境四類。而藉由企業化經營的過程,公司目前已成功發展出國內產學合作的良好典範。但其OCR部分為專案方式進行整合,並未在市場上發行OCR軟體。

4.
清華文通
     北京文通資訊技術有限公司(原北京清華紫光文通資訊技術有限公司)成立於1992年,是在中國科技部(原中國國家科委)與清華大學電子工程系的支援下,為推廣應用國家「863高科技計畫」資訊領域多字體印刷漢字自動識別技術研究成果而形成之企業。TH-OCR是清華大學自1985年即開始研發,TH則是TsingHua(清華)之縮寫,文通資訊以工程院院士吳佑壽為首,在丁曉青教授領導下,長期致力於清華TH-OCR的研究與開發,目前能自動識別多體漢字、漢英混排文字、印刷及手寫體,其產品在大陸市場佔有率達65%以上,其中日、韓文與英文混排文字檔的識別水準甚至超過日本及韓國對其本國文字的識別水準,而亞洲文字(中文簡體、中文繁體、日文、韓文)識別技術也因此獲得微軟高度認可,並在Microsoft Office 2003中全面配裝。
 
5. 北京漢王
      北京漢王科技有限公司成立於1993年,以「中國國家文字識別工程中心」科技研究為基礎,在中國「七五計畫」、「八五計畫」、「九五計畫」、「863高科技計畫」、國家自然科學基金等重點專案支持下,專注於手寫、語音、OCR、生物特徵等識別技術的研究和推廣,相繼推出了語音命令合成技術、OCR掃描輸入、名片識別管理系統、指紋識別、身份證識別、車牌號碼識別、銀行票據防偽識別認證等系列產品。

(三)OCR技術與實際操作
1.辨識操作程序:
      評估掃描過後的影像圖檔是否需要進行去雜點或頁面傾斜校正,之後再經過OCR軟體做版面切割動作,並比對字形檔與圖像內之字樣,經檢索出對應字後,再就文句本身的詞義做詞庫之自動校正,待人工方式做對照校正後,即可儲存成一般的文字檔,最後依照各使用者之需求,運用其他應用軟體加以處理。

2.OCR技術分析:
      OCR在技術研發方面以文件分析與光學文字辨識研究為主,其中文件分析包括彩色背景的去除、文件區塊(文字、影像、表格)的分離、直橫排的偵測、閱讀順序的決定等;而光學文字辨識則包括文字切割、手寫或印刷字之判斷、印刷字體的偵測、手寫及印刷中文和英數字的辨認核心等。OCR的處理過程除了本身的辨識引擎之外,還可針對辨識前的影像圖檔或辨識後的結果做進一步的處理與分析。以下略為描述前處理、辨識引擎及後處理等步驟。
(1)前處理
     期刊報紙等物件經由掃描成為影像檔至進入辨識引擎之前,這期間的處理過程均屬於前處理範圍。此步驟又可分為影像處理、版面分析與字元切割等三部分。

A.
影像處理
本文曾說明物件本身的文字與底色反差明顯者較宜進行OCR,亦即直接以黑白文件且清楚而無雜點者進行掃描較佳,然而,為避免因掃描品質不佳而使得黑白文件影像檔中的字元產生破碎或模糊不清,如今OCR辨識系統已能允許彩色或灰階的文件影像輸入,並利用影像處理技術[22] [3]求得較佳的黑白影像檔,以提高辨識率的準確性。

B.
版面分析
由於OCR辨識引擎通常只辨認單一字元,因此文件影像需先經過版面分析,而版面分析原理及使用技術敘述如下:
(A)版面分析原理
將文件區分為影像、表格與文字三種區塊,其中影像區塊是不可辨認者,可經過壓縮予以儲存;表格區塊則經過格線抽取、交點偵測、欄位抽取等,將表格的格線與欄位分離,而表格的欄位和文字區塊,則需經過文字行的抽取與字元的切割,將每個字元抽取出來後再進入辨識引擎做辨認處理。
(B)版面分析使用技術
       a. 區塊分割[23] [4]
           在一般文件影像中,每個區塊均會以空白行(大小不定)做區隔,因此在理想情況下,可將每一文字行切出,甚至切出每個字元。
       b. 區塊型態判斷
           上述區塊分割之後,通常會以下列三種區塊特性進行區塊的型態判斷:
            (a) 黑白點比例
                 首先,先計算區塊內的黑白點比例,若黑點遠多於白點,則可能為影像區塊。
            (b) 線段的存在
                 若區塊內可找到數段直線,則可能是表格區塊。
            (c) 相連元件的平均大小與間隔
                 區塊內相連元件的大小與間隔分佈平均,且找不到直線,則應為文字區塊。
       c. 傾斜校正
      一般而言,OCR通常可進行些微傾斜字元的辨識(傾斜角度在正負0.5度以內),但若傾斜角度過大,將會影響版面分析與文字辨識率,因此在版面分析階段,會先做傾斜角度的偵測與校正。目前新技術「地理性校正」已能針對頁面或內容文字傾斜進行曲度修正,並盡量將影像頁面調整至水平以利後續OCR辨識作業。以下就期刊為數位化物件作範例,以影像掃描後製軟體Book Restorer進行地理性校正前後之比對。(圖三、圖四)
                                                         

  
圖三、原始物件掃描之影像檔
 
 

   
圖四、進行地理性校正之影像檔

C.
字元切割
      當版面分析將每行或段落文字切出後,在進行辨識之前,尚須將每一文字元切割清楚。在此可利用一些文字特性,來決定哪些是正確的切割位置。例如,中文字乃方正字,若採用某切割位置,則可能導致切出太狹長的字元而無法採用。但若辨識文件為中英文夾雜者,可將切出的非方正字先進行英文辨識,如果辨識結果符合原字元,則此切割位置方法將可採用。當辨識文件中的每行字元間距夠明顯,即可提高字元切割的效率與速度。
(2) 辨識引擎
當字元切割完成後,即可將每個字元影像以辨識引擎進行辨認。最基本的辨認方式,即將字元影像與資料庫中每個中文字的影像比對,並計算相對位置的顏色是否相同,找出差異最小者即為辨識結果。辨識引擎的內部技術有特徵抽取、特徵比對與加速技術,詳述說明請參閱附錄五。
(3)後處理
一般而言,在文件本身的影像品質不佳的情況下,辨識率其實不易達到令人滿意的效果,然而在後處理的技術方面,加強OCR系統學習功能是有可能微幅提高辨識率的。此部份可採取字典查詢或者前後文相關方法來進行:
        A.字典查詢法
針對辨識內容特定的需求與用途(例如名片辨識、新聞字幕等),可事先內建辭典以提供候選字做更正的步驟。以名片辨識而言,通常會有一欄位為「電話:」,而其後緊接的字元就可限制為阿拉伯數字及特定字(如#、轉、分機等),如此便能降低辨識系統誤認的情況。
        B. 前後文相關法
蒐集大量辨識字元,並統計每個字元前後相關聯字出現最頻繁者,讓OCR系統具備自動學習關聯字之功能,待完成辨識結果後,即可以本身字元的候選字加上前後文來判斷最有可能的辨識結果。

3. 辨識範例說明:
進行OCR辨識測試物件有橫式中英文夾雜文件JPEG、TIFF;直式中文文件JPEG、TIFF;直式表格JPEG;直式中日文夾雜文件TIFF等。詳細測試圖檔列於下圖五:
 
 

 

橫式中英文夾雜 (彩色JPG)
橫式中英文夾雜 (黑白TIFF)
 
 
 
 
 
 
 
 
 

 
 
 
 
 
 
 
 
 
直式中文(彩色JPG)
直式中文(黑白TIFF)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
直式表格(彩色JPG)
直式中日文(黑白TIFF)
圖五、OCR辨識測試圖檔

 

     本文以實地採訪方式進行OCR辨識軟體的操作過程與結果分析,其中因全景軟體版本無商業發行版可茲比較,而北京漢王則無發行台灣版,故本文在此針對台灣的力新國際、蒙恬科技以及大陸清華文通三家廠商軟體進行操作介面、辨識速度及效果之測試及研究。下列為OCR軟體測試系統版本:丹青中英日文文件辨識系統4.5、蒙恬認識王專業版V3.1、清華TH-OCR 2003錄入工廠。

     在進行物件測試OCR辨識的過程中,可發現文字與底圖色差愈明顯,則辨識效果愈佳,並且以印刷體文字較適宜進行OCR。故物件圖檔格式建議轉為黑白TIFF、解析度為150dpi,如此一來便能提升OCR辨識率的速度及效率。
根據測試物件的版面分析及辨識結果差異較大者,本文以辨識進行畫面作說明:在橫式中英文夾雜文件測試結果中,以清華軟體辨識率較丹青及蒙恬軟體高;直式中文文件的測試結果則較無太大差異,唯獨清華軟體較能分辨出上下引號之符號(即「」)。至於直式中日文夾雜文件的辨識結果,因為蒙恬軟體版本無法支援辨識日文,強制執行下的辨識率並不高;丹青軟體在進行辨識時,版面會有亂碼出現,但仍可進行辨識,而清華軟體的中日文夾雜辨識結果則出現一堆問號,必須另存至TXT檔才能出現辨識結果,其辨識率高過於丹青軟體;以直式表格文件作測試,則發現丹青及蒙恬軟體皆辨識出表格內容之文字行,而清華軟體的辨識結果則包含表格框線和內容文字(圖六)。另外,值得說明的是在本文測試軟體系統中,清華軟體可移動影像內容與辨識結果中的橫隔線,這對進行後製處理步驟而言,無疑較為方便且人性化(圖七)。
 
     

                                                                       
圖六、清華軟體辨識表格內容及框線
 
 

  圖七、清華軟體─可移動式橫隔線

 
(五)OCR效能之分析與比較

 

      OCR辨識最重要的指標是「辨識的正確率」,除了受內部辨識核心引擎系統強度之影響外,而圖檔清晰度、文稿排版樣式、不同字體與語系(如繁體中文、簡體中文、英文、阿拉伯數字及含表格的文件)混合編排的識別成功率,亦很重要。

 

 

 5、OCR辨識系統分析一覽表

 

丹青中英日文文件 辨識系統4.5

蒙恬認識王     專業版V3.1

清華TH-OCR

2003錄入工廠

操作介面

較簡單

較簡單

較繁複

辨識種類

繁體中文

可,辨識率97%

可,辨識率91.5%

可,辨識率97%

簡體中文

較佳

英文

較差

較佳

中英混合

較差

較差

較佳

日文

可,辨識率<50%

不支援

較佳,辨識率90%

表格

較差

較差

較佳

辨識速度

稍快

輸入格式

*.pcx/*.tif/*.jpg/*.bmp

*.pcx/*.tif/*.jpg/*. bmp/*.eps/*.msp/*.

png/*.psd/*.tga/*.wmf

*.tif/*.bmp/*.pcx/*.fax/*.jpg

儲存格式

*.txt/*.rtf/*doc./*xls./

*slk./*csv./*html

*.txt/*.doc/*.xls/*.html

*.rtf/*.html/*.txt/ *.jda/*.wps/*.pdf

 

伍、後設資料與資料庫建置

 

[24] 一、後設資料與XML

[25] 二、資料庫建置

 



一、後設資料與XML


(一)
Metadata釋義與目的
     所謂Metadata,在資訊界最普遍的解釋是「資料中的資料」(data about data),意指與資料相關的描述性資訊,國內翻譯為「元資料」、「詮釋資料」或「後設資料」等不同辭彙。國際圖書館聯盟協會(The International Federation of Library Associations and Institutions,簡稱IFLA)對Metadata之定義為可用來協助對網路電子資源的辨識、描述、與定位其位置的資料。另外,較重視Metadata結構性概念者,則解釋作「結構性資料」(Structure Data About Data),其以「結構」二字區隔Metadata資訊組織方式與全文索引(full-text indexing),目的在於以結構化項目,經由人工或自動的方式來描述另一物件,而Metadata系統則會包含相關語法,並與所描繪的物件有密切相關之功能性,針對實體或數位化資料做描述,以方便資料的查詢、管理與再利用。
      
     後設資料主要用途在於對無文字敘述的物件,例如實體的書畫、雕塑品或者數位影像、聲音、視訊資料以及平面書籍等提供檢索功能,其真實涵義在於針對資訊的內容與外觀等特性作適當性的描述,就它的意義和功能來說,其實就是一種電子目錄(electronic catalogue),而編制目的即為描述資料的內容和特色,進而達成資料的檢索。在兼顧後設資料標準、實際著錄需求與資訊系統投資的情況下,後設資料標準並不適合當作各單位共通的著錄規範或資料庫規格,而比較適合做為某特定領域典藏資料交換與查詢介面的標準。因此各單位可保留各自所需的著錄項目,再透過對應關係轉為領域內共通的後設資料標準交換格式來交換典藏資料,才可達到後設資料標準國際化的目標。

     後設資料約可分為兩類,一種類型為描述資源或知識的資料,此類後設資料並無明顯的標誌或符號,而是一種組織或表達知識的架構方式,例如日常生活中文書編撰所使用的文章組織架構與編排格式皆屬之。另一種類型為結構化與半結構化的描述資料,意指資料是以電腦能了解的結構方式所表達,例如資料庫內所定義的欄位資料就屬於結構化描述資料,而可擴展標記語言(Extensible Markup Language,簡稱XML)與超文字標記語言(Hypertext Markup Language,簡稱HTML)等則為半結構化描述資料,可提供使用者有彈性的資料表達結構。

     就後設資料分析的模式而言,中央研究院後設資料分析小組建議從人、事、時、地、物五個角度來思考後設資料應包含哪些著錄項目,因此應結合與典藏物品本質相關的資料及外在資料兩者間的資訊關係,以分析後設資料應包含哪些著錄項目。同時透過管理(administration)、取用(access)、保存(preservation)、應用(use of collections)等四個層面去思考建立後設資料的用途與後設資料使用者之需求,以使後設資料的分析盡可能包含各層面的需要。後設資料應滿足以下需求:

1. 
促使系統互通,而不僅僅是提供摘要性資訊。
2. 當越來越多的資訊被電子化時,後設資料模組應能讓電腦連接資訊源並自動擷取詮釋資料。
3. 後設資料管理系統應能定期核對原始資訊源,以確保後設資料資訊的正確性。

 

    後設資料可根據其在使用時功能性(Functionality)的不同,分為管理(Administrative)、描述性的(Descriptive)、保存(Preservation)、用途(Use)和技術性的(Technical)等五大類Metadata(表5)[26] [5]

 

6、Metadata功能類型定義及功能

 
類型
定義
例子
管理的
(Administrative)
資源的管理(Metadata used in managing and administering information resources)
物件權限、位置資訊、版本控制
描述性的
Descriptive)
資源的描述及識別(Metadata used to describe or identify information resources)
編目資料、超連結、使用者註解
保存(Preservation)
資源的保存管理(Metadata related to the preservation management of information resources)
資源的實際狀態文件、原件、數位物件的保存文件
用途(Use)
資源的使用層次及類型(Metadata related to the level and type of use of information resources)
展示紀錄、使用紀錄、內容重複使用及多版本資訊
技術性的(Technical)
描述系統及Metadata如何運作(Metadata related to how a system function or Metadata behave)
軟硬體文件、數位化資訊

      
     
就新聞主題各計畫進行不同數位化物件而言,後設資料可能包含文字、畫面、聲音以及影像等多媒體資訊,而本文以針對期刊報紙文字型後設資料作說明。物件本身內容的文字後設資料包含文字訊息,而非內容本身的文字後設資料則有文字的種類、頁數、文字的形成,以及其他有關章節數目與段落數目等資訊。文字也可以被加以注釋,雖然注釋大多用於聲音和影片資料,然而大量文字資料也需要包含重要資訊的注釋,尤其是以網頁為基礎的系統,可以利用連結來取得特定被檢視的文字資料注釋。注釋也可以被視為補充的資料,並且可被視為一種後設資料。文字資料的重大發展為國際標準組織(International Organization for Standardization,簡稱ISO)於1986年制訂了標準通用標記語言(Standard Generalized Markup Language,簡稱 SGML)。因為SGML,文字資料可以輕易地被標示並且截取出後設資料,可標示出文字資料中所包含的人與發生地點,因此可以用關鍵字來擷取後設資料,SGML後來即演變為XML。

(二)
XML的應用
1. 何謂XML
     網路上的新聞資料庫若要建立更有效的檢索、或進行跨平台使用,必須讓電腦辨識若干訊息內容的意義。第一個以結構和新興標準來支配後設資料的,就是所謂的可擴展標記語言(Extensible Markup Language, 簡稱XML)。標記(markup)是指在稿件或文章上添加一些特殊記號,以記錄各種不同的資訊,就像在中國古代書籍中打圈批改的眉批,或是平常我們閱讀文章時,會把重點特別註記起來,目的是用來突顯或是註解這些地方,這就是標記的原始概念。
     日常生活中,我們在書寫時所用的語言,可以稱為書面語言,如果在書面語言中為了突顯某些訊息,而加入一些標記,那麼這種加了標記的書面語言就可以被稱做為「標記語言」(markup language)。在這裡所說的標記語言,是一種為了讓電腦能夠處理而設計的標記語言,而所使用的標記,通常選擇具有一定涵義的文字或數字來標記,一般的做法是依據需求,先定義一套助憶的標記,然後將這套標記添加到書面語言中,使書面語言變成標記語言。
     全球資訊網協會(World Wide Web Consortium,簡稱W3C)於1998年2月正式公佈了XML的Recommendation 1.0版語法標準。XML掌握了SGML其延展性、文件自我描述特性、以及其強大的文件結構化功能,但XML卻摒除了SGML過於龐大複雜以及不易普及化的缺點。雖然字面上看來XML是一種標示語言,但嚴格來說它是一種「元語言」(meta-language)。換句話說,XML是一種用來定義其它語言的語法系統,這正是XML功能強大的主因。
XML主要有以下優點:
(1)延伸性:可自訂標籤以滿足不同應用的需求,它沒有固定的一組標記,允許使用者自行定義適用。
(2)跨平台、跨程式語言。
(3)利於網路環境下的傳送與使用。
(4)具有提供有意義的標記的能力。
(5)具有共通性與國際化的特性。
(6)結構化:用XML可以定義出文件的結構,複雜度不設限。
(7)具有自我描述資訊的能力:XML除了可使用標記與屬性來描述資料的意思外,也用來確認XML文件結構的正確性。

XML同時也具有以下缺點:

(1)標準尚未成熟。
(2)複雜度較高。
(3)工具軟體的支援度不高。
(4)可定義結構但無法限制語義(semantics),亦即XML可用來描述文件的結構,但卻無法完整表達這些結構的語義。

2.
用於新聞領域的XML[27] [6]
     科技與網路的蓬勃發展,使得越來越多新聞媒體利用電腦及網路來相互傳播新聞,數位化新聞遠比傳統新聞需要更強而有力的資訊組識方法,以便能更迅速有效的進行交換、傳遞與分享,因此對於新聞資料的保存及利用也就產生了新的技術與規格,以求能將新聞資源做最佳化的管理典藏,並且透過系統平台讓使用者快速且簡捷的獲得新聞資料,加速資料的散播。為解決數位化新聞資訊組織的問題,許多專用於新聞事件的後設資料格式也就隨之產生,且各有不同用途。而利用後設資料格式描述新聞事件,可加強新聞的結構性且增加自我描述性,有利於更迅速的交換、傳遞與分享數位化新聞。用於新聞領域的XML簡述如下:
(1)NITF(News Industry Text Format)
由國際新聞通訊協會(International Press Telecommunication Council,簡稱IPTC)所制訂,著重在新聞內文的描述。
(2)NewsML(News Markup Language)
著重封裝多種不同的媒體,用於描述電子出版、傳送、典藏的新聞檔。
(3) SportsML(Sports Markup Language)
用於運動項目紀錄。
(4) ProgramGuideML(Program Guide Markup Language)
專用於廣播與電視新聞節目。
(5)PRISM (Publishing Requirements for Industry Standard Metadata)
IDEAlliance(International Digital Enterprise Alliance)所發佈,主要是為滿足雜誌、新聞、目錄、書籍和期刊等平面媒體出版者的商業需求而設計。
(6)XMLNews
XMLNews.Org 所研擬,主要在描述新聞報導之實質內容,是借用NITF而來的。
(7)RSS( Really Simple Syndication)
RSS衍生自Netscape 推播技術(Push),是一種用於互通新聞和其他Web 內容的資料交換規格,目前已普遍應用於入口引擎、新聞網站、Blog 和WiKi 等系統中。
(8)NRMF(News Records Metadata Format)
行政院文化建設委員所制訂的新聞紀錄Metadata 格式。
(9)UdnML(UDN Markup Language)
台灣新聞業界聯合報系所訂定的「聯合新聞標示語言」。
(10)XinhuaML(Xinhua Markup Language)
大陸新華社所發展的「新華標示語言」。
(11)CNTF(Chinese News Text Format)
由中國報業協會制訂的「中國報業電子新聞文稿格式」。


二、資料庫建置

     資料庫的建置,初期在處理Metadata的統合工作、建置具有學科原理的分類架構等基礎建設,必定會耗費較大的心力,需要結合涉及內容領域之知識專家與資訊科技人才。

 

(一)數位化資料儲存與管理

      由於數位化的格式種類多,且早期資訊儲存技術不發達時,報紙儲存方式除了原件之外,大多製作成為微縮膠卷,但卻也因使用頻繁而受磨損。而目前在儲存技術的進步與發達之下,則可依據不同的目的,儲存與備份設備如DVD、CD-R、磁碟陣列及光碟櫃等多種形式;而數位化的品質需有專業人員定期檢驗,確認無誤後再轉入資料庫中,以提供使用者利用。惟在將網站資料庫開放之前,需先將版權問題妥善處理,以免觸法。

(二)
撰寫規格需求書
      在設計資料庫前,一般也會先撰寫需求規格書,尤其是當資料庫外包給廠商做時,需求規格書是取得共識的好方法,能讓資訊技術人員能正確的分析、規劃、設計出內容知識專家所需的典藏系統,從事Metadata分析與資料庫管理之人員需要有良好之溝通,方可避免Metadata分析的結果與資訊系統分析產生矛盾的現象。

(三)
資料庫設計
     由於多媒體資料庫未來收錄內容繁多,一般的檢索條件有時仍會導致搜尋結果資料量過於龐大,對於進階搜尋的部分,可設計「搜尋結果範圍內查詢」的功能,以節省搜尋時間,提高精確度,也就是讓使用者下好關鍵字,並得到第一次檢索資料條列後,讓系統使用適當的程式來進一步發問,使用者再經由系統提供的答案,繼續搜尋自己想要的資料;分類架構的管理系統本身,不管是在分類的哪一個層次上,都要預留「修改」、「增加」、「刪除」等功能,使得編輯人員可以依照資料所呈現出的樣貌,隨時修改分類架構,甚至可發展為離散式資料庫:每一筆資料的分類作業與管理系統是連動的,可讓編輯人員藉由開啟另一個視窗,直接在「分類管理」系統中,修改類目名稱,因此只要分類架構改變了,那麼資料庫中所有資料與欄位都會即刻改變分類位置,可能會有新增類目或者類目合併的狀況。

(四)
資料庫維護

     若是定期持續更新典藏品的資料庫,其資料庫維護必須由專人隨時待命,讓資訊內容持續更新與即時回訊,使系統安全維持穩定運作,以利資料庫的維護工作。這方面必須特別注意資料庫管理人員的工作交接。

[28] 目錄



2.洪淑芬,《文獻典藏數位化的實務與技術》,頁96。「棉質手套」:如果所處理之事項多為搬移作業,接觸部分多為資料之外包裝,或是翻動之資料狀況良好,極易翻掀,則棉質手套可防汗垢沾上資料,但是,棉質手套必須隨時清洗乾淨,避
免使用已髒污之手套。「膠質手套」:最好是手套內無粉者。膠質手套不透氣,穿戴時間稍長會感到不舒服,但對於有蟲蛀之資料,必須使用表面光滑之膠質手套,以防止資料上的蟲損之處,黏附於手套上,反而對資料造成傷害。
3.曾逸鴻,《光學文字辨識(OCR)技術整理報告》,頁2。
4.曾逸鴻,《光學文字辨識(OCR)技術整理報告》,頁3。區塊切割有兩種方法:「遞迴投影法」(Recursive projection analysis)或「相連元件偵測法」(Connected component detection)。若文件屬於版面較傾斜者,則前者「遞迴投影法」較無法獲得準確的切割位置。
5.曾欣怡、潘育潔,〈新聞傳播多媒體資料庫Metadata分析研究〉,頁B3-4。
6.林信成、康珮熏,〈報紙新聞數位典藏Metadata 轉換系統之設計與應用〉,頁B2-1。

 

 

 
陸、設備與成本分析


[29] 一、數位化設備分析

[30] 二、數位化成本分析

 

 


一、數位化設備分析

(一)期刊報紙適用之數位化設備
1. 直接掃描期刊報紙原件
(1)桌上型平台式掃描器
(2)桌上型自動進紙式掃描器
(3)桌上型無邊縫書籍掃描器
(4)滾筒掃描器
(5)仰面式書籍掃描器
(6)專業多用途掃描器

2.
原件製作成微縮膠卷
1)微縮膠卷掃描器(單頁式/捲片式)

3.
原件製作成單張黑白底片
1)翻拍類
A.數位相機
B.數位機背
2)掃描器類
A.具備光罩之桌上型掃描器
B.專業多用途掃描器
 
7、數位化物件與設備對照表
數位化物件
可使用設備
期刊報紙原件
1.桌上型平台式掃描器              4.滾筒掃描器
2.桌上型自動進紙式掃描器       5.仰面式書籍掃描器
3.桌上型無邊縫書籍掃描器       6.專業多用途掃描器
微縮膠卷
微縮膠卷掃描器(單頁式/捲片式)
單張黑白底片
《翻拍類》
1.數位相機                                     2.數位機背
《掃描器類》
1.具備光罩之桌上型掃描器         2.專業多用途掃描器
 
(二)各數位化設備功能簡介

1. 
掃描器類
1)桌上型平台式掃描器
此種掃描器為目前市面上最為普遍且單價較低之機型,主要用於一般文件及印刷品等影像掃描,少數含光罩之桌上型平台式掃描器則用來掃描照片或正片,其尺寸最大範圍至A3,若掃描物件大於A3尺寸,則必須進行圖檔影像銜接之後製工作,且書背較厚之物件經掃描後,影像圖檔中書縫間的陰影也必須花更多的時間與技術去克服。且每掃一頁均須重複掀開遮光蓋板,將整本書反轉後依序翻頁以進行掃描動作,而此步驟則需注意掃描物件是否裝訂堅固、紙質狀況良好等。
2)桌上型自動進紙式掃描器
此種掃描器是將掃描資料放置於自動機械裝置,並由機器依序逐張進行掃描,速度較快,其適宜掃描資料類型包括紙張狀況良好、格式尺寸一致之資料,若為較破舊之古書,則不建議重新拆卸裝訂,以避免花費太多人力、經費及時間,且無法保證書刊是否能恢復原貌。
3)桌上型無邊縫書籍掃描器
此機型為改良式桌上型掃描器,有一斜邊裝置助於書籍期刊之掃描,可掃描尺寸為A4,但為確保書縫間的影像更為清晰,在掃描過程中難免施予重力以壓平物件,此動作對裝訂老舊之書籍而言,則容易造成書頁脫落的情形。
4)滾筒掃描器
滾筒掃描器為專業印刷用之掃描器,只針對單頁或單張物件進行掃描,解析度可達4800dpi,但掃描速度較慢,且滾筒捲軸的離心力易對原件造成傷害,因此,目前市面上生產率已不高。
5)微縮膠卷掃描器
此型掃描器有單頁式或捲片式之機款,是專門為數位化物件為微縮膠卷者所設計,其掃描速度快。
6)仰面式書籍掃描器
此種掃描器以翻拍的理論設計,將掃描資料面朝上放置,並自機器上方投射光源以攝取掃描物件之影像,掃描尺寸可到A2或A1,進行書籍掃描時,可翻動書頁即可,不至於對原件造成太大傷害,機器並隨附玻璃蓋板,以便將書籍壓平,使書縫間的文字影像更為清晰,掃描速度快。
7)專業多用途掃描器
此型機器體積較大,兼具翻拍以及傳統掃描之特色,將掃描資料面朝上,並以移動式光源對物件進行掃描,掃描尺寸可到A1,可掃描物件範圍較廣,包含期刊、報紙、書籍、地圖、書畫、紡織品、植物標本、玻璃畫、皮影戲偶、立體物件等,當掃描書籍時,可不需玻璃蓋板而將書縫間的文字影像顯現至清楚可閱讀,掃描速度快。

2. 
翻拍類
1)數位相機
數位相機較適合用來翻拍少量的圖像原件,若物件數量過於龐大時,則並不適宜以此方式進行數位化,因其原始設計並非以大量使用而取勝,若使用頻率過於頻繁,則容易造成相機快門的故障率高。當翻拍較大尺寸之物件時,因焦點聚焦於物件正中心,而四周影像則略為模糊化,此部分的光線處理也較需要專業技術與經驗來控制。
2)數位機背
數位機背是在傳統的專業單眼相機後方再加掛一個CCD或CMOS感應器,較高階之數位機背可翻拍的尺寸達A1以上,而此款機器也適用於少量翻拍,使用頻率不建議過於頻繁,在光線控制方面也需專業人員操作才能達到較佳數位化品質。

8、數位化硬體設備樣式

 

 

 

 

 

桌上型平台式掃描器

 

 

具備光罩之桌上型掃描器

 

 

桌上型自動進紙式掃描器

 

 

桌上型無邊縫書籍掃描器

 

 

 

滾筒掃描器

 

 

微縮膠卷掃描器

 

 

 

 

 

仰面式書籍掃描器

 

 

專業多用途掃描器

 

 

數位相機

 

 

數位機背


9、硬體設備比較表
     適用性
 
機型
掃描尺寸
掃描
速度(A2以上)
最高
解析度
垂直線是否
變形
適合物件
大量生產
傷害
情形
機器
單價
桌上型平台式掃描器
A3
 
600
不會
單張
須拆書
、接圖
10萬~
20萬
桌上型平台式掃描器
A4
 
600
不會
單張
須拆書
、接圖
3,000~6,000
具備光罩之
桌上掃描器
A3
 
600
不會
單張
須拆書
、接圖
15萬
桌上型自動
進紙式掃描器
A3
 
600
不會
單張
須拆書
、接圖
20萬
桌上型無邊縫書籍掃描器
A3
 
600
不會
單張
、書籍
書頁容易脫落
8~10萬
滾筒掃描器
A1
4800
不一定
單張
離心力
100萬
微縮膠卷
掃描器
 
 
 
不會
微縮
膠卷
 
300~
350萬
仰面式書籍
掃描器
A1
一分鐘以內
300
不會
單張
、書籍
光線過熱、紅/紫外線傷書、玻璃壓力
450~
600萬
專業多用途
掃描器
A1
一分鐘以內
1600
不會
平面物件、可平放立之體物件
傷害程度較低
160~
350萬
數位相機
視原件大小
 
邊角可能變形
不限
不可
光線過熱、紅/紫外線傷書
20~
40萬
數位機背
視原件大小
 
邊角可能變形
不限
不可
光線過熱、紅/紫外線傷書
100~
150萬
本文針對全文輸入OCR之需求,特地於數位化設備中加註說明使用OCR軟體等成本考量,下表即為此次研究OCR主要軟體之比較。
 
10、軟體系統一覽表
軟體型號
公司廠牌
產出地點
軟體價位
丹青中英日文文件辨識系統4.5
力新國際
台灣
$6,600
蒙恬認識王專業版V3.1
蒙恬科技
台灣
$3,990
無發行商業版
全景軟體
台灣
無發行商業版
清華TH-OCR2003錄入工廠
清華文通
大陸
$120,000
無發行台灣版
北京漢王
大陸
無發行台灣版
 
二、數位化成本分析

 

     數位化成本包含設備、人工、維修等,也依照方案不同而有所變動。數位化方案有計畫單位自行數位化及委外廠商進行數位化。本文先以單位自行數位化方案為例說明,因委外方案必須考慮公開招標金額,較前者複雜,故暫不列於此詳述。

(一)數位化成本項目估計
1. 掃描設備成本(租用或採購)
2. 設備操作所需空間及水電:依照租金乘以使用比例
3. 掃描所需人力:所使用人次
       =預計掃描總數量/所使用的掃描器每小時可掃描數量/預計完成天數
4. 掃描所需人力時間: 薪資*時間
5. 檢查與重新掃描所需人力:所使用人次
       =預計檢查總數量/每小時可檢查數量/預計完成天數
6. 檢查與重新掃描所需時間:薪資*時間
7. 影像相關資訊輸入建檔所需人力:所使用人次
       =預計輸入總數量/每小時可輸入數量/預計完成天數
8. 影像相關資訊輸入建檔所需時間:薪資*時間
9.  儲存設備成本估計:總DVD張數或硬碟空間之金額
 
(一)舉例說明
下列以期刊與報紙為物件進行數位化以計算成本,本文稍略以設備及人工掃描成本為基礎僅供參考,而人員教育訓練時間、評估試掃品質、後製修圖人力及時間、機器故障維修費用等因素,則暫不列入考量。

1.  
掃描物件為裝訂式期刊(A4尺寸)
1)設備成本:桌上型平台式掃描器(A3尺寸)估計為15萬元、電腦設備兩台各3萬元,丹青辨識軟體6,600元,預計攤提時間為三年
2)人工成本:正職掃描及辨識人員各一人
(一天實際工作六小時,月薪3萬元)
3)掃描速度:規格為全彩、300dpi;A4尺寸一頁掃描速度為2分鐘(含人工翻頁之時間),則一人一小時可掃描30頁,每月(20個工作天)產出量約為30*6*20=3,600(頁)
4)平均成本:
設備攤提(150,000+30,000*2+6,600)/3年/12月=6,016元/月
每張成本=(6,016+30,000*2)/3,600=18元/頁

2. 
掃描物件為現今發行之報紙(A1尺寸)
1)設備成本:專業多用途掃描器(A1尺寸)估計為350萬元、電腦設備兩台各3萬元,清華辨識軟體12萬元,預計攤提時間為三年
2)人工成本:正職掃描及辨識人員各一人
(一天實際工作六小時,月薪3萬元)
3)掃描速度:規格為全彩、300dpi;報紙A1尺寸(一張2頁)掃描速度為40秒,則一人一小時可掃描3600/40=90張,每月(20個工作天)產出量約為90*6*20=10,800(張)
4)平均成本:
設備攤提(3500,000+30,000*2+120,000)/3年/12月=102,222
每張成本=(102,222+30,000*2)/10,800=15元/張


[31] 目錄 
  
柒、效益與展望

 

   「期刊報紙全文輸入工作流程參考標準」希望能對欲進行數位化之機構單位或個人蒐藏者提供明確而清楚的數位化流程與整體概念,期待藉由淺顯易懂的標準作業程序來提升數位化工作效率,並降低初步摸索數位化工作流程的時間,使各機構單位在教育訓練上面花費較短時間與人力且有效率地進行數位化工作。由此工作流程參考標準與實際進行工作流程作評估與比較,並從中截長補短,以加速並確實掌握數位化之工作進度。對於以期刊、報紙或平面書籍等作為數位化物件的計畫單位,希冀本文中的光學辨識系統OCR研究與分析能提供執行全文輸入時作參考,以避免浪費過多的人力與時間。因此本文「期刊報紙全文輸入工作流程參考標準」盼望能有以下效益:

 
1. 提升數位化進行過程之工作效率。
2. 可作為教育訓練工作流程手冊之用。
3. 降低數位化進入門檻。
4. 提供數位化硬體設備及OCR軟體系統比較分析,以節省人力與時間成本。

 

     「期刊報紙全文輸入工作流程參考標準」因研究範圍有限,故無法針對缺字技術與委外情形做進一步的分析,且礙於OCR辨識軟體發行版本的限制,如全景軟體無發行商業版、北京漢王則無發行台灣版,以致無法使台灣、大陸的光學文字辨識系統作更深入的研究與全面性的評估,此點深感遺憾,然而,本文也希望在現有的設備及軟體技術之下,提供一份適當的數位化工作流程參考標準以供各界參考。展望未來,因為OCR軟體的應用仍然持續在進步中,印刷體辨識系統已逐漸成熟且應用廣泛,因此,我們仍可樂觀預見多種全文輸入數位化的方式,甚至是手寫體辨識或同步語音辨識的發展,在不久的將來,其軟體及技術皆能趨於穩定且具普及性,以期高效率地輸入大量文字資料,並提供全文檢索及查詢等便利性。

〈[32] 目錄

 

捌、結語

 

 

      數位化工作流程在整體規劃上必須是嚴謹而縝密的,在執行過程中也盡可能使每一個環節具有連貫性且可調整,並能充分掌握數位化的進度。在科技日新月異的今天,機器硬體設備不斷地升級更新,或許每一份參考作業流程只能配合當時的設備與技術,但我們仍然寄予無限的希望,對於數位典藏的未來需要更多的努力與試驗,進而不斷修正而找出最適合物件本身進行的數位化方案。

  〈[33] 目錄 

 

 

玖、參考文獻

 


1.林淑芬,〈期刊文獻資訊網新服務-「全國報紙資訊網」及「國家圖書館期刊影像資料庫」上線服務〉,民國92年2月。http://www.ncl.edu.tw/pub/c_news/92/05.html
2.林信成、康珮熏,〈報紙新聞數位典藏Metadata 轉換系統之設計與應用〉,《中文媒體數位典藏與新聞標示語言研討會論文集》,台北:數位典藏國家型科技計畫,2005年5月,初版,頁B2-1~B2-23。
3.范紀文、何建明,《數位典藏系統與工具–輕鬆建立屬於您的典藏管理系統》,2000年。
4.洪淑芬著,《文獻典藏數位化的實務與技術》,台北:數位典藏國家型科技計畫 訓練推廣分項計畫,2004年2月,初版。
5.吳政叡,〈Dublin Core繁體中文譯介〉,http://dimes.lins.fju.edu.tw/dublin/
6.孫正宜、林信成,〈中文報業數位化技術與現況探討-聯合知識庫數位化經驗〉,收錄於《2003年資訊科技與圖書館學術研討會論文集》,民國92年5月,頁73~93。
7.莊樹華、張凱達,〈檔案數位影像製作之流程與管理〉,收錄於《檔案季刊》,Vol 2:1,民國92年3月,頁57-67。
8.陳同孝、張真誠,〈淺談影像壓縮〉,收錄於《資訊與教育》,Vol 63,民國86年,頁20-27。
9.陳心渝,〈JPEG 2000及浮水印批次套印技術〉,數位典藏國家型科技計劃技術發展組,2005年。
10.黃國倫、蕭人豪、李家豪、陳心渝,〈數位典藏系統缺字處理及應用〉,收錄於《第三屆數位典藏技術研討會論文集》,民國93年8月,頁79-85。
11.黃耀輝,〈淺談中文字及其輸入、辨識之比較〉,收錄於《中研院計算中心通訊》,Vol 14:25,民國87年7月,頁233-234。
12.曾士熊,〈中文輸入法概述〉,收錄於《中文輸入法專題》,Vol 13:8,民國86年4月。
13.曾逸鴻,《光學文字辨識(OCR)技術整理報告》,台北:國防部電訊發展室,民90 年1 月
14.曾欣怡、潘育潔,〈新聞傳播多媒體資料庫Metadata分析研究〉,《中文媒體數位典藏與新聞標示語言研討會論文集》,台北:數位典藏國家型科技計畫,2005年5月,初版,頁B3-1~B3-43。
15.廖運尚,〈國史館採用無失真壓縮實作經驗談〉,收錄於《國史館館刊》,Vol 35  2003年12月,頁184-200。
16.謝育平、吳政泓、項潔,〈可攜式字集資源架構─用以解決缺字問題〉,收錄於《第三屆數位典藏技術研討會論文集》,民國93年8月,頁71-78。
17.Konstanze Bachmann,《藏品維護手冊》,劉藍玉譯,台北:五觀藝術管理,2001
18.《新聞主題小組數位化工作流程》,台北:數位典藏國家型科技計畫 內容發展分項計畫,2005年1月,初版。
19.CBETA中華電子佛典協會,《CBETA電子佛典集成》,2005年2月,[34] http://w3.cbeta.org/index.htm
20.Iannella, R., Mostly Metadata, A Bit Smarter Technology,

[35] http://www.dstc.edu.au/RDU/reports/VALA1998/
21.Baca, M. Ed., Introduction to Metadata: Pathway to digital information. J. Paul Getty Trust.
22.W3C,Extensible Markup Language (XML),[36] http://www.w3.org/XML/

〈[37] 目錄

拾、附錄

 

[38] 附錄一、期刊影像掃描檔案編碼原則
[39] 附錄二、報紙影像編碼原則
[40] 附錄三、國家圖書館數位化檔案建議格式
[41] 附錄四、色彩校正流程
[42] 附錄五、辨識技術

 


致謝

     本文「期刊報紙全文輸入工作流程參考標準」是作者任職於數位典藏國家型科技計畫─內容發展分項計畫,擔任新聞主題小組負責助理期間所進行研究完成。在研究過程中,特別感謝磁軒資訊媒體行銷有限公司李夙總經理及連憶親小姐接受作者採訪,協助OCR辨識軟體的操作過程與結果分析;同時亦感謝國家圖書館林淑芬編輯、聯合報知識庫孫正怡組長、大葉大學曾逸鴻助理教授分享寶貴的實務經驗或技術手冊等。
     最後,感謝本計畫主持人林富士先生及共同主持人邱澎生先生對於撰寫SOP期間的叮嚀與指導,以及計畫內工作同仁─曾欣怡對於本文第伍章「後設資料與資料庫建置」之資料提供與潤稿,另外,包括林彥宏、林慧菁、陳美智、林淑惠、蔡欣芸、呂俊毅等人的協助與校稿,在此一併致上謝意。

 


《附錄一》期刊影像掃描檔案編碼原則


參與研發單位:國家圖書館
提供單位:國家圖書館
使用單位:國家圖書館


國家圖書館閱覽組(期刊)93 年4 月第13 次修訂
1. 期刊批次掃描以掃描全本期刊為原則。即時期刊影像掃描則以單篇為掃描單位,但皆適用本編碼原則。本掃描之期刊影像需與本館相關資料庫系統自動產生關連,以利影像調閱及文獻傳遞,故編碼過程需配合本館「中華民國出版期刊指南系統」、「中華民國期刊論文索引影像系統」、及「國家圖書館新到期刊目次服務系統」等書目資料的著錄原則。資料庫網址:http://readopac.ncl.edu.tw/
2. 每本期刊其檔案目錄分為三層:期刊識別號、卷期總號、出版年月。再以頁碼區分檔名,檔名中英文字母皆為小寫。
例: 研考月刊第1 卷1 期民國85 年1 月第1 頁→00000001/1n1/8501/00000001.tif
說明:
2.1 第一層:期刊識別號
共 8 bytes,由中華民國期刊指南系統查出期刊識別號。
例: 研考雙月刊 → 00000001
2.2 第二層:卷期總號
由期刊之封面與書名頁查出該期之卷期總號時參考本館「中華民國期刊論文索引影像系統」及「國家圖書館期刊目次系統」之卷期著錄方式。
卷期總號長度不受限於8bytes,應完整編碼。
2.2.1 凡卷期總號中含有特殊符號或文字者,請以下列英文字母代替之。
卷 : → n 例: 3 卷1 期 3:1 →3n1
合刊 / → x 例: 4、5 期合刊 4/5 →4×5
合刊 - → - 例: 62 卷1-2 期 62:1-2 →62n1-2
總號 = → e 例: 3 卷1 期總號495
3:1=495 →3n1e495
試刊號, 試刊 →t
創刊號 → f
第十章 典藏品識別碼暨數位檔案命名規範
1.10.2.2
特刊 → s 例: 特刊16 → s16 5(特刊) → 5s
復刊 → r 《 r 之後請勿加_ 》 例: 復刊16 →r16
增刊 → a
專刊 → b
革新 → j
索引 → i 例: 1-12 期索引 → i1-12
上 → u 例: 70 期上 70(上) → 70u 去除括號()
中 → m 例: 70 期中 70(中) → 70m 去除括號()
下 → d 例: 70 期下 70(下) → 70d 去除括號()
外編、別冊 → c 例: 別冊1 →c1
外編第四種上冊 →c4u
副刊、附冊、附輯 → g
補編 → h
總目錄 → o(英文)
新,新刊 →y 例: 新3:2 →y3n2
凡無卷期者,請輸入0(數字)
春 → sp 例: 1994 春季號 1994:春 → 1994nsp
夏 → su 例: 87 夏季號 87:夏 → 87nsu
秋 → au 例: 84 秋季號 84:夏 → 84nau
冬 → wi 例: 84 冬季號 84:冬 → 87nwi
2.2.2 凡卷期外有標示學科分冊者代碼如下:
特 刊 → s
例 第5 期特刊 5(特刊) → 5s
人文分冊 →hu
例: 1 卷1 期人文分冊 1:1(人文分冊) →1n1hu
人文社會篇 →hs
科技人文篇 →sh
社會科學分冊 →so
例: 1 卷1 期社會科學分冊
1:1(社會科學分冊) →1n1so
管理科學分冊 → ma
例: 1 卷1 期管理科學分冊
10-2 期刊影像掃描檔案編碼原則(原10-2 更新)
1.10.2.3
1:1(管理科學分冊) →1n1ma
文學院 →li
例: 35 期文學院 35(文學院) →35li
理學院 →sc
例: 35 期理學院 35(理學院) →35sc
工學院 →te
例: 35 期工學院 35(工學院) →35te
管理學院 →ma
例: 35 期管理學院 35(管理學院) →35ma
社會科學學院 →so
例: 35 期社會科學學院 35(社會科學學院) →35so
農學院 →ag
例: 35 期農學院 35(農學院) →35ag
文學部門 →li
例: 14 期文學部門 14(文學部門) →14li
商學部門、商學‧管理部門 →bi
例: 14 期商學部門 14(商學部門) →14bi
理工部門 →sc
例: 14 期理工部門 14(理工部門) →14sc
區域研究部門 →ar
例: 13 期區域研究部門 13(區域研究部門) →13ar
文商理工部門→lb
例: 16 期文商理工部門 18(文商理工部門) →16lb
文學與商學部門 →li
例: 12 期文學與商學部門
12(文學與商學部門) →12li
社會科學學院 →so
例: 35 期社會科學學院 35(社會科學學院) →35so
科技‧醫學篇 →st
例: 32 期科技‧醫學篇 32(科技‧醫學篇) →32st
文史‧社會篇→ lh
例: 32 期文史‧社會篇 32(文史‧社會篇) →32lh
第十章 典藏品識別碼暨數位檔案命名規範
1.10.2.4
軍事社會特刊→ mi
中國系列 → ch
行政革新專號→ ad
2.2.3 凡無卷期編號者, 掃描時編碼為0
2.3 第三層:出版日期
由期刊之封面與書名頁查出該期之出版日期,同時參考本館「中華民國期刊論文索引影像系統」、「國家圖書館期刊目次系統」之日期著錄方式,以求一致性。出版日期長度不限於8bytes,以詳盡著錄為原則,如年月日。但須配合以上系統之著錄方式。出版日期採民國紀元。
2.3.1 凡出版年月日中含有“民”字者,請省略不予註記。
例: 民87 年1 月 →8701
2.3.2 年月日間之“‧”號逕行省略,不輸入亦不空格
例: 87.01 →8701
2.3.3 下列文字請以英文字母代替之:
春 → sp 秋 → au
夏 → su 冬 → wi
例: 民87.春 →87sp
2.3.4 合刊的年月處理如下
23-24 民76.11-12 → 23-24 76.11-12
民75.12-76.01 → 7512-7601
3. 頁碼(檔名)編碼
頁碼檔名長度一般以8bytes 為原則,少數特例可長達9bytes。
例如:第100 頁 → 00000100.tif
第100 頁後之插頁→000100_1.tif
以內文頁碼加上“.tif”作為檔名。如內文第 1 頁,其檔名為
“00000001.tif”。
注意事項:
3.1 內文第 1 頁前面之各頁(即非正文部份),如封面、目次、封底等,請自封面起依序計數,頁碼第一位加“ a”以區別之,如: a0000001.tif ,a0000002.tif…
3.2 內文後面多出且原本未編頁碼之各頁,請依原文最後之頁碼繼續編號下去即可。
3.3 原文編有頁碼或實際有佔頁碼但未編頁碼之空白頁或廣告頁等請仍依原順序掃入。
3.4 原文未編頁碼且為多餘之空白頁請予跳過不掃。
3.5 內文中之插頁,如原文未編頁碼,則於接續之前頁後加“_”連續編碼。如:
在86 頁至87 頁間插頁 2 頁但未編碼,請以“000086_1.tif”、“000086_2.tif”編號。
3.6 期刊分左、右版次者,以右版為主為原則,但仍需先查核期刊索引及期刊目次系統之編碼,以配合之。左版頁碼需以L(小寫)區別,右版頁須以R(小寫)區別。
如:頁左33-左40“,檔名為“L0000033.tif”~L0000040.tif
如:頁右12-右20“,檔名為“R0000012.tif”~R0000020.tif
注意:一本期刊不須同時區分左、右版,應取其一為主,另一版加註區別即可,原則上以加註左版者居多。但須配合國圖期刊索引與目次系統之著錄方式。
3.7 凡標明“頁中”或“中”者請轉換為“m”。如“頁中13-14”,輸入檔名為“m0000013.tif”~“m0000014.tif”
3.8 凡正文中每篇文章皆以”1”起頁者,依篇序頁碼前分別以 ()冠各篇序號,頁碼轉換時規則如下:
□□ □□ □□□□. tif
附錄 篇 頁 碼
例: 第一篇1-17 頁
(1)1-(1)17 →00010001.tif-00010017.tif
第二篇1-18 頁
(2)1-(2)18 →00020001.tif-00020018.tif
第21 篇1-18 頁
(21)1-(21)18 →00210001.tif-00210018.tif
頁(A)27-(A)33 → 00010027.tif-00010033.tif
頁(y)1-(y)5 → 00250001.tif~00250005.tif
附錄(a)7~附錄(a)10
→ap010007.tif-ap010010.tif
*附錄 → ap
*a、b、c……依英文順序轉換例a=01 b=02 ……z=26
第十章 典藏品識別碼暨數位檔案命名規範
1.10.2.6
3.8.1 前述情形若又有左右起頁之橫直版之不同,則須多加一碼,冠以L 或R 分別區分左起頁版或右起頁版,此種編碼會有9 位。頁碼轉換時規則如下:
R□□□□□□□□. tif
L□□□□ □□□□. tif
例: 左起頁 第一篇1-17 頁
L (1)1-(1)17 →L00010001.tif-L00010017.tif
右起頁 第二篇1-18 頁
R(2)1-(2)18 →R00020001.tif-R00020018.tif
3.9 凡正文有兩組頁碼標示者,一組各篇從1 編頁,一組為總頁碼者,依總頁碼編。但若有兩組總頁碼,一組自1 編,一組是接前期續編者(頁數號碼較大),則依第一頁起始者編,但仍應先查核本館期刊索引及期刊目次系統之著錄方式,或請示館方負責人員。
3.10 凡頁碼編排有疑義應先參考期刊索引系統或期刊目次系統登錄方式,如仍有問題應先請示館方負責人員。

 


《附錄二》報紙影像編碼原則

 

參與研發單位:國家圖書館
提供單位:國家圖書館
使用單位:國家圖書館


國家圖書館閱覽組(期刊)民國90 年1 月第二次修訂
1. 本報紙編碼原則適用於紙本報紙掃描為影像檔,及微縮捲片(35mm)報紙轉製影像檔之檔案編碼處理。
2. 紙本報紙影像掃描以每日為單位。
3. 其影像檔案目錄分為二層:報紙識別號、出版日期。再以版次區分檔名,檔名中英文字母皆為小寫。
例:臺灣新生報 民國50 年1 月1 日 第1 版
→ /68600106/19610101/00000001.tif
3.1 報紙識別號
檔名長度為 8 bytes,由本館中華民國期刊指南系統查出報紙識別號。
例:臺灣新生報
識別號 → 68600106
3.2 出版日期
不限檔名長度,原則上以完整著錄為原則,並將出版日期轉換為西元紀元。
例:民國50 年1 月1 日 → 19610101
3.3 版次
檔名長度共8bytes,以一版面單位為一頁。
例:第一版 → 00000001.tif
非定期專刊、增刊、特刊 例: 專刊4 版 → s0000004.tif
單獨編頁碼之廣告 → ad 例:廣告第8 版→ ad000008.tif
3.4 編碼實例:
民生報
現代生活:a0000003.tif
體育戶外:b0000005.tif
影視娛樂:c0000006.tif
第十章 典藏品識別碼暨數位檔案命名規範
1.10.6.2
影視快訊:cs000007.tif
家庭消費:d0000008.tif
旅遊專刊:e0000009.tif
行程專輯:f0000010.tif
大成報
體育報:b0000002.tif
影劇報:c0000003.tif
經濟日報
金銀島:sb000003.tif
科技島:ss000005.tif
其他專刊:s0000003.tif
同一天第二種專刊 s1000004.tif
同一天第三種專刊 s2000003.tif
China Post
增刊:s0000004.tif

 


 

 

《附錄三》國家圖書館數位化檔案建議格式

檔案格式
建議規格
說明
文字檔
資料永久保存格式

檔案格式: TIFF
色調深度:黑白;灰階-每像素8-bits;彩色-每像素24-bits
壓縮:不壓縮
解析度:300~600(或更高)dpi(依原始資料品質及重要性選擇適當解析度,一般印刷品可採300dpi

將資料數位化典藏,保持原有風貌。提供使用者作重製、壓縮處理或其他圖像處理交換之用。
網路下載格式

檔案格式:JBIG or JBIG2
色調深度:黑白;灰階-每像素8-bits;彩色-每像素24-bits
壓縮:JPEG(灰階壓縮比約10:1,彩色壓縮比約10:1
解析度或影像大小:150dpi~300 dpi,或影像大小從500×4001000×700pixels

提供使用者網路上觀看及列印用。
預覽影像

檔案格式:GIF
色調深度:每像素8-bits
壓縮:原生影像至GIF
解析度或影像大小: 72dpi,或影像大小從150×100200×200 pixels

提供使用者預覽及選擇欄位用。
影像檔
資料永久保存格式

檔案格式:TIFF
色調深度:灰階-每像素8-bits;彩色-每像素32-bits
壓縮:不壓縮色彩濃度值4.0D以上(color),3.2DB&W
解析度: 300~600(或更高)dpi(依原始資料品質及重要性選擇適當解析度,一般印刷品可採300dpi,美術品供複製畫使用建議採600dpi,供印刷出版使用採350dpi

將資料數位化典藏,保持原有風貌。提供使用者作為重製、壓縮處理或其他圖像處理交換之用。
資料服務/參考格式

檔案格式: JFIFJPEG交換格式)
色調深度:灰階-每像素8-bits;彩色-每像素24-bits
壓縮:JPEG(灰階壓縮比約10:1,彩色壓縮比約20:1
解析度或影像大小:150~300 dpi,或影像大小從500×4001000×700 pixels

提供使用者網路上觀看及列印用。
縮圖影像

檔案格式:GIF
色調深度:每像素8-bits
壓縮:原生影像至GIF
解析度或影像大小:72dpi,或影像大小從150×100200×200 pixels

提供使用者預覽及選擇欄位用。

 

 


《附錄四》專業多用途掃描器色彩校正流程

 

資料來源:專業多用途掃描器代理商 ─ 磁軒資訊媒體行銷有限公司

 

 

 

 

 

 


《附錄五》辨識技術

 

 

資料來源:大葉大學資訊管理系 曾逸鴻助理教授

 

《光學文字辨識(OCR)技術整理報告》
     當字元切割完成,即可將每個字元影像丟入辨識引擎做辨認。最基本的辨認方式,即是將字元影像做大小的正規化(Normalization),然後與資料庫中每個中文字的影像(亦已經過正規化)做模版比對(Template matching),計算相對位置的顏色是否相同,找出差異最小者即為辨識結果。此種模版比對方式為確實掌握文字特性,且所需的記憶體空間較大,比對速度也慢,所以並不被大多數OCR系統所採用。在辨識引擎的內部技術,我們可分特徵抽取、特徵比對與加速技術三部分來描述。


1. 特徵抽取~
      特徵抽取是辨識引擎最重要的一節,要找到最少的特徵,來得到最佳的辨識效果,常採用的特徵可分為結構特徵與統計特徵,結構特徵包括文字影像內的線段(line segment)、筆畫(stroke)、曲線(curve)、環路(loop)等,通常文字影像需先經過細線化(thinning),將字元轉成只剩一個像素的寬度,再來抽取結構特徵。經過實驗,利用結構特徵所建構的OCR辨識引擎,較適合辨認印刷清楚且筆畫較少的字元,不太適合於建構商用OCR軟體。統計特徵則將文件影像的像素分佈作分析,利用大量的學習影像來計算特徵向量的平均值與變異度。只要學習影像收集的夠完整、數量夠多,利用統計方式建構出的OCR辨識引擎較能做較廣泛的應用。常採用的統計特徵如下:
(1). 筆畫數目(Stroke count)特徵:對於某個參考點(reference point),往上下左右延伸,計數可通過多少筆畫。此處筆畫的定義為,延伸線上的點「由白變黑」再「由黑變白」,算是一個筆畫。因此對於每個參考點,我們可得到四個特徵值。
(2). 邊緣像素數目(Contour pixel count)特徵:由於不同文件切出的字元影像擁有不同的筆畫寬度,此特徵乃計數字元的邊緣點數目。
(3). 邊緣方向數目(Contour directional count)特徵:考慮邊緣像素,計算四個方向(水平、垂直、左撇、右捺)的邊緣點數目,可得到四個特徵值。
(4). 網眼特徵(Cellular feature):對於某個參考點,往上下左右延伸,計算要延伸多長的距離始可碰到第一個黑點,可得到四個特徵值。
(5). 周圍背景面積 (Peripheral background area, PBA)特徵:由字元邊界往內走,走到第一個黑點便停止,記錄其距離,將所有距離累計,即為此特徵值。由於此種特徵不管字元中心部分,只描述其周圍的白色背景面積,適於辨認因墨水過多導致中心部分容易糊成一坨的字元。
(6). 周圍背景差異 (Peripheral background difference, PBD)特徵:與PBA類似的計算法,只是此特徵記錄的事兩距離的差異,而不是累計距離。因此,可分辨雖然累積距離相同,但距離先長後短與先短後長的不同。一樣適於辨認中心部分易模糊的字元。
(7). 橫越個數特徵 (Crossing counts feature):由字元左邊界往右邊界走,計算通過的筆畫數,加以累計,垂直方向亦同。
(8). 投影特徵 (Projection feature):將字元影像分別往四個方向(水平、垂直、左撇、右捺)投影,設適當的門檻值,分別在此四個投影圖中,計算投影量高於門檻值的筆畫的個數,當作特徵值。

     另外,由於要找到效果很好的特徵不易,一旦找到適當的特徵,為求更精準描述字元,通常會將字元做切塊,例如邊緣方向數目特徵雖然只有四個特徵值,若先將字元切成8×8塊,在每一塊抽出四個特徵值,則此字元總共可得到8×8x4=256個特徵值。字元的切塊方式有兩種:
(1). 等分(uniform)切割:直接以字元的寬或高等距切成數等分。
(2). 不等分(non-uniform)切割:先將所有黑點往X軸投影,將投影圖切成數份,使得每一份內的的黑點數目相同,在對Y軸投影,以同樣方式切成數份。此方式切出的區塊大小不同,但較可容許手寫字的變異度,及印刷字的雜訊。

2. 特徵比對~
特徵抽取完,成為一個多維的特徵向量(Feature vector) 後,就要與資料庫中經過學習各字(中文字常用字數為5401字)的代表特徵向量 作比對。由於學習與辨識所採用抽取特徵的過程都一樣,因此,比對方式為兩特徵向量間,計算相對維度特徵值的差異和。
假設特徵向量共256維,未知字元影像抽出的特徵向量為 ,字元j的代表特徵向量為 ,其標準差(standard deviation)為 ,計算兩特徵向量差異值 的方法有下列幾種:

(1). Minimum distance:
(2). Euclidean distance:
(3). Cross correlation distance:
(4). Modified Mahalanobis distance:
(5). Li and Yu distance:


3. 加速技術~
     由於中文字數量極多,辨識特徵取出的維度亦不少,使得如何加速比對過程,也成為相當重要的研究課題,常採用的方法有下列幾種:
(1). 分群法(Clustering):先以簡單特徵將中文字分成數群,不同群內字元可重複或不重複。未知影像抽完簡單特徵後,先決定此未知影像會落於哪一群,再以較複雜的特徵,與該群內的字元做細部比對。此方式需先決定哪些字元屬於同一群,且不同未知影像只要落於同一群,其細部比對的候選字元均相同。
(2). 候選字選擇法(Candidate selection):此法不必事先決定哪些字元屬於同一群。未知影像抽完簡單特徵,就與所有字元做比對,取前幾名(如前百分之一)再以複雜特徵做細部比對。因此,不同未知影像其細部比對的候選字元必定不同。
(3). 分支界定法(Branch and Bound):前兩種加速法均致力於降低比對的字元數目,因此會降低整體辨識率,此法則設法加速特徵向量的比對速度,主要用於複雜特徵的細部比對過程。首先,先按照重要性將特徵向量的各維特徵值做重排列,以最重要的幾個特徵值與代表特徵向量作距離的計算,按照此累計距離將候選字元的比對順序重排。在來求出未知字元與第一個候選字元的完整距離,以此為一門檻值,在計算第二個候選字元以後的完整辨識距離的過程中,每累計一個維度特徵值的差異時,便與此門檻值做比較,若超過門檻值,則未計算的維度也不用再計算,便可跳到下個候選字。若累計完所有維度得到完整距離,仍未超過門檻值,則將門檻值改為此完整距離。此加速法的最大優點為完全不會降低整體辨識率。

〈[43] 目錄

 


Article printed from 拓展台灣數位典藏: http://content.teldap.tw/index

URL to article: http://content.teldap.tw/index/?p=213

URLs in this post:
[1] 壹、引言: http://content.teldap.tw/index/?p=213&page=2
[2] 貳、數位化工作流程圖: http://content.teldap.tw/index/?p=213&page=3
[3] 參、前置作業: http://content.teldap.tw/index/?p=213&page=4
[4] 肆、物件數位化程序: http://content.teldap.tw/index/?p=213&page=5
[5] 伍、後設資料與資料庫建置: http://content.teldap.tw/index/?p=213&page=6
[6] 陸、設備與成本分析: http://content.teldap.tw/index/?p=213&page=7
[7] 柒、效益與侷限: http://content.teldap.tw/index/?p=213&page=8
[8] 捌、結語: http://content.teldap.tw/index/?p=213&page=9
[9] 玖、參考文獻附錄: http://content.teldap.tw/index/?p=213&page=10
[10] 拾、附錄: http://content.teldap.tw/index/?p=213&page=11
[11] 目錄: http://content.teldap.tw/index/?p=213
[12] 目錄: http://content.teldap.tw/index/?p=213
[13] 一、年度工作規劃: #3-1
[14] 二、數位化執行方式之選擇: #3-2
[15] 三、後設資料之建立: #3-3
[16] [1]: #_edn1
[17] 目錄: http://content.teldap.tw/index/?p=213
[18] 一、色彩校正: #4-1
[19] 二、數位化掃描技術: #4-2
[20] 三、光學文字辨識技術: #4-3
[21] [2]: #_edn2
[22] [3]: #_edn3
[23] [4]: #_edn4
[24] 一、後設資料與XML: #5-1
[25] 二、資料庫建置: #5-2
[26] [5]: #_edn5
[27] [6]: #_edn6
[28] 目錄: http://content.teldap.tw/index/?p=213
[29] 一、數位化設備分析: #6-1
[30] 二、數位化成本分析: #6-2
[31] 目錄: http://content.teldap.tw/index/?p=213
[32] 目錄: http://content.teldap.tw/index/?p=213
[33] 目錄: http://content.teldap.tw/index/?p=213
[34] http://w3.cbeta.org/index.htm: http://w3.cbeta.org/index.htm
[35] http://www.dstc.edu.au/RDU/reports/VALA1998/: http://www.dstc.edu.au/RDU/reports/VALA1998/
[36] http://www.w3.org/XML/: http://www.w3.org/XML/
[37] 目錄: http://content.teldap.tw/index/?p=213
[38] 附錄一、期刊影像掃描檔案編碼原則: #10-1
[39] 附錄二、報紙影像編碼原則: #10-2
[40] 附錄三、國家圖書館數位化檔案建議格式: #10-3
[41] 附錄四、色彩校正流程: #10-4
[42] 附錄五、辨識技術: #10-5
[43] 目錄: http://content.teldap.tw/index/?p=213