拓展台灣數位典藏 » Blog Archive » 期刊報紙全文輸入工作流程

期刊報紙全文輸入工作流程

Tags: none 發表: 2007-12-10, 點閱: 32,920 , 加入收藏櫃 ,

列印 ,

轉寄

想加入的書籤:

書籤網站 http://www.hemidemi.com/

參、前置作業

一、年度工作規劃
 二、數位化執行方式之選擇
 三、後設資料之建立

一、年度工作規劃

數位化工作進行之際，因考量到藏品數量、預定數位化進度與範圍及計畫進行期間數位化品質之一致性，故必須針對數位化工作各階段環節進行標準規格的制訂與嚴謹明確的作業規範，以避免無統一而具體的脈絡規則可遵循。概括而言，數位化工作大致包含以下步驟：檢視原件、製作數位化物件清冊、制訂標準與規範、資料影像數位化、全文輸入檢索建置、後設資料（Metadata）分析與著錄、數位化資料儲存與管理、數位化成果運用與加值等。

（一）原件檢視與類型

「期刊報紙全文輸入工作流程參考標準」擬定數位化物件為期刊、報紙，而早期報紙除了以原件類型蒐藏之外，尚有彙集製作成微縮膠卷（Microfilm）及拍攝成單張黑白底片之形式，故本文在此將紙質的期刊報紙稱為「直接原件」，而膠捲及底片型則稱為「間接原件」。檢視「直接原件」必須注意其保存現狀、紙質與印刷品質、破損狀況、缺頁及裝訂方式等，若有需要進行修復者，則須依照物件性質的不同而使用專業修補方式。除此之外，尚需注意原件的完整性，建議以字跡清楚且富典藏價值的藏品作為數位化物件之首選。

「間接原件」包含微縮膠卷，原理為將「直接原件」經攝影方法縮攝於鹵化銀底片或其他適於長久保存底片中，進行微縮作業，其常見的型號有16mm和35mm，於溫度21°C、濕度50%下可保存長達100～500年，僅需簡單工具（如放大鏡）即能閱讀，亦能減少保存空間，然而較不便之處為製作及複製均需一定的標準程序和機器。此種典藏方法大量應用於圖書館、報社之保存或醫院儲存病人之數碼病歷。下列簡略介紹微縮膠卷的效益與優點：

1.技術成熟穩定：微縮技術具百年歷史，且擁有國際統一規格標準。

2.增加管理效率：體積小，易於管理或調閱。

3.節省儲存空間：比原件紙質資料節省約95%以上的儲存空間。

4.利於永久保存：屬銀鹽正片，可保存100年以上，適合圖書館作永久性的典藏。

5.利於取得複本：讀者可利用閱讀複印機將原尺寸的報紙影印出來，提供研究和傳閱。

表1、微縮膠卷蒐藏之報社
報紙名稱	微縮膠卷資料起訖時間	數量
聯合報	民國40年　～　92年12月	357卷
經濟日報	民國76年　～　92年12月	196卷
民生報	民國67年2月　～　92年12月	234卷
中華日報	民國35年2月　～　85年12月	269卷

資料來源：漢珍圖書數位公司

這些古老且具有歷史價值的微縮膠卷，經過時間證明其保存時間較為長久，然而隨著資訊科技的發展，微縮膠片技術也迫面臨淘汰的窘境，若沒有延續保留原始寶貴資料的轉換技術，將對資料的可用性造成威脅。

（二）製作清冊

根據各計畫單位所擬定的數位化物件，進行資料來源分類，因為物件種類的性質不盡相同，則後續的數位化方式選擇也將依照典藏與使用目的作彈性變更。前述檢視原件過後，將數位化物件編列流水號，並製作數位化清單，再交由專業人員重新核對清冊。另外，物件進行修復者，則待修復完成後再編入清冊中。
（三）訂定標準規範

在進行數位化作業過程中，必須訂定嚴謹而明確的標準與規範。國家圖書館在執行期刊報紙數位化之相關計畫時，特邀請圖書資訊界專家與館內同仁，成立「文獻分析機讀格式計畫小組」，修訂期刊文獻資源建檔之後設資料格式，並共同訂定數位化作業的相關標準與規範。各項規範包含關於後設資料（Metadata）的《文獻分析機讀格式》及《資料數位化標準—檔案數位化與命名原則》、《國家圖書館期刊影像編碼原則》、《國家圖書館報紙影像編碼原則》，其中編碼原則的制訂是國家圖書館為避免日後期刊報紙連結後設資料時產生問題，所以依照期刊報紙卷期特性及編碼方式，訂定編碼原則各一份，以作為數位影像檔案編碼的依據。（詳見附錄一、二）

1.確立施作方式與工作程序

一般在實際施行數位化工作時，考量到使用者的設備、使用的便利性、資訊檢索的需求、網路上資料的傳輸速度、資料的永久保存等問題，需依據工作內容等項目，區分為自行製作以及委外作業兩種方式，並建立後設資料分析與著錄作業方式等，目的為制訂前置作業至資料備份、建置Metadata與製作網站資料庫的整個工作流程順序，同時也可規劃並掌握數位化工作之進度。

2.製作文字輸入及校對規範

無論是選擇以人工輸入或軟體辨識之數位化方式進行全文輸入，都得事先製作文字輸入建檔及校對規範，其中包括標點符號及字級行距之訂定、折行處之標示、難辨識文字與缺字情況之處理方法、檔案格式、檔案命名等，這些標準的制訂是為了確保檔案的一致性，同時也方便各執行單位進行內部控管，甚至可加入Metadata欄位，在做全文輸入時順便建置，以達事半功倍之效。如果資料內容較簡單易懂，僅需電腦打字輸入技能的話，則可考慮委外製作方式；而內容若以古字、變體字為主的文件，則建議交由專業人員執行建檔及校稿。此外，在全文輸入、文字建檔、校對、修改電子檔之工作進行過程中，會經過反覆校稿、列印、改正電子檔等作業，為確實掌控各部分資料之進展情形，可製作一份進度表供日常登錄之用，而比較詳細的工作記錄，仍以利用電腦軟體處理登錄，如此一來，將有利於追蹤掌握各工作環節實際進度或適時修正。

（四）確立數位化檔案規格及用途

1. 訂定數位化檔案規格

依據典藏品資料性質，以及數位化方式的不同，需要考慮制訂不同的檔案格式。如果原始資料是以電腦打字的電子檔，則除了儲存一份文字的原始檔之外，另建議轉成HTML、PDF或RTF三種檔案格式。儲存文字檔的原因是為了方便做全文檢索，若只有建立後設資料之需求，須先將原件掃描，並以不壓縮格式，儲存一份永久檔，再視需求轉存成其他目的之格式，如網路下載格式及預覽格式等。若原始資料為照片、圖片、地圖等，則需以掃描器掃成影像檔，並以不壓縮格式儲存一份永久檔，同樣可視需求轉存成其他目的之格式。數位化後的檔案格式一般採用：TIFF不壓縮；TIFF G4；JPG 85%壓縮；PDF等格式。格式說明分別詳述如下：

（1）TIFF（Tag Image File Format）

TIFF的第一個版本是由ALDUS公司於1986年所創立，它利用標籤（Tag）為其組成的基本架構，具有極大的擴充性。每一個TIFF檔可以是單頁或是多頁，在編輯的過程中能達到影像資訊無失真，已被大多數軟體所使用。TIFF格式具有豐富的色彩支援，包括全彩、灰階及黑白等影像格式亦或線條稿（純文字圖檔），並且提供多種壓縮模式，包括LZW（Lempel-Ziv-Welch Encoding，簡稱LZW）、Huffman’s Encoding、及變動長度編碼法等，能使檔案體積變小，但仍然不失真。使用者可依照需求使用合適的壓縮策略。針對純文字圖檔，建議利用TIFF G4格式（256階、黑白TIFF），使檔案體積最小的情況下，獲得最佳影像品質。以TIFF G4、300dpi、A4尺寸的檔案為例，每頁檔案體積為50KB。

（2）JPEG（Joint Photographic Experts Group）

JPEG是由國際標準組織（International Organization for Standardization，簡稱ISO）和國際電話電報諮詢委員會（International Telegraph and Telephone Consultative Committee，簡稱CCITT）所建立的一個數位影像壓縮標準，主要是用於靜態影像壓縮方面，其採用可失真（Lossy）編碼法的概念，利用數位餘弦轉換法（Discrete Cosine Transform，簡稱DCT）將影像資料中較不重要的部份去除，僅保留重要的資訊，以達到高壓縮率的目的。雖然被JPEG處理後的影像會有失真的現象，但JPEG的失真比例可利用參數來加以控制，一般而言，當壓縮率在5%～15%之間時，JPEG依然能保證其適當的影像品質。其適合應用於壓縮全彩或是8位元的灰階影像，凡是照片或色彩連續的影像都非常適宜利用JPEG來壓縮，且同解析度的檔案體積也比TIFF格式小，更利於在網路上傳送閱讀，也由於JPEG壓縮率高，且影像品質在接受範圍內，所以目前支援JPEG的應用軟體相當多，是目前網路上使用最普遍的影像壓縮格式之一。

（3）JPEG2000

JPEG2000正式名稱為「ISO 15444」，由JPEG（the Joint Photographic Experts Group）組織於2000年3月制訂完成。JPEG2000的壓縮率比傳統JPEG高約30%左右，並同時支援有損和無損壓縮，而JPEG 只支援有損壓縮，且具有支援「感興趣區域」特性，可任意指定部份影像壓縮量或先解壓縮。然而目前支援JPEG2000的應用軟體並不普及，較完整軟體則屬LuraTech技術廠商，其與 ACD Systems 公司簽訂協定，在使用率最高的圖形管理軟體 ACDSee 3.0 上，提供 JPEG2000 LWF 格式的外掛元件演算法，如此只要安置此插件就可觀看並製作 LWF 格式檔。

（4）PDF（Portable Document Format）

PDF是Adobe公司所推出的一種跨平台軟體，為Adobe系統中Acrobat的原生性檔案格式，PDF格式獨立於原有製作這些文件的應用軟體、硬體、及作業系統之外，是不需用原有軟體就能閱讀的共用檔案格式。PDF能保存原始文件的字體、影像、圖形和版面，不受設備與解析度影響。目前常見的PDF為單層PDF，而雙層PDF則融合了OCR辨識結果，即文件內容上層為圖像，但底層包含OCR辨識的文字資料，可供搜尋之用，並具全文檢索功能，且能找出文字、書籤和資料欄的位置。因此，PDF不僅保存了原始文件的外觀和完整性，另一方面又兼顧了文字資料檢索的需求，讓文件的相容性與閱讀性大增。此外，PDF檔案可經由設定密碼來保護文件，以避免被不當複製或未經授權的檢視和修改，同時又可以讓授權的審閱者使用註解和編輯工具，因此除了微軟所出的Microsoft Reader之外，PDF也是目前世界上最通用的電子書（eBook）格式之一。

（5）其它格式

CEB格式（Chinese Electronic Book，簡稱CEB）是由北大方正公司所創Apabi Reader中文電子書格式，具有版權紀錄與鎖定的功能，同樣也是不需用原有軟體而能閱讀的共用檔案格式。

表2、常用格式的容量比較表（A4 300DPI）
	會否失真	彩色	黑白	容量
TIFF 不壓縮	不會	可	可	極大
TIFF LZW 壓縮	不會	可	可	大
TIFF G4	會（部分文字不會）	不可	可	極小
JPEG 不壓縮	會	可	可	大
JPEG 85% 壓縮	會	可	可	中
JPEG2000	不會	可	可	極小
PDF	不確定	可	可	中

2. 數位化檔案之用途
（1）印刷

A.期刊報紙之印刷用途
（A）原物重現、再版發行
（B）宣傳展示

B.解析度需求

簡單而言，解析度即圖檔的清晰程度，而解析度越高則所需儲存空間也就越大。上述印刷用途皆可依照原始尺寸、放大或縮小以進行印刷作業。要達到原始尺寸的印刷，其解析度至少要300dpi。若要放大印刷，則解析度必須相對提高，然而因為報紙本身尺寸的關係，在掃描技術上就必須要克服提升解析度的困難；另外若放大的需求是大圖輸出，例如大型海報或外牆使用等，則解析度以72dpi為基準數，依照實際需求將長寬等比例放大即可，其目的在於遠距離觀看，故近距離檢視下出現馬賽克是可被接受的，此做法較適合量少的宣傳品使用。至於縮小作稿方式，原則上建議在電腦設備可支援情形下，使用72dpi、原尺寸1：1或300dpi、縮小4倍進行輸出作業較不易產生馬賽克，成品質感也較佳。

（2）實體與數位化保存

對期刊報紙實體存放空間而言，不論是在何種場所、空間大小、溫濕度控制、照明亮度或是降低紙質成分的損毀度等，都是對於進行數位化工作相當重要的關鍵。簡單來說，期刊報紙必須在恆溫恆濕以及與空氣日光接觸少的環境空間下儲存，然而調閱瀏覽及操作掃描等人為因素次數愈頻繁，造成原件壞損的機會便愈大，於是進行數位化工作便等於增加另一種保存原件的方式。而期刊報紙原件也因為尺寸及數量的關係，累積蒐藏量體積相當龐大，需要絕對寬敞的儲存空間來存放，相對而言，儲存成本總金額也隨之增加，故採取何種數位化格式也就刻不容緩且須謹慎評估之。例如國家圖書館在進行館藏期刊報紙資料數位化時，為要求數位化內容清晰以及永久典藏，則依據「資料數位化與命名原則」之建議規格，決定採用文字檔及影像檔資料永久保存格式進行數位化。其中文字檔之永久保存格式建議規格為TIFF不壓縮、300~600dpi；下載格式建議規格為JBIG、150~300dpi；預覽影像建議規格為GIF、72dpi。詳細數位化檔案建議格式請參閱附錄三。

（3）網路瀏覽

網路瀏覽的目的在於使數位化圖檔能夠在網路上供大眾瀏覽，然而因為網路頻寬的限制，所以必須選擇適合的檔案格式來進行數位化，而圖檔體積愈小，網路瀏覽便愈順利，相對地圖檔清晰度也會減少，尤其是圖檔內容以文字為主時特別明顯，而目前可透過新掃描技術提供品質較佳的低容量圖檔體積並且降低文字清晰度的流失。

（4）電子書

期刊報紙進行數位化後的圖檔，可以依照所需主題組合而成電子書，以電子書形式提供予使用者下載、閱讀或列印。目前國際普遍檔案格式為PDF，而中文電子書則以方正Apabi Reader軟體市佔率最高。

二、數位化執行方式之選擇

以往期刊與報紙的數位化處理方式，有影像掃描、人工輸入、光學文字辨識（Optical Character Recognition，簡稱OCR）、電子報直接轉入資料庫等四種[1]，以下將以新聞主題小組內計畫作為範例，各數位化執行單位可依原始資料性質並評估成本預算後，再決定採行的數位化方式，或是數種方式搭配使用。

（一）影像掃描

影像掃描是將報紙版面掃描成為影像檔儲存，可存為JPG或PDF等圖檔格式，原則上解析度要到300dpi才夠清晰，為目前市面圖書館與大型研究機構較常用的一種數位化作業，而目前為止新技術已能滿足清晰度且高壓縮至150dpi，這種做法比較簡單而省時省力，且可提供仿真的資料原件複本給使用者，例如「國家圖書館期刊報紙典藏數位化計畫」所成立之報紙影像資料庫，即是此種方式的代表：將報紙掃描後（含微片轉製34種，共有445,584頁影像檔），另外建置標題與相關後設資料與欄位，以提供報紙文獻的全頁影像與新聞標題查詢。然而倘若掃描的影像內容無法直接辨識進而提供檢索，在使用上的效益將遠不如電子全文資料。故現今已有雙層PDF融合影像內容及OCR辨識結果，以彌補純粹影像掃描而無法進行全文檢索之憾。

（二）人工輸入

人工輸入則是將紙本原件或將已經掃描成影像或製成微縮膠卷的報紙重新輸出，再用人工方式重新打字建置資料，完成的內容必須再經人工校對，例如「世新大學北平世界日報內容數位化開發計畫」，最後是把校對好的文字檔轉換成為資料庫格式，上網供使用者查詢。這種全文輸入的方式，需要的是電腦打字輸入的技能，可以採外包的方式，再由單位內的人員進行檢校；若資料原件多異體字或有闕漏，則不建議交付外包。

（三）光學文字辨識

光學文字辨識是使用掃描設備將印刷文件讀入，並將文件上的文字辨認後轉換成電腦使用的文字編碼，例如ASCII 碼或BIG-5碼，再轉入資料庫供使用者檢索查詢，適合印刷清楚、資料量龐大的文獻，其正確率可達99.98%，若是期刊報紙的原件年代久遠、紙張泛黃，而產生漏字缺角、辨識模糊等缺陷，仍需要經由人工校對來提高正確率；有時掃描品質不佳，內容清晰度差，OCR效率反而比不上人工輸入，例如「世新大學世界日報內容數位化開發計畫」即在評估之下選擇使用人工輸入法。不過一般而言，在典藏品掃描後品質仍佳的情況下，利用OCR的技術來還原文字，其成本遠比人工輸入來得低廉。如果已有其他型式媒體備份，例如影本或微縮版，則第一階段之輸入建檔應利用影本或微縮資料列印文件。影本或微縮資料列印文件如有不清楚之處，再批次調取原件核對。要進行核對時，如果廠商數位檔已製作完成，則可利用數位檔進行核對；原則上是盡量減少提取原件的機會，以保護原件。

（四）電子報直接轉入資料庫

「辦公室維運分項：出版子計畫」則是直接將電子檔轉入資料庫，以《國家數位典藏通訊》電子報的形式發送，必須另外建置Metadata方能供使用者查詢。又如國內最知名的兩大報系─聯合報以及中國時報，早已將報紙編排方式數位化，並把當日新聞文字稿儲存至資料庫中，而所謂資料庫、Metadata的建置、XML的應用等則自從Internet普及後才逐漸受到重視。

表3、期刊報紙數位化方式特性分析表
數位化方式	特點	弱點
影像掃描	提供原件複本	無法全文檢索
人工打字	可直接判斷出缺字或難字	耗費大量人力、時間成本
光學文字辨識	速度快、效率高	鉛字排版、印刷字與手寫字混排、注音體、影像檔品質不良等辨識率低
電子報	本身形式即已經過數位化

綜合上表四種期刊報紙數位化方式之優缺點比較，因影像掃描方式若無法提供使用者內容的全文檢索，因此使用效益不大；人工打字方式雖僅需打字技能，相較於光學文字辨識則耗費了太多的人力與時間成本；而OCR數位化效率雖高，但若無適合的文件類型，則辨識率仍有待突破；電子報本身形式已經過數位化，暫不在此進行比較。

一般而言，執行單位在進行文字數位化時，較常遇見情形為OCR辨識率過低，不得已改而採取較耗費成本之人工輸入法，然而，若是能對物件影像檔做些適當的處理以提高其辨識率，不僅能使大量文字圖像內容能夠重新引用並方便檢索，同時也能減少許多不必要的人力或時間成本（OCR辨識處理步驟將於下一章節詳細作說明）。因此，本文除了針對OCR光學文字辨識作一深入探討研究之外，也提供一些選擇人工輸入或OCR辨識的參考依歸，其中以OCR品質檢驗要則為主要考量，利於使用者在進行全文輸入時，依據本身現有的實際情形自行斟酌並作調整。

就文件類型而言，適合進行OCR辨識的文件類型有常見的印刷體為主、已清除雜點、傾斜校正且文字與底色反差明顯者。而不適合進行OCR辨識的文件類型則包括排版格式複雜、字體非一般常用字、帶有注音符號或數學運算公式等，甚至因為紙張較薄（磅數較低）、油墨較深者容易造成背面文字顯現於正面文件上，這些因素都將對OCR辨識率造成影響。另外，民國五十年左右的報紙是使用鉛字排版方式印刷，因排版字縫間有空隙，且因年代久遠或溫、濕度失恆而使紙張泛黃或毀損，導致掃描後品質不佳、內容清晰度差者，則建議使用人工輸入方式較有效率。

表4、數位化方式品質檢驗要點
數位化方式品質檢驗要點	OCR光學文字辨識	人工輸入
字體	常見印刷體	純手寫稿、夾雜注音體、數學運算公式印刷體或手寫字混排、古文或變體字多
排版格式	電腦排版、格式簡單讀文順序清楚	早期鉛字排版、格式複雜、讀文順序不順暢
雜點	版面較為乾淨、無雜點	字體周圍較多標記或雜點
反差度	純黑白稿、字體清晰、反差度高	本身影像品質不佳、字體較為模糊、反差不明顯

就圖檔格式而言，OCR軟體在個人電腦問世後不久即產生，然而當時僅能支援150dpi、黑白TIFF或BMP檔案格式。目前則因個人電腦處理能力大幅提升及改善，OCR也已能處理JPG格式。而為確保辨識的精確性並提升辨識效率，建議將彩色或灰階文件圖檔進行影像處理，取得較佳的影像格式（150～200dpi、黑白TIFF），以利OCR作業之進行。目前測試結果顯示有利OCR之圖檔格式依序為：黑白TIFF G4、150dpi；黑白TIFF G4、300dpi；全彩JPG／TIFF、300dpi。黑白圖檔因文字與底色的反差明顯度大於彩色圖檔，故OCR辨識度較高；而在同樣能進行OCR作業情況下，黑白TIFF G4、150dpi則因檔案體積及佔用資源空間較小，故較優於黑白TIFF G4、300dpi進行OCR文字辨識。

表5、利於OCR辨識之圖檔格式
圖檔格式	利於OCR辨識程度（依次排序）
黑白TIFF G4、150dpi	反差度高、體積較小
黑白TIFF G4、300dpi	反差度高
全彩JPG／TIFF、300dpi	底圖與文字反差不明顯，對OCR辨識造成干擾

表5、利於OCR辨識之圖檔格式

圖檔格式

利於OCR辨識程度（依次排序）

黑白TIFF G4、150dpi

反差度高、體積較小

黑白TIFF G4、300dpi

反差度高

全彩JPG／TIFF、300dpi

底圖與文字反差不明顯，對OCR辨識造成干擾

三、後設資料之建立

（一）確立檔案格式

目前影視新聞相關之後設資料格式尚無統一標準，這裡指的是在新聞主題小組中不同媒體類型的典藏品，可能需要不同的後設資料加以詮釋；有許多新聞傳播相關主題加入了數位典藏計畫，各個子計畫或典藏單位的資料庫，都具有描述各自典藏品的後設資料與整理工作，期望能與不同的資料庫與檢索系統加以結合。

（二）後設資料需求訪談

不同類型數位化物件的後設資料不盡相同，若能訪查相關計畫或有經驗的單位，請專家們給予參考，建置符合使用者及管理者需求的後設資料，並參考國際相關標準，將可徵集多方意見，使得後設資料更加完備。

（三）訂定後設資料規範

將各類型資料加以分析比較之後，即可依照各典藏品特性來訂定後設資料規範與欄位建置；由於聯合目錄所採用的是都柏林核心集（Dublin Core，簡稱DC﹞做為核心欄位，其普遍性雖然可以處理異質資料庫間的共通，但不同的媒介與計畫間應有適用於該主題更需被凸顯的核心欄位，由此整合的核心欄位再行對應DC欄位，並搭配個別資料庫欄位的分析，將可提高呈現內容的目錄價值。

〈目錄〉

1.孫正宜、林信成，〈中文報業數位化技術與現況探討－聯合知識庫數位化經驗〉，頁3~4。

<<回前頁 1 2 3 4 5 6 7 8 9 10 11 下一頁>>