漢籍全文數位化工作流程指南

撰寫者:本分項計畫助理 謝筱琳
E-MAIL: virginia@alumni.nccu.edu.tw

版次:2006年12月初稿

書畫數位化工作流程指南封面


當火焰燃燒到達華氏451 度,所有記錄人類智慧的典籍都將灰飛煙滅,但卻燒不毀被壓抑的靈魂……這是一個沒有火災的世界,消防員的工作,是縱火。這
是一個所有的書都是「禁書」的世界,消防員的職責,是「焚書」。
這樣的場景,發生於當代科幻大師雷•布萊伯利(Ray Bradbury)1953 年發表的科幻小說──《華氏451 度(Fahrenheit 451)》。未來的西方世界,實體書籍將因某種因素淪入如同中國古代秦始皇下令焚書的悲慘命運,而愛書人為了拯救這些人類歷代傳承的知識典籍,自願成為知識的載具,將經典書籍的內容記憶於腦海再現於言行,因而每個人都是一本書,如果有人想了解聖經,就來這裡找「聖經」這個人,想拜讀莎士比亞,就去那裡找「莎士比亞」那個人。
「每個人都是一本書」以保存、傳遞知識的這種想法,是1953 年電腦、網際網路尚未蓬勃發展,布萊伯利針對書籍無法以實體形式存在,又必須另謀存活形式,所構想的解決方案。然而,假設這本書的寫作年代為二十一世紀的今日,由人作為知識載具的浪漫劇情,或許直接為數位化取代,電子化的書籍透過電腦、網際網路,更能客觀地、科學地、久遠地、安全地保存,並且經由網路易於傳遞的性質,知識能夠快速且有效地流通。
圖書文獻的電子化,是將實體(例如紙本)的典籍進行數位化作業,轉換成虛擬的電子形式。目前比較常見的數位化方案有三種,第一是針對書籍的原貌,依照既有的頁數或篇幅,一一拍攝,產出黑白或彩色的數位化影像,稱作「全文影像數位化」;此方案的優點是能夠同時呈現書籍的原文、紙質與原色。第二種「全文數位化」,是將書上的文字進行繕打輸入與校對,產出內文的文字電子檔;此方案能辨識註解內文、意義模糊不清處,以現行文字代替目前已經不通行的古文難字,並且堤供全文檢索,進而提高典籍之研究價值。上述兩個數位方案,前者重視書籍「形式」的再現,讀者能夠觀看原書的樣貌影像,後者則注重書籍「內容」的呈現與索引,讀者能夠藉此閱讀原書的文字與意義。另外還有第三種方案結合前兩種考量,分別將形式與內容數位化後,共同儲存於資料庫中,再將兩者並置於畫面或建立超連結呈現,以達形式、內容相輔之效。
數位化資料除了有AAA(Anyone Anywhere Anytime)──任何人隨時隨地均可取得資料之特性,亦有其他四大益處:一、能大量儲存於攜帶方便的光碟片、硬碟、或是磁碟陣列,節省空間,利於保存;二、能夠展現新的資料型式,如超文件(hypertext)、超媒體(multi-media),令人耳目一新;三、刺激開發研究的新方向,以佛教典籍的全文數位化為例,藉由數位化後之詞頻統計,可以得知佛典之用詞概況,易於歸納佛典相關之典章、事故;四、易於複製、傳遞、傳播,增進知識之流通。

數位化工作流程指南|2007-03-17|漢籍全文 |數位典藏國家型科技計畫內容發展分項計畫|人氣 :