壹、 前言 (Introduction)
當火焰燃燒到達華氏451度,所有記錄人類智慧的典籍都將灰飛煙滅,但卻燒不毀被壓抑的靈魂……這是一個沒有火災的世界,消防員的工作,是縱火。這是一個所有的書都是「禁書」的世界,消防員的職責,是「焚書」。
這樣的場景,發生於當代科幻大師雷 ‧ 布萊伯利(Ray Bradbury),在西元 1953 年發表的科幻小說─《華氏 451 度 (Fahrenheit 451)》。未來的西方世界,實體書籍將因某種因素淪入如同中國古代秦始皇下令焚書的悲慘命運,而愛書人為了拯救這些人類歷代傳承的知識典籍,自願成為知識的載具,將經典書籍的內容記憶於腦海,再現於言行,因而每個人都是一本書,如果有人想了解聖經,就來這裡找「聖經」這個人,想拜讀莎士比亞,就去那裡找「莎士比亞」那個人。
「每個人都是一本書」以保存、傳遞知識的這種想法,是西元 1953 年電腦、網際網路尚未蓬勃發展,布萊伯利針對書籍無法以實體形式存在,又必須另謀存活形式所構想的解決方案。然而,假設這本書的寫作年代為二十一世紀的今日,由人做為知識載具的浪漫劇情,或許直接為數位化取代,電子化的書籍透過電腦、網際網路,更能客觀地、科學地、久遠地、安全地保存,並且經由網路易於傳遞的性質,知識能夠快速且有效地流通。
圖書文獻的電子化,是將實體(例如紙本)的典籍進行數位化作業,轉換成虛擬的電子形式。目前比較常見的數位化方案有三種,第一是針對書籍的原貌,依照既有的頁數或篇幅,一一拍攝產出黑白或彩色的數位化影像,稱作「全文影像數位化」,此方案的優點是能夠同時呈現書籍的原文、紙質與原色。第二種「全文數位化」,是將書上的文字進行繕打輸入與校對,產出內文的文字電子檔,此方案能辨識註解內文、意義模糊不清處,以現行文字代替目前已經不通行的古文難字,並且提供全文檢索,進而提高典籍之研究價值。上述兩個數位方案,前者重視書籍「形式」的再現,讀者能夠觀看原書的樣貌影像,後者則注重書籍「內容」的呈現與索引,讀者能夠藉此閱讀原書的文字與意義。另外還有第三種方案結合前兩種考量,分別將形式與內容數位化後,共同儲存於資料庫中,再將兩者並置於畫面或建立超連結呈現,以達形式、內容相輔之效。
數位化資料除了有 AAA(Anyone Anywhere Anytime) ─任何人隨時隨地均可取得資料之特性,亦有其他四大益處:一、能大量儲存於攜帶方便的光碟片、硬碟、或是磁碟陣列,節省空間,利於保存;二、能夠展現新的資料型式,如超文件 (hypertext)、超媒體 (multi-media),令人耳目一新;三、刺激開發研究的新方向,以佛教典籍的全文數位化為例,藉由數位化後之詞頻統計,可以得知佛典之用詞概況,易於歸納佛典相關之典章、事故;四、易於複製、傳遞、傳播,增進知識之流通。
所謂全文資料庫,是以原文件的所有文字為素材,以儘量保存文件版面的方式所建構的資料庫。我國最早的電子全文資料庫「漢籍電子文獻資料庫」,為中央研究院於西元 1981 年研發製作,收錄二十五史、十三經、清實錄、小說戲曲……等各種歷代古籍叢書之電子全文,是國內現有最周全的經典史料資料庫。行政院文化建設委員會「國家文化資料庫」收集之全國藝文資源中,也有其他古今、地方文學與古文書的全文影像資料。宗教典籍方面,道教有中央研究院中國文哲研究所研究員李豐楙先生帶領的「正統道藏」全文數位化工作;佛教細分經錄與經文,前者有中華電子佛典協會的佛教藏經目錄數位資料庫,以及香光尼眾佛學院之藏經目錄整合查詢系統,後者包括佛光山和中華電子佛典協會製作的《大正》、《阿含》等藏經全文資料庫。其中,佛光山是以精選數部佛典加以新式標點,並附題解及註解,付費使用之方式經營。中華電子佛典協會的「佛典集成電子藏經資料庫」,則按原書全文全套製作,並提供免費瀏覽下載,其經文之質量皆踞漢文佛典數位化之冠。
國科會「數位典藏與數位學習國家型科技計畫」自西元 2002 年起,便致力推動國內各項文物、資產的數位化工作。整合台灣漢字全文數位化的「漢籍全文主題小組」也於西元 2005 年 7 月成立,其主題小組召集人由法鼓佛教學院副校長杜正民老師擔任,積極推動國內全文數位化相關計畫、單位的研究分享與技術切磋。其中,對於全文標記的推廣更是不遺餘力,因為合適生存於數位時代的數位資訊,必須具備優良成品、加值應用價值高,且能分享流通於世界之特性,故「全文標記」也是本文之撰寫重心。
本「漢籍全文數位化工作流程指南」,係紀錄彙整已執行漢籍全文數位化計畫、單位之工作經驗,參考國內外相關技術、標準,歸納統整一套電子全文數位化之工作流程,期能提供執行單位之管理者與實際作業人員觀摩、檢視,且讓後續更多文書收藏單位加入數位典藏時,能依此參考依據,更有效的執行數位化工作。
貳、數位化工作流程圖(Digitization Flowchart)
全文數位化之工作流程可分為四大部分。第一部分為數位化之前置作業,即工作前的規劃評估與準備;第二部份為實際進行文字數位化的工作程序,諸如文本的掃描、影印,文字的繕打輸入以及校對;第三部份標記,是以記錄原有文本的排版資訊與內容資訊,進而增進學術研究與應用價值之重點工作;第四部份應用則為原始書籍轉為電子全文後之應用發展,詳細流程可見下圖 2-1。本文亦依此順序介紹說明。
圖2-1、漢籍全文數位化工作流程圖
拓展臺灣數位典藏計畫整理繪製
參、前置作業(Preliminary Procedures)
無論欲進行數位化材料之數量多寡,或是計畫之規模大小,數位化都是一項所費不貲且耗時耗力的工作;因此,事前的籌劃評估與準備,不容小覷。
實際進行文字數位化工作之前的準備作業有兩項,第一為「選定材料」,此工作涉及對於既有材料之瞭解與整體目標之規劃,第二為「制訂作業規範」,有助整體作業之執行成效與品質管理。
一、 選定材料
(一) 數位化材料之選擇
根據數位化目的之不同,數位化材料之選擇標準亦各有異,加上每個計畫經費不一,且多有限,故選擇數位化材料時,應事先考量文物數位化之優先順序,使得人力經費之支出能達到最佳成效。文物數位化之優先順序,可依照珍貴性、重要性、成本效益等程度,概分為以下六項:
1. 典藏品的評等度,如國寶、重要古物等教育部標準、機密程度等。
2. 典藏品的珍貴度,例如文物具有獨創性、稀有性、時代價值、不可替代性等因素。
3. 典藏品的保存難易度,包括脆弱、無法複製拷貝、有消失之虞等考量。
4. 數位化後之成本效益。
5. 數位化後在研究、教育、經濟等方面的應用價值。
6. 其他。
此外,版本的選擇在全文數位化工作裡,也佔有很大比例的關注與考量。當知識進入書寫時代,印刷術尚未發明之前,書籍多以人工抄錄的方式傳承接遞,故常有抄錯、漏抄之時,即使進入鉛字排版時代,還是會有會錯意、選錯字的情況發生。而且傳統中國頗為重視各類書寫文獻,不僅歷代君王,亦含文人雅士、學者志士,重視書籍文獻之考察與典藏,官修、私修之史書總集亦多從三國時代的三史、十三代史到乾隆皇帝欽定之二十四史,可見史書典籍因年代版本不同有收錄、記載之差異,是協助研究學者進行分析研究之重要線索。此外,數位化的重製作業關係藏品與成品之著作權法,若能請求著作權授權,則可順利進行數位化;若無法取得,或可更換可以取得授權之版本,否則必須重新揀選材料。
(二) 數位化材料清單之建立
選定即將進行數位化之書目後,應建立一份完整詳實的待輸入書目清單。因為數位化的物件為書籍,故以書目之最小集合單位冊或卷為列入清單的基本單位,一冊書即著錄一筆資料,每筆資料所記載的內容應包含以下出版資訊:
1. 書名
2. 作者名
3. 出版地
4. 出版社
5. 出版年限
6. 版本
除上述出版資訊外,亦須記載書目之數量,並且妥善保存此書目資訊(如表 2-1),作為之後進行數位化工作之憑據。
表3-1、中央研究院歷史語言研究所漢籍全文資料庫待輸入書單
二、 制訂規範
為確保數位化前後環節銜接順暢,產出成果之品質穩定,需制訂相關作業規則與檔案格式,以供遵循與評量。
大多數計畫或單位之規範制訂,參考同業已訂立之標準,其他則來自自身經驗的累積,不過制訂規範還是以滿足個別計畫之最終目標為最高準則,並非一字不漏、全部採用他人作法。雖然作業規範依計畫目標有所歧異,之間仍有些許共同原則,以下介紹各項數位化作業之工作規範與檔案規則參考。
(一) 數位影像檔案規格
提供文字繕打輸入之底本有二種,一為掃描原書製成之數位影像,二為影印原書製作之複本。
掃描原書之圖檔,除可用於繕打輸入與校對用途,還可於之後資料庫建置時,將圖檔與相對應之電子全文連結,成為全文與影像資料庫。關於數位化影像之規格設定,「數位典藏與數位學習國家型科技計畫」區隔數位化檔案規格為瀏覽級、商務級與典藏級三級:
1. 典藏級圖檔:目的為永久典藏,影像品質不失真,詳實反映原件狀況。
2. 商務級圖檔:目的為提供未來之加值應用,如出版、印刷、複製、交換或販售,影像品質須符合印刷之要求。
3. 瀏覽級圖檔:目的為展示於網路上,影像品質須符合電腦螢幕瀏覽及網路傳輸之要求。
典藏級的影像解析度為人類眼睛鑑別影像最高值的 300dpi,格式為適用不同軟體、平台,壓縮不失真,適合作為原始檔之 RAW 檔或 TIFF 檔。商務級的解析度同樣為 300dpi,影像格式則是非壓縮的 TIFF 檔。瀏覽級之影像解析度則為便利傳遞,再利用價值低之 72dpi,影像格式為 JPEG。三者的色彩模式則都為 RGB(24bit/pixel)。(如表 3-2)
表3-2、「數位典藏與數位學習國家型科技計畫」數位化影像檔案格式
等級
|
解析度及尺寸
|
色彩模式
|
檔案格式
|
典藏級
|
原尺寸、300dpi以上
|
RGB (24 bit/pixel)以上
|
RAW檔或TIFF檔
(非壓縮)
|
商務級
|
原尺寸、300dpi
|
RGB (24bit/pixel)
|
TIFF檔
(非壓縮)
|
網路瀏覽級
|
尺寸視網站設計需求、72dpi
|
RGB (24bit/pixel)
|
JPEG
(壓縮)
|
有鑑於全文數位化之掃描圖檔可能使用於不同目的,故原始掃描圖檔應設為高階的典藏級,即 300dpi 的 TIFF 全彩檔,以便日後降階應用。另外,也有單位使用影印的副本作為繕打輸入之底本,影印之影像大小則依據原書字體大小與清晰度,決定比例大小。
(二) 數位檔案命名原則
一旦執行掃描,產生數位影像之後,便需一一替檔案個別命名,以利數位資料之管理與檢索。使用檔案命名字元時,為確保檔案名稱能夠符合不同作業平台之讀取格式,應注意一般檔案命名事項:
1. 以小寫英文字母與數字做為檔案命名之編碼組合。
2. 避免使用 %、/、?、#、*、- 等特殊字元。
除了一般性原則之外,亦需依照數位化物件之媒體類別與不同特性,額外增加能夠突顯物件特性之命名規則。掃描圖書典籍而產生之數位化影像,其檔案名稱包含三種層次,圖書代碼、冊卷號、頁碼。其中頁碼為檔名,副檔名為 .tif。命名原則可參考「數位典藏與數位學習國家型科技計畫」 地方文獻影像編碼原則。
例:aaaaaooozzzzzzzz.tif
aaaaa=圖書代碼;
ooo=冊次號;
zzzzzzzz=頁碼。
1. 第一層:圖書代碼長度不固定,計畫單位可自行設定,建議皆為數字。
2. 第二層:冊卷號長度固定為三碼,皆為數字。
3. 第三層:頁碼
(1) 檔名長度共 8bytes,依原書內容頁碼編頁。例:第一頁 → 00000001.tif。
(2) 封面頁碼固定為 c0000001.jpg,倘若為平裝書加工精裝者,以原平裝書之封面為主。
(3) 原書內文頁碼第一頁前面與內文頁碼不連貫之各頁(即非正文部份),如序、目次等,可於非正文部份起依序計數,並於頁碼第一位加上英文小寫字母“a”以區別之,如:a0000001.tif、 a0000002.tif……
(4) 內文後面多出且與內文頁碼不連貫之各頁,如附錄、圖表、參考資料等,可於非正文部份起依序計數,並於頁碼第一位加上英文小寫字母“ b ”以區別之,如:b0000001.tif、b0000002.tif……
(5) 原文編有頁碼之空白頁或廣告頁,仍依原順序編碼掃入。
(6) 原文未編頁碼且為多餘之空白頁,則予以跳過不掃。
(7) 內文中之插頁,若未編頁碼,則以接續前頁之編碼後加“_”編入。如:在86頁至87頁間插頁2頁但未編碼,則以“ 000086_1.tif ”、“000086_2.tif”編號。
(8) 原文若分左、右版面頁碼者,左版頁碼需以小寫 L 區別,右版頁以小寫 R 區別。如:頁左 133 →檔名為 l0000l33.tif;頁右 12 →檔名為 r0000012.tif
(9) 正文若同時有兩組頁碼標示者,例如一組各章節從 1 編頁,一組為總頁碼者,則掃描取該書冊目次所標示之頁碼為準。
(10) 頁碼編排有疑義應於掃描前詢問典藏負責人員。
(三) 人工輸入規則
執行人工輸入之前,必須建立輸入規則。除了內文的文字,本文以外之符號標誌、圖片、表格、夾注小字、段落、頁碼、欄位、校勘符號,以及空白字元、空白行、圖形、系統缺字……等,都需明確標示著錄格式,如:
1. 頁碼、欄位:每欄開始都要以半形英數先輸入一行pxxxxn,xxxx為四位數,n為a(上欄)或b(中欄)或c(下欄)。
2. 序及經卷名:行前不留白。
3. 作者及譯者名:行前留四個全形空白。
4. 正文:行前不留白。
5. 正文夾註小字:以一組半形( )前後包括。
例 輸入為:十一月(二段)
6. 雙行夾註小字:同樣以一組半形( )前後夾註,需注意文字走向。
例 輸入成:望江南(三寶三段送佛一段)
7. 空行:隨文中空行。
8. 空格:按書面空格輸入全形空白字元。
9. 圈點:隨圈點處輸入「。」。
例 輸入為:身所居。二自受用土。自受
10. 校勘符號:採兩位數半形阿拉伯數字與中括號
例 輸入為:相[01]把成陰陽。
11. 特殊符號:以相似全形符號表示。
例 各輸入成:有一○為千
洪州黃
▲還。無□
12. 圖形:以【圖】表示。
例 輸入為:【圖】第七末那識
轉平等性智
13. 缺字:如果可以用組字式或構字式(下一小節將介紹)表示,即示之;若模糊或是難以表達之處,可統一暫以全形●表示。
因為每種文獻的排版、書寫、或語法等書籍體例各有不同,應根據各書籍體例以及數位化目標,制訂適合個別體例之人工輸入規範。不過大致上,關於全文輸入,還是有以下幾個基本大原則:
1. 依照書中原文輸入,內文不清楚處,不做模糊判斷,待專業人士進行判斷。
2. 同原書換行位置折行。
3. 由於古文書多無標點符號,輸入時只進行斷句,不加註新式標點符號。
(四) 新增缺字系統
漢字發展過程裡,因為地域、時代或其他因素,衍生了一字多形(例如「眾」與「衆」),無法窮舉之特色,所以現有的電腦交換碼一旦用來處理古籍或佛典、道藏等文獻,缺字問題即層出不窮。缺字的根本及務實的解決之道,應該在現有的編碼方法下,根據漢字的構形規則,針對這些為數眾多但又不常出現的漢字,提出一套有效的編碼方法。
目前國內有兩種缺字組字標準,其一是最為廣泛使用的缺字系統──中央研究院研發之漢字構形資料庫。漢字構形之基本構字單位稱作部件,也就是一個用來構造其它字的形體。如「日」、「京」是「景」的部件,「景」、「頁」是「顥」的部件,而「顥」是「灝」的部件。
部件還有層次,例如「顥」可拆分成「景」與「頁」,「景」又可拆分成「日」和「京」。漢字最常用的拆分方式為橫連()、直連()與包含(),因此,「顥」等於「景」「頁」,「景」等於「日」「京」,「圍」等於「囗」「韋」。另外為了輸入方便,也造了一些方便符號,表示相同部件之排列方式,如兩個「克」橫連的「兢」等於「克」,兩個「戈」直連的「戔」等於「戈」,三個「車」呈三角形狀排列的「轟」等於「車」,四個「火」呈四角狀排列的「燚」=「火」。而無從以構字式拆解之字形,則可使用從缺符號「」表示(表2-3)。
表3-3、中央研究院漢字構形組字規則
符號
類別
|
中文
意義
|
組字
符號
|
使用說明
|
範例
|
拆分
符號
|
橫連
|
|
當部件的排列順序由左至右
|
灝、順
|
直連
|
|
當部件的排列順序由上至下
|
含、義
|
包含
|
|
當部件的排列順序由外至內
|
圍、魁、連
|
方便
符號
|
|
|
二個相同部件直連
|
炎
|
|
|
三個相同部件直連
|
|
|
|
二個相同部件橫連
|
朋、沝、孖
|
|
|
三個相同部件橫連
|
|
|
|
三個相同部件呈三角狀排列
|
焱、聶、磊
|
|
|
四個相同部件橫連
|
|
|
|
四個相同部件直連
|
燚
|
|
|
四個相同部件成四角狀排列
|
|
其他
|
|
|
當拆分有兩種以上時,代替拆分,包夾在所有部件之前面,以及最後
|
片戶甫
|
終止標示
|
|
缺字標示
|
|
代替從缺的部件
|
|
其二為中華電子佛典協會在進行佛典的數位化工作時,以中央研究院之漢 字構字式為底本,獨家研發出該單位特有之組字式規則。相較於中央研究院之漢字構字式以部件作為基本構形單位,中華電子佛典協會是以 BIG5(大五碼)系統字作為組字之基本單位,故無造字問題,使用者無需另外安裝造字程式或圖檔,即可讀取組字式。
組字式採用數學裡的加減乘除四則運算符號來表示,共使用十個符號。這十個符號, 其中七個─「*」、「/」、「@」、「-」、「+」、「(」、「)」,用來表示字的左右上下分合關係;問號「?」,表示某字無法用組字方式表示的部分;另外二個半形符號「[]」與「」」,表示組字式的起迄(表 2-4)。
表3-4、中華電子佛典協會組字式規則
符號
|
說明
|
範例
|
*
|
表橫向連接
|
明=日*月
|
/
|
表縱向連接
|
音=立/日
|
@
|
表包含
|
因=囗@大 或 閒=門@月
|
-
|
表去掉某部份
|
青=請-言
|
-+
|
若前後配合,表示去掉某部份,
而改以另一部份代替
|
閒=間-日+月
|
?
|
表字根特別,尚未找到足以表示者
|
背=(?*匕)/月
|
()
|
為運算分隔符號
|
繞=組-且+((土/(土*土))/兀)
|
[]
|
為文字分隔符號
|
羅[目*侯]羅母耶輸陀羅比丘尼
|
上述兩種組字規則,前者多為政府機關單位與中央研究院院內開發之資料庫 所採用,是台灣發展最早之構形系統;後者則為中華電子佛典協會獨用,它簡化了漢字構形之複雜度,協助繕打人員輕鬆組織缺字。此外,政府也研發一套國家標準中文交換碼方案,並由行政院主計處電子處理資料中心建置「CNS11643中文標準交換碼全字庫」(http://www.cns11643.gov.tw/AIDB/welcome.do),以解決個人電腦中文字數不足與自行造字問題,不過,除政府機關與戶政單位採用此系統外,一般民間乏人問津。
(五) 通用標記語言
標記 (Mark up),是在稿件或文章上加上的記號,以記錄各種不同的資訊,也便於用計算機作後續的處理。為避免自創造標記系統影響資料交換之互通性,國際間很早就開始建立通用的國際標準。西元 1986 年,發明了最早的標記語言 SGML(Standard Generalized Markup Language,標準通用標記語言),它定義了如何描述一組標記標籤 (tag) 的規則。但由於它相當的複雜,因此應用並不十分普遍。其次是紅遍半邊天的 HTML(Hypertext Markup Language,超文字標記語言),HTML 是 SGML 的一種應用,以其簡單易用的語法隨著網際網路的興起而盛行,世界各地不同語言、文化、電腦作業平台之間,得以藉由HTML這個標準的共通語言相互溝通,地球村的資訊交流達到前所未有的迅速與廣度。
然而 HTML 的缺點─正是它的優點─也漸漸的浮現,HTML 不再能滿足網際網路上許多新興的需求。SGML 夠強卻太複雜,HTML 夠簡單卻不夠強大,於是標記語言的專家又為設計了一套既強大、又不太難、且適用於網際網路的標記語言─ XML(eXtensible Markup Language,可延伸性標示語言)。
標記主要可應用於兩類,一類是關於「排版或顯示格式」的標記,另一類則是關於「資料結構或內容」的標記。例如最為大眾熟悉之標記語言 HTML(Hypertext Markup Language),可能會有如下的用法:
佛教資料電子化技術探討-以< b >中華電子佛典協會< /b >為例。
在這裡,< b >……< /b > 表示「中華電子佛典協會」這些字要加粗體字 (bold)顯示,這是第一類關於「格式」的標記。而關於「內容」的標記,可能為如下用法:
史記
< byline type="Author">司馬遷< /byline >
這裡的< byline >……</ byline >標出史記之作者(author)司馬遷。這種將「顯示格式」與「內容」分離的做法,能讓電腦「看懂」經文。
有了共同的標記語言XML,標記格式如出一轍,可用同樣的標記語言、標記格式來定義各自不同的標籤名稱,例如要標出一個段落,可以有如下數種不同的標法:
1. < p >……< /p >
2. < para >……< /para >
3. < 段落 >……< /段落 >
這些都是符合XML標準的標記,但在資訊交換上將會造成問題,需要增加一道標記轉換的手續。如果能有共同且統一規格之標籤名稱,這個問題就可以解決。
除此之外,早在 SGML 時代就有一個 TEI(Text Encoding Initiative,文件符碼化)專案,研究各種不同西方文獻,整理出一套標籤集 (Tag Set),希望獲得各方採用而促進電子文獻的分享交流。由於 TEI 的標籤集是根據文獻所歸納制訂,與 SGML、HTML、或是 XML 相比,忠實反應了文獻的內容與架構,例如完整書目資訊、文獻及其來源之關係和版本、使用語言等,都有特定之標籤,足以滿足文獻標記之需求。本文將於第伍章─後設資料建置,概述 TEI 之基本介紹與操作守則。
莊德明,〈漢字缺字處理與梵巴藏字母的輸入〉,《佛教圖書館館訊》,第十四期,1998 年 6 月。
周邦信,〈標記語言的應用〉,《佛教圖書館館訊》,第二十四期,2000年12月。