- 拓展台灣數位典藏 - http://content.teldap.tw/index -

Posted By 呈晏 On 十二月 24, 2008 @ 10:27 am In 數位化書籍 | 1 Comment

佛典數位典藏內容開發之研究與建構

數位化工作流程簡介

修訂日期:97.04.15

計畫單位:法鼓佛教研修學院執行/中華電子佛典協會協辦

計畫名稱:台北版電子佛典集成之研究與建構

計畫簡介:

  國科會數位典藏國家型科技計畫——「台北版電子佛典集成之研究與建構」(以下簡稱「台北版電子佛典計畫」)以國科會數位典藏內容開發補助專案「佛典數位典藏內容開發之研究與建構–經錄與經文內容標記與知識架構」(以下簡稱「佛典經錄計畫」)為前期計畫,工作團隊具有建立數位佛典經錄資料庫的經驗與能力,以及全面性整理歷代經錄之研究基礎。在此基礎上,採用合作單位「中華電子佛典協會」(Chinese Buddhist Electronic Text Association,簡稱CBETA) 累積多年經驗開發出的數位化工作流程,進行佛典數位化工作,以建立一部包羅並超越歷代大藏經內容的電子大藏經為目標。

 

  CBETA於1998年2月15日正式成立,十年間陸續取得日本「大藏出版株式會社」與「株式會社國書刊行會」授權,進行《大正新脩大藏經》(以下簡稱《大正藏》)和《卍新纂續藏經》(以下簡稱《卍續藏》)之數位化工作。第一期《大正藏》數位化計畫由美國的『北美印順導師基金會』贊助,第二期《卍續藏》數位化計畫則由新加坡的居士贊助。十年中CBETA工作團隊累積了豐富的經驗,開發出兼具效率和品質之數位化工作流程。然而卻因CBTEA第三期計畫未徵得固定的長期贊助者,面臨有人才卻無經費進行後續數位化工作的困境。

 

  因此自2007年9月開始,「台北版電子佛典計畫」與CBETA工作團隊合作,借重CBETA工作團隊的多年經驗,進行未收錄於《大正藏》和《卍續藏》之經典的數位化工作。CBETA工作團隊具有豐富的佛典數位化經驗,「台北版電子佛典計畫」工作團隊則有先前進行「佛典經錄計畫」奠定的基礎,兩者的合作具有相輔相成的作用。結合CBETA和「台北版電子佛典計畫」之數位化成果,「台北版電子佛典集成」資料庫將包羅歷代大藏經收錄之中國佛教經典與著述,而「佛典經錄計畫」的成果亦將使「台北版電子佛典集成」資料庫在分類編排上超越歷代大藏經。

 

今以CBTEA開發之電子佛典作業為例,說明「台北版電子佛典計畫」的數位化工作流程如下:

CBETA經文數位化工作流程圖

 

  程序          決策             終端           運行方向

 

 

數位化工作流程說明

一、選定材料

執行者:工作組主委、總幹事

CBETA以「佛典集成」為目標,故前期作業以「大藏出版株式會社」授與協會使用之《大正藏》 (圖一)為底本,擇其中與漢傳佛教較為相關之第一冊至第五十五冊以及第八十五冊,主要內容有歷代漢譯之〈印度撰述部〉與中國祖師著述之〈中國撰述部〉,共五十六冊,進行藏經電子化工作。數位化工作長達三年,已全數完成。

圖一、《大正新脩大藏經》

繼《大正藏》後進行數位化之藏經為《卍續藏》(圖二),已於2007年全數完成上線,現正進行《嘉興大藏經》(以下簡稱《嘉興藏》)之數位化工作。未來將持續搜尋其他漢文佛典之遺珍,納入數位化工作,以達「佛典集成」之效。

圖二、《卍續藏》

選定《大正藏》乃因其為國際上佛學研究之權威版本,現成電子檔與相關資源較多;《卍續藏》有極為豐富的中國祖師大德著述,深具價值;加以《大正》與《卍續》兩藏皆為鉛字排版,較適合輸入作業的進行;若集兩藏,重要的漢文佛典幾乎囊括大部份(圖三),此乃CBETA選定材料之優先原則。

圖三、《大正藏》與《卍續藏》之關係圖

而如同圖三所示,在《大正藏》和《卍續藏》之外,仍有漢文佛典遺珍分散於其它藏經中,《嘉興藏》便是其中一部。儘管《嘉興藏》並非鉛字排版,但其收錄大量未收錄於前兩藏之明清漢文佛典,因此成為「台北版電子佛典計畫」首選之數位化材料。

二、制定規範

執行者:工作組研發組正、副組長與輸校組正、副組長

為確保數位化前後環節銜接順暢,各項流程需制定作業規範以利工作遵循。這些規範來自經驗累積,且以最終目標——「XML標記」為考量。本計畫針對幾項數位化重要作業:輸入、校對、缺字、簡單標記、XML標記等,皆制定詳盡之作業規範。

(一)輸入

輸入規範包括對本文、本文以外之符號標誌,以及圖片、表格等等狀況提出規定,例如一般本文、夾注小字、段落,本文以外之頁碼、欄位、校勘符號,或是空白字元、空白行、表格、圖形、缺字……等。

(二)校對

計畫採用「檔案比對」程式進行校驗,因此校對規範著重於比對前之格式化準備,以及程式之使用方式與程序。

(三)缺字

經文中常可見非現行使用之古漢字或異體字、符號等,為一般BIG5(大五碼)系統無法辨識,故需建立一套缺字處理辦法,例如組字式規範,及以缺字資料表記錄缺字。

(四)簡單標記

簡單標記規範經文之經號、經名、作者、標題、段落…等之文字屬性。以簡單符號記錄,較 XML標記容易上手。

(五)XML標記

該計畫使用XML做為佛典電子檔的標記語言,並採用國際規範TEI(Text Encoding and Interchange)做為基礎標籤集,再依實務標記作業經驗,修訂或新增標籤,建立適用於漢文電子佛典的標籤集。

三、原書掃描

執行者:早期自製,現委外執行。

掃描需將藏經原書或原書之影本拆卷,裁切騎縫邊,以散裝方式進行掃描。掃描要點如下:

1. 掃描。

2. 抽樣查看掃描品質——有無線條或歪斜不清者。

3. 掃描完畢後,就奇數頁與偶數頁檢查有無漏頁。

4. 編頁碼——先編奇數頁後編偶數頁,然後合併。

5. 抽樣檢查頁數正確與否。

6. 轉檔。

7. 燒錄。

8. 燒錄完成後,瀏覽檔案,若有缺漏或無法開啟的檔,加以修改或補齊。

9. 歸檔。

10. 清潔掃描器。

早期使用具備「自動送紙功能」與「自動編號存檔」之掃描器,可一次自動掃存五十頁,程式能依冊、號編名存檔。後再以圖形處理軟體快速瀏覽圖檔以檢查掃描狀況。現因人成本效益考量,委託外部廠商執行,成本約每頁一‧五元。

掃描產生之圖檔(圖四)需先設為較高階影像:解析度300dpi,色彩模式灰階或黑白,以供日後依不同目的降階應用。而該計畫之圖檔用途,一供「OCR辨識」使用,二備為「看圖校對」查看,故再將圖檔由300dpi灰階 轉成Tif-g4黑白格式,檔案既小,畫質又清晰。

圖四、原書掃描之圖檔

四、輸入

對於大量佛典經文的輸入,應針對不同內容,選擇採用人工輸入或是掃描圖檔辨識的方法來產生文字檔。

該計畫之輸入方法有三種,分別為收集現成電子檔、人工輸入,以及OCR圖檔辨識。決策方式為:如一佛典已有現成電子檔,則該電子檔可供日後檔案比對使用;無電子檔又難以透過OCR辨識之文字,如手抄本與刻版經文,則採用人工輸入。

不論使用何種輸入方式,一部經文至少需產生兩份電子檔。

(一)收集現成電子檔:

執行者:工作組網資組

早在計畫實行前,網路上已流傳許多對佛典有興趣之志工團體的輸入電子檔,或是其他佛教機構、學術單位研發之電子佛經。

現成電子檔之收集大都以流通較廣的經文為主,這些電子佛經(圖五)通常不符合計畫之規定格式(如需加註頁、欄資訊);故收集得來之檔案在檔案比對前,還需經過格式化之後續處理。

圖五、《大正藏》之現成電子經文

(二)人工輸入:

執行者:委外執行

無法使用OCR辨識軟體辨識之佛經,委外交由專業承包公司進行人工繕打。

委外之前,必須事先制定輸入規範,將之交與廠商人員比照辦理。人工輸入產生之純文字電子檔,需包含頁、欄(圖六)資訊,以及依冊號順序命名之檔案名稱。人工輸入成本約每千字五十元。

圖六、委外人工輸入產出之電子檔

(三)OCR圖檔辨識:

執行者:工作組輸校組成員一人

1.去除雜點

經文書上常有異於文字之讀音符號與注釋標記(圖七),嚴重影響OCR辨識之判讀結果;故掃描後之經文圖檔,須先以程式去除雜點,產生一新TIF圖檔。

圖七、含讀音符號與雜點之原始掃描圖檔

2. OCR圖檔辨識

將去除雜點後之新圖檔,匯入丹青公司特別為該協會量身訂作之OCR程式(圖八)進行辨識,產出一份經文之「純文字檔」。

圖八、丹青OCR操作介面

該程式與一般辨識程式不同處在於「丹青for CBETA」可判讀經文特有之雙排小字。

3.字串取代

使用「常錯字串取代程式」,以正確字串快速批次取代OCR後可能之常錯字串(圖九),免除逐字校對之不便,約可提升純文字檔文字精確度至90%。

圖九、OCR常錯字串取代表

※進行至此,輸入步驟可能產生三種皆未格式化(未加行首資訊)之電子檔:

1). 網路收集之現成電子檔。

2). 委外人工繕打(包含頁欄資訊),正確率約為97%之電子檔。

3). OCR辨識後,正確率90%之電子檔。

五、校對

執行者:工作組輸校成員四人與網路校對志工

校對程序包括「加行首資訊」、「網路人工校對」、「檔案比對」、「看圖校對」、「常錯字檢查」五項。前二項為第三項「檔案比對」之前置作業,須先妥善執行,後續之比對工作才能順利完成。

(一)加行首資訊

加行首資訊屬於格式化作業。行首資訊用於記錄每行電子經文在紙本經書上之相對位置,此舉不僅幫助後續之標記處理,也嘉惠學術引用之便。

將含有「頁欄資訊」之未格式化經文純文字檔匯入「加行首資訊程式」,執行後稍加編輯即可產生包括冊數、經號、頁、欄、行等資訊之新純文字檔。內容格式如下:

例: T10n0279_p0070a04║ 菩薩在家  當願眾生  知家性空

            T10n0279_p0070a05║ 免其逼迫  孝事父母  當願眾生

         T10n0279_p0070a06║ 善事於佛  護養一切  妻子集會

            T:大正藏          10:冊數                                          n0279:經號

             p007:頁         a04:a欄(第一欄)第4行                ║:分隔符號

經此步驟,所有純文字電子經文皆已格式化成CBETA所需格式,即可進行下階段之數位化工作。

(二)網路人工校對

OCR產出之電子經文純文字檔經字串取代後,正確率僅達90%。若將之與另一電子檔(如人工輸入檔)比對,勢必差異數量龐大,需動用大量人力方能完成校對程序。

CBETA有一「網路校對」機制,即於網路上徵集志工約九百人,投入線上一人一頁分工校對行列。線上校對程序為:

1. 上CBETA網站(http://www.cbeta.org/index.htm)申請登記。

2. 提領經文之純文字檔與圖檔。

3. 利用看圖校對程式對純文字檔進行逐字校對。

4. 回傳CBETA。

看圖校對程式係該協會之程式設計師開發設計,校對者可同時閱覽純文字檔與其相對之圖檔,達成看圖替代翻書之快速校閱。

網路校對後之OCR經文,正確率可提升為98%。

(三)檔案比對

傳統人工校對,即使四校或十校,總有無法避免的死角。該計畫利用電腦檔案比對,即同一份經文內容,由兩個版本予以輸入,然後以檔案比對程式找出兩者差異,再以看圖校對方式進行訂正,產生一份超越一般人工校對水準之經文檔。

首先,收集兩份同一經文但輸入來源不同之純文字電子檔。若有一頁一頁的小檔,可利用「檔案合併程式」,將兩檔各自所含小檔之純文字檔案合併成大檔,以利文書編輯處理及後續比對作業的進行。

將合併成大檔之兩檔匯入「檔案比對程式」(圖十),執行第一次兩檔比對。比對後產生一個主要差異檔。以《大正藏》而言,平均每冊約產生兩萬個差異。

圖十、檔案比對程式

(四)看圖校對

比對後之差異檔,交由兩位熟識經文之經驗人員各自利用SeeCheck「看圖校對程式」(圖十一),以差異檔比照原書掃描圖檔予以訂正。

圖十一、看圖校對程式介面

該兩位人員訂正後交回的兩份校對完成檔,再以程式執行第二次檔案比對,比對後會產生一數量較小之差異檔。將此差異檔交由一位人員進行最後把關,方法也是以差異檔比照原書掃描圖檔看圖校對。

(五)常錯字檢查

校對最後的工作重點是對於任何值得疑慮的字元,我們將之列入「常錯字參考表」(圖十二),並透過程式對檔案進行取代,形成差異以利用看圖方式來校對。這個概念是我們對看圖校對程式的充分應用,可以發揮事半功倍的效果。

圖十二、常錯字參考表

六、標記

(一)簡單標記I

執行者:工作組輸校組成員兩人

標記,是針對已完成校對文件之進一步編輯作業。在進入正式XML標記之前,輸校組需對經文段落加上適當標記,成為「簡單標記版」的經文電子檔。

這一套簡單標記,目的是把經文當中 「經號 N」、「經卷 Jj」、「品D」、「著者 A」、「譯者 Y」、「序 X」、「偈頌Ss」、「咒語 Z」、「附文 W」、「段落 P」、「其它標題 Q」、「行中小段落 P」…等,以簡單符號標示區分出來,方便電腦認識經文各段落之不同屬性,並能加以進一步運用。簡單標記主要是在行首資訊後的三欄「_##」標記欄位置中標示出來(圖十三),或標記於經文中的「行首」、「行中」、「行尾」。

圖十三、第一次簡單標記產出之純文字檔

(二)簡單標記II

執行者:工作組輸校組組長

第二階段簡單標記之重點工作為「架構經文標題層次」(圖十四)。此自訂標記可讓電腦認識整篇經文之章節架構,如:

圖十四、經文之標題層次架構

七、缺字處理

執行者:工作組缺字組長

CBETA以「BIG5(大五碼)」加上「組字式」作為記錄缺字的基礎。

使用一般組字式來表達佛典缺字的方法,是考量使用者能在純文字環境下閱讀,不需另外安裝造字檔或圖檔而設計的,這種方式提供了閱覽、散播上的便利性,也不會佔用使用者對造字檔自行運用的空間。

該組字法含「*」、「/」、「@」、「-」、「+」、「?」六個半形基本符號,及「(…)」、「[…]」兩組半形分隔符號。

舉例說明如下:

符號

說明

範例

*

表橫向連接 明=日*月

/

表縱向連接 音=立/日

@

表包含 因=囗@大 或 閒=門@月

-

表去掉某部份 青=請-言

-+

若前後配合,表示去掉某部份,
而改以另一部份代替
閒=間-日+月

?

表字根特別,尚未找到足以表示者 背=(?*匕)/月

()

為運算分隔符號 繞=組-且+((土/(土*土))/兀)

[]

為文字分隔符號 羅[目*侯]羅母耶輸陀羅比丘尼

表一、CBETA組字式規則

記錄缺字後,並將缺字相關資訊,包括注音、筆畫、部首、通用字、Unicode…等建構成漢文佛典缺字資料庫(圖十五)。

圖十五、缺字資料庫畫面

八、XML標記

執行者:工作組標記成員兩人

經簡單標記、缺字處理後之經文,以程式(圖十六)將簡單標記經文(圖十七)轉為XML TEI標記經文(圖十八)。

 

圖十六、簡單標記轉換為XML標記之程式流程圖

 

圖十七、簡單標記經文

圖十八、XML TEI標記經文

之後仍需做語法檢查及人工編輯,最後以程式將XML版輸出與簡單標記版相互比對。

九、應用服務

(一)成品光碟與網路服務

執行者:工作組網資組長

該計畫利用標記完成之經文,轉換成普及網路版放置網路上供大眾免費瀏覽、檢索與下載(圖十九);此外,CBETA每年發行一萬份電子佛典光碟(圖二十),光碟含有優異檢索及閱覽功能的 CBReader(圖二十一),提供免費索取,與大眾結緣。

圖十九、CBETA網站

圖二十、CBETA每年發行之光碟

圖二十一、優異檢索及閱覽功能的CBReader

(二)經文修訂

執行者:工作組輸校組長、標記成員兩人

儘管經文已上線、壓光碟,仍需不斷查證相關資料以確認讀者及內部作業發現之經文用字問題,並執行經文資料庫之修訂,包括簡單標記版(圖二十二)及XML版(圖二十三),兩者必須同步修訂;期望透過修訂,提升經文資料庫之品質。

圖二十二、簡單標記版修訂

圖二十三、XML版修訂

(三)應用發展

執行者:全體工作人員

除生產預定經文典籍外,CBETA也亟欲推廣與經文資料庫相關之應用及技術,例如漢字工具(圖二十四)、新式標點、通用詞庫、相關字(辭)典、藏經目錄資料庫、各版藏經經文對照資料庫…等。

圖二十四、漢字工具

製作單位:數位典藏與數位學習國家型科技計畫

拓展臺灣數位典藏計畫 數位內容建置與整合子計畫

中華電子佛典協會

法鼓佛教研修學院

文字修訂:法鼓佛教研修學院「台北版電子佛典計畫」陳以儒 修訂

拓展臺灣數位典藏計畫 數位內容建置與整合子計畫

─ 文獻與檔案主題小組助理 陳美智 修訂

圖片拍攝:法鼓佛教研修學院「台北版電子佛典計畫」陳以儒 修訂

圖片提供:法鼓佛教研修學院

圖文編輯:法鼓佛教研修學院「台北版電子佛典計畫」陳以儒 修訂

致謝:

感謝「台北版電子佛典集成之研究與建構」計畫共同主持人杜正民老師、法鼓佛教研修學院陳以儒先生,撥冗指導及提供實地拍攝與簡介修訂。並感謝法鼓佛教研修學院其餘相關人員之協助。

 


Article printed from 拓展台灣數位典藏: http://content.teldap.tw/index

URL to article: http://content.teldap.tw/index/?p=910