佛典數位典藏內容開發之研究與建構 數位化工作流程簡介
Tags: TEI, 影像, 搜尋, 數位化工作流程, 文書, 檔案, 資料庫 發表: 2009-11-16, 點閱: 5,300 , 加入收藏櫃 , 列印 , 轉寄
計畫單位:法鼓佛教研修學院執行/中華電子佛典協會協辦
計畫名稱:台北版電子佛典集成之研究與建構
國科會數位典藏國家型科技計畫——「台北版電子佛典集成之研究與建構」(以下簡稱「台北版電子佛典計畫」)以國科會數位典藏內容開發補助專案「佛典數位典藏內容開發之研究與建構–經錄與經文內容標記與知識架構」(以下簡稱「佛典經錄計畫」)為前期計畫,工作團隊具有建立數位佛典經錄資料庫的經驗與能力,以及全面性整理歷代經錄之研究基礎。在此基礎上,採用合作單位「中華電子佛典協會」(Chinese Buddhist Electronic Text Association,簡稱CBETA) 累積多年經驗開發出的數位化工作流程,進行佛典數位化工作,以建立一部包羅並超越歷代大藏經內容的電子大藏經為目標。
CBETA於1998年2月15日正式成立,十年間陸續取得日本「大藏出版株式會社」與「株式會社國書刊行會」授權,進行《大正新脩大藏經》(以下簡稱《大正藏》)和《卍新纂續藏經》(以下簡稱《卍續藏》)之數位化工作。第一期《大正藏》數位化計畫由美國的『北美印順導師基金會』贊助,第二期《卍續藏》數位化計畫則由新加坡的居士贊助。十年中CBETA工作團隊累積了豐富的經驗,開發出兼具效率和品質之數位化工作流程。然而卻因CBTEA第三期計畫未徵得固定的長期贊助者,面臨有人才卻無經費進行後續數位化工作的困境。
因此自2007年9月開始,「台北版電子佛典計畫」與CBETA工作團隊合作,借重CBETA工作團隊的多年經驗,進行未收錄於《大正藏》和《卍續藏》之經典的數位化工作。CBETA工作團隊具有豐富的佛典數位化經驗,「台北版電子佛典計畫」工作團隊則有先前進行「佛典經錄計畫」奠定的基礎,兩者的合作具有相輔相成的作用。結合CBETA和「台北版電子佛典計畫」之數位化成果,「台北版電子佛典集成」資料庫將包羅歷代大藏經收錄之中國佛教經典與著述,而「佛典經錄計畫」的成果亦將使「台北版電子佛典集成」資料庫在分類編排上超越歷代大藏經。
今以CBTEA開發之電子佛典作業為例,說明「台北版電子佛典計畫」的數位化工作流程如下:
數位化工作流程說明
執行者:工作組主委、總幹事
CBETA以「佛典集成」為目標,故前期作業以「大藏出版株式會社」授與協會使用之《大正藏》 (圖一)為底本,擇其中與漢傳佛教較為相關之第一冊至第五十五冊以及第八十五冊,主要內容有歷代漢譯之〈印度撰述部〉與中國祖師著述之〈中國撰述部〉,共五十六冊,進行藏經電子化工作。數位化工作長達三年,已全數完成。
圖一、《大正新脩大藏經》
繼《大正藏》後進行數位化之藏經為《卍續藏》(圖二),已於2007年全數完成上線,現正進行《嘉興大藏經》(以下簡稱《嘉興藏》)之數位化工作。未來將持續搜尋其他漢文佛典之遺珍,納入數位化工作,以達「佛典集成」之效。
圖二、《卍續藏》
選定《大正藏》乃因其為國際上佛學研究之權威版本,現成電子檔與相關資源較多;《卍續藏》有極為豐富的中國祖師大德著述,深具價值;加以《大正》與《卍續》兩藏皆為鉛字排版,較適合輸入作業的進行;若集兩藏,重要的漢文佛典幾乎囊括大部份(圖三),此乃CBETA選定材料之優先原則。
圖三、《大正藏》與《卍續藏》之關係圖
而如同圖三所示,在《大正藏》和《卍續藏》之外,仍有漢文佛典遺珍分散於其它藏經中,《嘉興藏》便是其中一部。儘管《嘉興藏》並非鉛字排版,但其收錄大量未收錄於前兩藏之明清漢文佛典,因此成為「台北版電子佛典計畫」首選之數位化材料。
執行者:工作組研發組正、副組長與輸校組正、副組長
為確保數位化前後環節銜接順暢,各項流程需制定作業規範以利工作遵循。這些規範來自經驗累積,且以最終目標——「XML標記」為考量。本計畫針對幾項數位化重要作業:輸入、校對、缺字、簡單標記、XML標記等,皆制定詳盡之作業規範。
(一)輸入
輸入規範包括對本文、本文以外之符號標誌,以及圖片、表格等等狀況提出規定,例如一般本文、夾注小字、段落,本文以外之頁碼、欄位、校勘符號,或是空白字元、空白行、表格、圖形、缺字……等。
(二)校對
計畫採用「檔案比對」程式進行校驗,因此校對規範著重於比對前之格式化準備,以及程式之使用方式與程序。
(三)缺字
經文中常可見非現行使用之古漢字或異體字、符號等,為一般BIG5(大五碼)系統無法辨識,故需建立一套缺字處理辦法,例如組字式規範,及以缺字資料表記錄缺字。
(四)簡單標記
簡單標記規範經文之經號、經名、作者、標題、段落…等之文字屬性。以簡單符號記錄,較 XML標記容易上手。
(五)XML標記
該計畫使用XML做為佛典電子檔的標記語言,並採用國際規範TEI(Text Encoding and Interchange)做為基礎標籤集,再依實務標記作業經驗,修訂或新增標籤,建立適用於漢文電子佛典的標籤集。
執行者:早期自製,現委外執行。
掃描需將藏經原書或原書之影本拆卷,裁切騎縫邊,以散裝方式進行掃描。掃描要點如下:
1. 掃描。
2. 抽樣查看掃描品質——有無線條或歪斜不清者。
3. 掃描完畢後,就奇數頁與偶數頁檢查有無漏頁。
4. 編頁碼——先編奇數頁後編偶數頁,然後合併。
5. 抽樣檢查頁數正確與否。
6. 轉檔。
7. 燒錄。
8. 燒錄完成後,瀏覽檔案,若有缺漏或無法開啟的檔,加以修改或補齊。
9. 歸檔。
10. 清潔掃描器。
早期使用具備「自動送紙功能」與「自動編號存檔」之掃描器,可一次自動掃存五十頁,程式能依冊、號編名存檔。後再以圖形處理軟體快速瀏覽圖檔以檢查掃描狀況。現因人成本效益考量,委託外部廠商執行,成本約每頁一‧五元。掃描產生之圖檔(圖四)需先設為較高階影像:解析度300dpi,色彩模式灰階或黑白,以供日後依不同目的降階應用。而該計畫之圖檔用途,一供「OCR辨識」使用,二備為「看圖校對」查看,故再將圖檔由300dpi灰階 轉成Tif-g4黑白格式,檔案既小,畫質又清晰。
圖四、原書掃描之圖檔
對於大量佛典經文的輸入,應針對不同內容,選擇採用人工輸入或是掃描圖檔辨識的方法來產生文字檔。該計畫之輸入方法有三種,分別為收集現成電子檔、人工輸入,以及OCR圖檔辨識。決策方式為:如一佛典已有現成電子檔,則該電子檔可供日後檔案比對使用;無電子檔又難以透過OCR辨識之文字,如手抄本與刻版經文,則採用人工輸入。不論使用何種輸入方式,一部經文至少需產生兩份電子檔。
(一)收集現成電子檔:
執行者:工作組網資組
早在計畫實行前,網路上已流傳許多對佛典有興趣之志工團體的輸入電子檔,或是其他佛教機構、學術單位研發之電子佛經。
現成電子檔之收集大都以流通較廣的經文為主,這些電子佛經(圖五)通常不符合計畫之規定格式(如需加註頁、欄資訊);故收集得來之檔案在檔案比對前,還需經過格式化之後續處理。
圖五、《大正藏》之現成電子經文
(二)人工輸入:
執行者:委外執行
無法使用OCR辨識軟體辨識之佛經,委外交由專業承包公司進行人工繕打。
委外之前,必須事先制定輸入規範,將之交與廠商人員比照辦理。人工輸入產生之純文字電子檔,需包含頁、欄(圖六)資訊,以及依冊號順序命名之檔案名稱。人工輸入成本約每千字五十元。
圖六、委外人工輸入產出之電子檔
(三)OCR圖檔辨識:
執行者:工作組輸校組成員一人
1.去除雜點
經文書上常有異於文字之讀音符號與注釋標記(圖七),嚴重影響OCR辨識之判讀結果;故掃描後之經文圖檔,須先以程式去除雜點,產生一新TIF圖檔。
圖七、含讀音符號與雜點之原始掃描圖檔
2. OCR圖檔辨識
將去除雜點後之新圖檔,匯入丹青公司特別為該協會量身訂作之OCR程式(圖八)進行辨識,產出一份經文之「純文字檔」。
圖八、丹青OCR操作介面
該程式與一般辨識程式不同處在於「丹青for CBETA」可判讀經文特有之雙排小字。
3.字串取代
使用「常錯字串取代程式」,以正確字串快速批次取代OCR後可能之常錯字串(圖九),免除逐字校對之不便,約可提升純文字檔文字精確度至90%。
圖九、OCR常錯字串取代表
※進行至此,輸入步驟可能產生三種皆未格式化(未加行首資訊)之電子檔:
1). 網路收集之現成電子檔。
2). 委外人工繕打(包含頁欄資訊),正確率約為97%之電子檔。
3). OCR辨識後,正確率90%之電子檔。
執行者:工作組輸校成員四人與網路校對志工
校對程序包括「加行首資訊」、「網路人工校對」、「檔案比對」、「看圖校對」、「常錯字檢查」五項。前二項為第三項「檔案比對」之前置作業,須先妥善執行,後續之比對工作才能順利完成。
(一)加行首資訊
加行首資訊屬於格式化作業。行首資訊用於記錄每行電子經文在紙本經書上之相對位置,此舉不僅幫助後續之標記處理,也嘉惠學術引用之便。
將含有「頁欄資訊」之未格式化經文純文字檔匯入「加行首資訊程式」,執行後稍加編輯即可產生包括冊數、經號、頁、欄、行等資訊之新純文字檔。內容格式如下:
例: T10n0279_p0070a04║ 菩薩在家 當願眾生 知家性空
T10n0279_p0070a05║ 免其逼迫 孝事父母 當願眾生
T10n0279_p0070a06║ 善事於佛 護養一切 妻子集會
T:大正藏 10:冊數 n0279:經號
p007:頁 a04:a欄(第一欄)第4行 ║:分隔符號
經此步驟,所有純文字電子經文皆已格式化成CBETA所需格式,即可進行下階段之數位化工作。
(二)網路人工校對
OCR產出之電子經文純文字檔經字串取代後,正確率僅達90%。若將之與另一電子檔(如人工輸入檔)比對,勢必差異數量龐大,需動用大量人力方能完成校對程序。
CBETA有一「網路校對」機制,即於網路上徵集志工約九百人,投入線上一人一頁分工校對行列。線上校對程序為:
1. 上CBETA網站(http://www.cbeta.org/index.htm)申請登記。
2. 提領經文之純文字檔與圖檔。
3. 利用看圖校對程式對純文字檔進行逐字校對。
4. 回傳CBETA。
看圖校對程式係該協會之程式設計師開發設計,校對者可同時閱覽純文字檔與其相對之圖檔,達成看圖替代翻書之快速校閱。
網路校對後之OCR經文,正確率可提升為98%。
(三)檔案比對
傳統人工校對,即使四校或十校,總有無法避免的死角。該計畫利用電腦檔案比對,即同一份經文內容,由兩個版本予以輸入,然後以檔案比對程式找出兩者差異,再以看圖校對方式進行訂正,產生一份超越一般人工校對水準之經文檔。
首先,收集兩份同一經文但輸入來源不同之純文字電子檔。若有一頁一頁的小檔,可利用「檔案合併程式」,將兩檔各自所含小檔之純文字檔案合併成大檔,以利文書編輯處理及後續比對作業的進行。
將合併成大檔之兩檔匯入「檔案比對程式」(圖十),執行第一次兩檔比對。比對後產生一個主要差異檔。以《大正藏》而言,平均每冊約產生兩萬個差異。
圖十、檔案比對程式
(四)看圖校對
比對後之差異檔,交由兩位熟識經文之經驗人員各自利用SeeCheck「看圖校對程式」(圖十一),以差異檔比照原書掃描圖檔予以訂正。
圖十一、看圖校對程式介面
該兩位人員訂正後交回的兩份校對完成檔,再以程式執行第二次檔案比對,比對後會產生一數量較小之差異檔。將此差異檔交由一位人員進行最後把關,方法也是以差異檔比照原書掃描圖檔看圖校對。
(五)常錯字檢查
校對最後的工作重點是對於任何值得疑慮的字元,我們將之列入「常錯字參考表」(圖十二),並透過程式對檔案進行取代,形成差異以利用看圖方式來校對。這個概念是我們對看圖校對程式的充分應用,可以發揮事半功倍的效果。
圖十二、常錯字參考表
(一)簡單標記I
執行者:工作組輸校組成員兩人
標記,是針對已完成校對文件之進一步編輯作業。在進入正式XML標記之前,輸校組需對經文段落加上適當標記,成為「簡單標記版」的經文電子檔。
這一套簡單標記,目的是把經文當中 「經號 N」、「經卷 Jj」、「品D」、「著者 A」、「譯者 Y」、「序 X」、「偈頌Ss」、「咒語 Z」、「附文 W」、「段落 P」、「其它標題 Q」、「行中小段落 P」…等,以簡單符號標示區分出來,方便電腦認識經文各段落之不同屬性,並能加以進一步運用。簡單標記主要是在行首資訊後的三欄「_##」標記欄位置中標示出來(圖十三),或標記於經文中的「行首」、「行中」、「行尾」。
圖十三、第一次簡單標記產出之純文字檔
(二)簡單標記II
執行者:工作組輸校組組長
第二階段簡單標記之重點工作為「架構經文標題層次」(圖十四)。此自訂標記可讓電腦認識整篇經文之章節架構,如:
圖十四、經文之標題層次架構
執行者:工作組缺字組長
CBETA以「BIG5(大五碼)」加上「組字式」作為記錄缺字的基礎。
使用一般組字式來表達佛典缺字的方法,是考量使用者能在純文字環境下閱讀,不需另外安裝造字檔或圖檔而設計的,這種方式提供了閱覽、散播上的便利性,也不會佔用使用者對造字檔自行運用的空間。
該組字法含「*」、「/」、「@」、「-」、「+」、「?」六個半形基本符號,及「(…)」、「[…]」兩組半形分隔符號。
舉例說明如下:
表一、CBETA組字式規則
符號 |
說明 |
範例 |
* |
表橫向連接 |
明=日*月 |
/ |
表縱向連接 |
音=立/日 |
@ |
表包含 |
因=囗@大 或 閒=門@月 |
- |
表去掉某部份 |
青=請-言 |
-+ |
若前後配合,表示去掉某部份, |
閒=間-日+月 |
? |
表字根特別,尚未找到足以表示者 |
背=(?*匕)/月 |
() |
為運算分隔符號 |
繞=組-且+((土/(土*土))/兀) |
[] |
為文字分隔符號 |
羅[目*侯]羅母耶輸陀羅比丘尼 |
記錄缺字後,並將缺字相關資訊,包括注音、筆畫、部首、通用字、Unicode…等建構成漢文佛典缺字資料庫(圖十五)。
圖十五、缺字資料庫畫面
執行者:工作組標記成員兩人
經簡單標記、缺字處理後之經文,以程式(圖十六)將簡單標記經文(圖十七)轉為XML TEI標記經文(圖十八)。
圖十六、簡單標記轉換為XML標記之程式流程圖
圖十七、簡單標記經文
圖十八、XML TEI標記經文
之後仍需做語法檢查及人工編輯,最後以程式將XML版輸出與簡單標記版相互比對。
(一)成品光碟與網路服務
執行者:工作組網資組長
該計畫利用標記完成之經文,轉換成普及網路版放置網路上供大眾免費瀏覽、檢索與下載(圖十九);此外,CBETA每年發行一萬份電子佛典光碟(圖二十),光碟含有優異檢索及閱覽功能的 CBReader(圖二十一),提供免費索取,與大眾結緣。
圖十九、CBETA網站
圖二十、CBETA每年發行之光碟
圖二十一、優異檢索及閱覽功能的CBReader
(二)經文修訂
執行者:工作組輸校組長、標記成員兩人
儘管經文已上線、壓光碟,仍需不斷查證相關資料以確認讀者及內部作業發現之經文用字問題,並執行經文資料庫之修訂,包括簡單標記版(圖二十二)及XML版(圖二十三),兩者必須同步修訂;期望透過修訂,提升經文資料庫之品質。
圖二十二、簡單標記版修訂
圖二十三、XML版修訂
(三)應用發展
執行者:全體工作人員
除生產預定經文典籍外,CBETA也亟欲推廣與經文資料庫相關之應用及技術,例如漢字工具(圖二十四)、新式標點、通用詞庫、相關字(辭)典、藏經目錄資料庫、各版藏經經文對照資料庫…等。
圖二十四、漢字工具
※ 製作單位:數位典藏與數位學習國家型科技計畫
拓展臺灣數位典藏計畫 數位內容建置與整合子計畫
中華電子佛典協會
法鼓佛教研修學院
※ 文字修訂:法鼓佛教研修學院「台北版電子佛典計畫」陳以儒 修訂
拓展臺灣數位典藏計畫 數位內容建置與整合子計畫
─ 文獻與檔案主題小組助理 陳美智 修訂
※ 圖片拍攝:法鼓佛教研修學院「台北版電子佛典計畫」陳以儒 修訂
※ 圖片提供:法鼓佛教研修學院
※ 圖文編輯:法鼓佛教研修學院「台北版電子佛典計畫」陳以儒 修訂
致謝:
感謝「台北版電子佛典集成之研究與建構」計畫共同主持人杜正民老師、法鼓佛教研修學院陳以儒先生,撥冗指導及提供實地拍攝與簡介修訂。並感謝法鼓佛教研修學院其餘相關人員之協助。
數位典藏國家型科技計畫內容發展分項計畫數位典藏工作流程調查表
單位:國立臺北藝術大學 共同科
數位化物件名稱:漢文大藏經經文
子計畫名稱:台北版電子佛典集成之研究與建構
分項計畫名稱:
主持人(負責人)(E-mail、Tel):郭敏芳(釋惠敏) huimin2525@gmail.com 02-2498-0707#2271
聯絡人(E-mail、Tel):陳以儒 sraddhabala@gmail.com 02-2498-0707#2254
程序 |
工作內容 |
操作人員(數量、專業能力之要求) |
硬體(名稱、版本、價格) |
軟體(名稱、版本、價格等) |
依循標準(技術規範、成品規格、品質要求…等) |
耗時 |
總結(困難、缺失、特色…等) |
成本估算 |
備註 |
1 |
●選定材料 |
主委、總幹事 |
以「佛典集成」為目標 |
配合現藏目錄整理以得知待補足典籍 |
|||||
2 |
●製訂規範: |
研發組及輸校組正副組長 |
PC |
MS Office、漢書2000、UltraEdit |
以繁體中文BIG5為作業基礎。大體保持原書用字及版面格式,並方便程式進行文字處理。 |
規範不是一開始就齊備的,必須從工作經驗中不斷累積、修正。不可過於拘泥書版格式,須配合電子化特性及考量作業方便。 |
|||
3 |
●原書掃瞄 |
委外或 輸校人員一人 |
PC、Scaner |
掃瞄器附帶軟體 |
300dpi 灰階 or 黑白。最後轉成 Tif-g4 黑白格式做為作業運用材料。 |
有了掃瞄圖,可以少買幾套書。另個重點是,後續作業依靠掃瞄圖的機會很多,包括一般查閱以及程式運用。 |
1.5元/頁 |
||
4-1 |
●輸入一: |
網資組 |
PC |
主要是由各友好單位及個人提供,少部份是上網搜尋取得。不同編碼或編輯格式皆可,後續由程式統一轉化處理。 |
缺字處理方法不一致。根據的輸入底本不一定是我們所要使用的底本。因此事後的消化整理要花一些功夫。 |
||||
4-2 |
●輸入二: |
委外 |
PC |
按輸入規範作業。若同時輸入兩份電子檔,必須分找不同輸入單位,以免互拷檔案。 |
按輸入材料狀況決定人工輸入 or OCR。為配合檔案比對至少必須產生兩份電子檔。最常遇到的困難是原文不清或缺字太多。另外,雕版藏經用字異體化嚴重,若不予以規範勢必窒礙難行。 |
50元/千字 |
|||
4-3 |
●輸入三: |
輸校成員一人 |
PC |
漢書2000、丹青OCR、自行研發的各種工具軟體 |
善用OCR軟體,不做線上逐字校對,利用「取出表」快速進行字串取代。 |
||||
5 |
●校對: |
輸校成員四人 |
PC |
漢書2000、自行研發的各種工具軟體 |
同一經文由兩個人同時執行校對,校對完畢再予以比對除錯,以求得更高精確度。 |
以檔案比對為主,人工校對(網路志工)為輔。校對理想標準為錯誤率1/10000 以下。 |
|||
6 |
●簡單標記Ⅰ |
輸校成員兩人 |
PC |
漢書2000、PERL、自行研發的各種工具軟體 |
按「簡單標記規範」對經文段落加上第一階段標記 |
加上第一階段自訂標記,讓電腦認識經文各個段落的基本不同屬性。 |
|||
7 |
●簡單標記Ⅱ |
輸校組長 |
PC |
架構經文標題層次,以及加入諸如「問答」、「原文解釋」、「辭書」等特殊標記。 |
決定經文在瀏覽時的樹狀目錄,以及深化標記內涵。 |
||||
8 |
●缺字處理 |
缺字組、網路查詢志工 |
PC |
漢書2000、MS Access、Paint Shop pro、IrfanView |
處理新增缺字及維護缺字資料庫。 |
建立缺字相關資訊,包括注音、筆畫、部首、通用字、Unicode等,並吸取BIG5系統字資料,以期建立完整的文字資料庫。 |
|||
9 |
●XML 標記 |
研發組、標記成員兩人 |
PC |
UltraEdit、PERL、WinCvs、 SP、 Python、MS Office |
Big5, CP950, Unicode, XML, TEI. 利用程式將 簡單標記 轉為 XML 標記。 |
以符合國際標準的XML語言建立經文資料庫。舉凡經文排版呈現、目錄架構、檢索….,都可做出有效運用。 |
|||
10 |
●成品光碟及網路服務 |
網資組長 |
PC |
Borland C++ Builder、UltraEdit、 MS Office |
提供 CBReader 讀經器,以及 normal、app、xml 等各種版本經文,並為使用者解決使用上的問題。 |
每年發行一萬份光碟免費與大眾結緣。網站提供經文檢索及經文下載服務。 |
|||
11 |
●經文修訂 |
輸校組長、 |
PC |
UltraEdit、MS Office、自行研發的各種工具軟體 |
查證相關資料以確定讀者及內部作業所發現的經文用字問題,並執行經文資料庫修訂。 |
透過不斷修訂,經文資料庫的品質越來越好。 |
|||
12 |
●應用發展、推廣 |
全體 |
PC |
漢字庫、新式標點、通用詞庫、辭書、藏經目錄資料庫、各版藏經經文對照…. |
除了生產預定經文典籍外,與經文資料庫相關的應用軟體也是非常重要的。 |
註:若程序多於七個,請複製本表使用
調查人:陳以儒
調查地點:法鼓佛教研修學院、中華電子佛典協會
調查日期:2007/12
全文下載 (1.1 MB, 1,426 hits)