台北版電子佛典集成之研究與建構圖文說明
Tags: none 發表: 2008-12-24, 點閱: 16,243 , 加入收藏櫃 , 列印 , 轉寄五、校對
執行者:工作組輸校成員四人與網路校對志工
校對程序包括「加行首資訊」、「網路人工校對」、「檔案比對」、「看圖校對」、「常錯字檢查」五項。前二項為第三項「檔案比對」之前置作業,須先妥善執行,後續之比對工作才能順利完成。
(一)加行首資訊
加行首資訊屬於格式化作業。行首資訊用於記錄每行電子經文在紙本經書上之相對位置,此舉不僅幫助後續之標記處理,也嘉惠學術引用之便。
將含有「頁欄資訊」之未格式化經文純文字檔匯入「加行首資訊程式」,執行後稍加編輯即可產生包括冊數、經號、頁、欄、行等資訊之新純文字檔。內容格式如下:
例: T10n0279_p0070a04║ 菩薩在家 當願眾生 知家性空
T10n0279_p0070a05║ 免其逼迫 孝事父母 當願眾生
T10n0279_p0070a06║ 善事於佛 護養一切 妻子集會
T:大正藏 10:冊數 n0279:經號
p007:頁 a04:a欄(第一欄)第4行 ║:分隔符號
經此步驟,所有純文字電子經文皆已格式化成CBETA所需格式,即可進行下階段之數位化工作。
(二)網路人工校對
OCR產出之電子經文純文字檔經字串取代後,正確率僅達90%。若將之與另一電子檔(如人工輸入檔)比對,勢必差異數量龐大,需動用大量人力方能完成校對程序。
CBETA有一「網路校對」機制,即於網路上徵集志工約九百人,投入線上一人一頁分工校對行列。線上校對程序為:
1. 上CBETA網站(http://www.cbeta.org/index.htm)申請登記。
2. 提領經文之純文字檔與圖檔。
3. 利用看圖校對程式對純文字檔進行逐字校對。
4. 回傳CBETA。
看圖校對程式係該協會之程式設計師開發設計,校對者可同時閱覽純文字檔與其相對之圖檔,達成看圖替代翻書之快速校閱。
網路校對後之OCR經文,正確率可提升為98%。
(三)檔案比對
傳統人工校對,即使四校或十校,總有無法避免的死角。該計畫利用電腦檔案比對,即同一份經文內容,由兩個版本予以輸入,然後以檔案比對程式找出兩者差異,再以看圖校對方式進行訂正,產生一份超越一般人工校對水準之經文檔。
首先,收集兩份同一經文但輸入來源不同之純文字電子檔。若有一頁一頁的小檔,可利用「檔案合併程式」,將兩檔各自所含小檔之純文字檔案合併成大檔,以利文書編輯處理及後續比對作業的進行。
將合併成大檔之兩檔匯入「檔案比對程式」(圖十),執行第一次兩檔比對。比對後產生一個主要差異檔。以《大正藏》而言,平均每冊約產生兩萬個差異。
圖十、檔案比對程式
(四)看圖校對
比對後之差異檔,交由兩位熟識經文之經驗人員各自利用SeeCheck「看圖校對程式」(圖十一),以差異檔比照原書掃描圖檔予以訂正。
圖十一、看圖校對程式介面
該兩位人員訂正後交回的兩份校對完成檔,再以程式執行第二次檔案比對,比對後會產生一數量較小之差異檔。將此差異檔交由一位人員進行最後把關,方法也是以差異檔比照原書掃描圖檔看圖校對。
(五)常錯字檢查
校對最後的工作重點是對於任何值得疑慮的字元,我們將之列入「常錯字參考表」(圖十二),並透過程式對檔案進行取代,形成差異以利用看圖方式來校對。這個概念是我們對看圖校對程式的充分應用,可以發揮事半功倍的效果。
圖十二、常錯字參考表
CBETA經文數位化工作流程圖 (22.4 KB, 1,028 hits)
八月 4th, 2009 at 10:41 am
南無阿彌陀佛
共同 推廣 CBETA 電子佛典