1024x768 1280x800   Decrease font size for  - 拓展台灣數位典藏 - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 Reset to normal font size for  - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 - 拓展台灣數位典藏 Increase font size for  - 拓展台灣數位典藏
 


台北版電子佛典集成之研究與建構圖文說明

Tags: none 發表: 2008-12-24, 點閱: 15,290 , 加入收藏櫃 , 列印 列印 , 轉寄 轉寄

想加入的書籤: HemiDemi MyShare Baidu Google Bookmarks Yahoo! My Web Del.icio.us Digg technorati furl 加入此網頁到:YouPush . . 推到twitter 推到plurk 推到FACEBOOK

五、校對

執行者:工作組輸校成員四人與網路校對志工

校對程序包括「加行首資訊」、「網路人工校對」、「檔案比對」、「看圖校對」、「常錯字檢查」五項。前二項為第三項「檔案比對」之前置作業,須先妥善執行,後續之比對工作才能順利完成。

(一)加行首資訊

加行首資訊屬於格式化作業。行首資訊用於記錄每行電子經文在紙本經書上之相對位置,此舉不僅幫助後續之標記處理,也嘉惠學術引用之便。

將含有「頁欄資訊」之未格式化經文純文字檔匯入「加行首資訊程式」,執行後稍加編輯即可產生包括冊數、經號、頁、欄、行等資訊之新純文字檔。內容格式如下:

例: T10n0279_p0070a04║ 菩薩在家  當願眾生  知家性空

            T10n0279_p0070a05║ 免其逼迫  孝事父母  當願眾生

         T10n0279_p0070a06║ 善事於佛  護養一切  妻子集會

            T:大正藏          10:冊數                                          n0279:經號

             p007:頁         a04:a欄(第一欄)第4行                ║:分隔符號

經此步驟,所有純文字電子經文皆已格式化成CBETA所需格式,即可進行下階段之數位化工作。

(二)網路人工校對

OCR產出之電子經文純文字檔經字串取代後,正確率僅達90%。若將之與另一電子檔(如人工輸入檔)比對,勢必差異數量龐大,需動用大量人力方能完成校對程序。

CBETA有一「網路校對」機制,即於網路上徵集志工約九百人,投入線上一人一頁分工校對行列。線上校對程序為:

1. 上CBETA網站(http://www.cbeta.org/index.htm)申請登記。

2. 提領經文之純文字檔與圖檔。

3. 利用看圖校對程式對純文字檔進行逐字校對。

4. 回傳CBETA。

看圖校對程式係該協會之程式設計師開發設計,校對者可同時閱覽純文字檔與其相對之圖檔,達成看圖替代翻書之快速校閱。

網路校對後之OCR經文,正確率可提升為98%。

(三)檔案比對

傳統人工校對,即使四校或十校,總有無法避免的死角。該計畫利用電腦檔案比對,即同一份經文內容,由兩個版本予以輸入,然後以檔案比對程式找出兩者差異,再以看圖校對方式進行訂正,產生一份超越一般人工校對水準之經文檔。

首先,收集兩份同一經文但輸入來源不同之純文字電子檔。若有一頁一頁的小檔,可利用「檔案合併程式」,將兩檔各自所含小檔之純文字檔案合併成大檔,以利文書編輯處理及後續比對作業的進行。

將合併成大檔之兩檔匯入「檔案比對程式」(圖十),執行第一次兩檔比對。比對後產生一個主要差異檔。以《大正藏》而言,平均每冊約產生兩萬個差異。

圖十、檔案比對程式

(四)看圖校對

比對後之差異檔,交由兩位熟識經文之經驗人員各自利用SeeCheck「看圖校對程式」(圖十一),以差異檔比照原書掃描圖檔予以訂正。

圖十一、看圖校對程式介面

該兩位人員訂正後交回的兩份校對完成檔,再以程式執行第二次檔案比對,比對後會產生一數量較小之差異檔。將此差異檔交由一位人員進行最後把關,方法也是以差異檔比照原書掃描圖檔看圖校對。

(五)常錯字檢查

校對最後的工作重點是對於任何值得疑慮的字元,我們將之列入「常錯字參考表」(圖十二),並透過程式對檔案進行取代,形成差異以利用看圖方式來校對。這個概念是我們對看圖校對程式的充分應用,可以發揮事半功倍的效果。

圖十二、常錯字參考表









Download: CBETA經文數位化工作流程圖  CBETA經文數位化工作流程圖 (22.4 KB, 1,019 hits)



評分:

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

1 人回應 “台北版電子佛典集成之研究與建構圖文說明”

  1. yjh Says:

    南無阿彌陀佛

    共同 推廣 CBETA 電子佛典

回應:


請輸入圖片中的文字
請按圖片取得圖片中文字的錄音檔
Click to hear an audio file of the anti-spam word