1024x768 1280x800   Decrease font size for  - 拓展台灣數位典藏 - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 Reset to normal font size for  - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 - 拓展台灣數位典藏 Increase font size for  - 拓展台灣數位典藏
 


台北版電子佛典集成之研究與建構圖文說明

Tags: none 發表: 2008-12-24, 點閱: 16,255 , 加入收藏櫃 , 列印 列印 , 轉寄 轉寄

想加入的書籤: HemiDemi MyShare Baidu Google Bookmarks Yahoo! My Web Del.icio.us Digg technorati furl 加入此網頁到:YouPush . . 推到twitter 推到plurk 推到FACEBOOK

四、輸入

對於大量佛典經文的輸入,應針對不同內容,選擇採用人工輸入或是掃描圖檔辨識的方法來產生文字檔。

該計畫之輸入方法有三種,分別為收集現成電子檔、人工輸入,以及OCR圖檔辨識。決策方式為:如一佛典已有現成電子檔,則該電子檔可供日後檔案比對使用;無電子檔又難以透過OCR辨識之文字,如手抄本與刻版經文,則採用人工輸入。

不論使用何種輸入方式,一部經文至少需產生兩份電子檔。

(一)收集現成電子檔:

執行者:工作組網資組

早在計畫實行前,網路上已流傳許多對佛典有興趣之志工團體的輸入電子檔,或是其他佛教機構、學術單位研發之電子佛經。

現成電子檔之收集大都以流通較廣的經文為主,這些電子佛經(圖五)通常不符合計畫之規定格式(如需加註頁、欄資訊);故收集得來之檔案在檔案比對前,還需經過格式化之後續處理。

圖五、《大正藏》之現成電子經文

(二)人工輸入:

執行者:委外執行

無法使用OCR辨識軟體辨識之佛經,委外交由專業承包公司進行人工繕打。

委外之前,必須事先制定輸入規範,將之交與廠商人員比照辦理。人工輸入產生之純文字電子檔,需包含頁、欄(圖六)資訊,以及依冊號順序命名之檔案名稱。人工輸入成本約每千字五十元。

圖六、委外人工輸入產出之電子檔

(三)OCR圖檔辨識:

執行者:工作組輸校組成員一人

1.去除雜點

經文書上常有異於文字之讀音符號與注釋標記(圖七),嚴重影響OCR辨識之判讀結果;故掃描後之經文圖檔,須先以程式去除雜點,產生一新TIF圖檔。

圖七、含讀音符號與雜點之原始掃描圖檔

2. OCR圖檔辨識

將去除雜點後之新圖檔,匯入丹青公司特別為該協會量身訂作之OCR程式(圖八)進行辨識,產出一份經文之「純文字檔」。

圖八、丹青OCR操作介面

該程式與一般辨識程式不同處在於「丹青for CBETA」可判讀經文特有之雙排小字。

3.字串取代

使用「常錯字串取代程式」,以正確字串快速批次取代OCR後可能之常錯字串(圖九),免除逐字校對之不便,約可提升純文字檔文字精確度至90%。

圖九、OCR常錯字串取代表

※進行至此,輸入步驟可能產生三種皆未格式化(未加行首資訊)之電子檔:

1). 網路收集之現成電子檔。

2). 委外人工繕打(包含頁欄資訊),正確率約為97%之電子檔。

3). OCR辨識後,正確率90%之電子檔。









Download: CBETA經文數位化工作流程圖  CBETA經文數位化工作流程圖 (22.4 KB, 1,030 hits)



評分:

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

1 人回應 “台北版電子佛典集成之研究與建構圖文說明”

  1. yjh Says:

    南無阿彌陀佛

    共同 推廣 CBETA 電子佛典

回應:


請輸入圖片中的文字
請按圖片取得圖片中文字的錄音檔
Click to hear an audio file of the anti-spam word