佛典數位典藏內容開發之研究與建構–經錄與經文內容標記與知識架構
Tags: none 發表: 2008-12-23, 點閱: 11,935 , 加入收藏櫃 , 列印 , 轉寄五、精緻版本校對
(一)一次校對
該計畫利用電腦檔案比對,即同一份經文內容,由兩個版本予以輸入,然後以檔案比對程式找出兩者差異,再以看圖校對方式進行訂正,產生一份超越一般人工校對水準之經文檔。
首先,收集兩份同一經文但輸入來源不同之純文字電子檔。若有一頁一頁的小檔,可利用「檔案合併程式」,將兩檔各自所含小檔之純文字檔案合併成大檔,以利文書編輯處理及後續比對作業的進行。
將合併成大檔之兩檔匯入「檔案比對程式」,執行第一次兩檔比對。比對後產生一個主要差異檔。有差異的地方,再用人工對回原典做再次確認。
(二)二次校對
針對書前目錄與經書內文進行比對,由於書前目錄可能有誤,仍需進一步與內文比對確認,比對後之差異檔,交由兩位熟識經文之經驗人員各自利用「看圖校對程式」,以差異檔比照原書掃描圖檔予以訂正。
該兩位人員訂正後交回的兩份校對完成檔,再以程式執行第二次檔案比對,比對後會產生一數量較小之差異檔。將此差異檔交由一位人員進行最後把關,方法也是以差異檔比照原書掃描圖檔看圖校對。
六、建置經錄GIS後設資料庫
建置時空地理資訊檢索系統。方便讀者從地圖,就能知道譯經者的地點,在加上時間軸,整體呈現就更加立體化。但由於經錄的作譯者有些同名,同名的作譯者,需查閱相關的工具書,協助判斷是否為同一人,或是另有其人,相當耗時。此系統的時間與空間軸呈現方式,目前尚在測試開發中。
時空地理資訊檢索系統。
七、經錄抽辭技術平台
工作小組中的資訊人員與文獻處理人員密切配合,研發出一套方便佛教學者建立知識架構的環境與研究平台 —「抽詞」技術平台,以時間資料庫作量化的排序。
「抽詞」技術平台的開發,使佛教學者可以透過它對龐大的數位佛教資源庫,進行統計分析(Statistical Analysis)、資訊檢索及抽取(Information Retrieval and Extraction)、文件分類與分群(Document Classification and Clustering)、資料探勘(Data Mining)等各項工作,此平台提供研究者不同於傳統佛學的研究方法及更多樣的參考資源和結果。
「抽詞」技術資料分析。
經錄與經文內容標記與知識架構數位化工作流程圖 (9.5 KB, 1,004 hits)