語料庫數位化工作流程指南
Tags: 指南, 數位化工作流程, 語料庫數位化, 語言學 發表: 2008-01-09, 點閱: 21,886 , 加入收藏櫃 , 列印 , 轉寄建構一個中文的平衡帶詞標記的語料庫,包括語料的收集,語料的整理(包含語料的清潔,為語料分類,加詞類標記等等),人工的校訂。從早期的建構經驗中,由於缺乏合適的工具,因此遭遇以下困難: (1) 早期以檔案形式作為語料的最小單位,一份檔案通常包含數十篇不同的文本,文本的格式屬性以符號配合文字在文本之前表示,這樣以檔案為單位的架構對整體語料的管理及統計相當不便,同時對人工校對的工作分配而言,也相對失去彈性。(2) 大量的語料蒐集,維護,分類,校訂交由個人以檔案的方式處理,並無統一的處理介面,形成管理上的紊亂。 (3) 過去使用自行開發的系統(Chen, Liu 92) 將語料加以斷詞標記,卻發現由於文本當中未知詞的存在,使得系統的斷詞表現大幅下降,而必須事後靠大量的人力來加以合分詞。(4) 人工校正時,由於斷詞及詞類標記時常有歧異現象發生,校正者沒有工具立即檢驗相關的用法或範例,造成判斷上的困難,使得有時候斷詞標記的校對品質因人而異,這些問題除了造成管理上的困難之外,同時在人工校正的過程中花費大量的人力及時間,在斷詞標記的一致性上也不易維持。
〈目錄〉
語料庫數位化工作流程指南 (324.6 KB, 3,237 hits)