1024x768 1280x800   Decrease font size for  - 拓展台灣數位典藏 - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 Reset to normal font size for  - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 - 拓展台灣數位典藏 Increase font size for  - 拓展台灣數位典藏
 


語料庫數位化工作流程指南

Tags: , , , 發表: 2008-01-09, 點閱: 21,135 , 加入收藏櫃 , 列印 列印 , 轉寄 轉寄

想加入的書籤: HemiDemi MyShare Baidu Google Bookmarks Yahoo! My Web Del.icio.us Digg technorati furl 加入此網頁到:YouPush . . 推到twitter 推到plurk 推到FACEBOOK

肆、語料庫建置問題
 
     語料庫建置多半是為研究用途開發,並視相關需求建置,因此不僅在語料收集方面或是技術開發上都需嚴謹考量,才能建構出符合質與量的語料庫。
 

     建構一個中文的平衡帶詞標記的語料庫,包括語料的收集,語料的整理(包含語料的清潔,為語料分類,加詞類標記等等),人工的校訂。從早期的建構經驗中,由於缺乏合適的工具,因此遭遇以下困難: (1) 早期以檔案形式作為語料的最小單位,一份檔案通常包含數十篇不同的文本,文本的格式屬性以符號配合文字在文本之前表示,這樣以檔案為單位的架構對整體語料的管理及統計相當不便,同時對人工校對的工作分配而言,也相對失去彈性。(2) 大量的語料蒐集,維護,分類,校訂交由個人以檔案的方式處理,並無統一的處理介面,形成管理上的紊亂。 (3) 過去使用自行開發的系統(Chen, Liu 92) 將語料加以斷詞標記,卻發現由於文本當中未知詞的存在,使得系統的斷詞表現大幅下降,而必須事後靠大量的人力來加以合分詞。(4) 人工校正時,由於斷詞及詞類標記時常有歧異現象發生,校正者沒有工具立即檢驗相關的用法或範例,造成判斷上的困難,使得有時候斷詞標記的校對品質因人而異,這些問題除了造成管理上的困難之外,同時在人工校正的過程中花費大量的人力及時間,在斷詞標記的一致性上也不易維持。

 

目錄

 









Download: 語料庫數位化工作流程指南  語料庫數位化工作流程指南 (324.6 KB, 3,032 hits)



評分:

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

回應:


請輸入圖片中的文字
請按圖片取得圖片中文字的錄音檔
Click to hear an audio file of the anti-spam word