語料庫數位化工作流程指南
發表日期: 2008-01-09, 點閱數: 21,881 , 加入收藏櫃 , 加入書籤
語言是人類表達與溝通的重要媒介之一,試想若是缺少語言這樣的工具,世界會變得如何?如果各位使用過Google的語言選項就可以知道,將近117種的語言洋洋灑灑的呈現在網頁上任君選用,何等便利。目前世界上現存語言已知的有三千多種,在新的語言如世界語誕生的同時,也有許多的語言凋零當中。如何保存這些凋零或是發展中的語言,語料庫就是一個很好的選擇,也是現今語言學研究結合資訊科技的結晶。談到語料庫,一般人或許感到納悶與陌生,簡單來說,語料庫在語言學上指大量的文本,經整理與格式標記,由數位的方式處理與保存,再加以應用。
語料庫的類型逐漸多元,從以往的單語語料庫,到現今的多語語料庫,甚至結合影像以影像辭典的類型呈現,不僅在研究分析上給予很大的助益,在語言學習上也有極大的貢獻。本指南參照國科會「數位典藏國家型科技計畫」內語言主題小組建置之語料庫為基礎,包含說明語料庫建構技術,並與國外相關語料庫比較其差異;另以計劃實際執行經驗值,探討建置語料庫時面臨的挑戰以及發展,供目前或未來想進行語言典藏的人員參考。除此之外,也期望藉此能夠建立大眾對語言典藏的暸解,進而一同加入典藏工作,擴大並豐富目前語料庫的典藏量。 (more…)