語言主題小組之【語言典藏計畫】簡介
內容發展分項計畫/佳旻
前言
「語言典藏」是指以語言為標的的數位典藏,是搶救瀕臨滅絕的最後手段,也是使語言為標的學與語言科技在知識產業時代扮演關鍵角色的基礎工作。大規模與計畫性的語言典藏計畫,近幾年開始在國際間展開,如美國的E-MELD,法國的LACITO,及跨國建立標準的OLAC等等,國內的語言典藏規劃,主要由中研院語言所主導,參與「數位典藏國家型科技計畫」。連同先導計畫,已進行了將近四年。
緣起
語言使得人類「雖死而不朽,愈遠而彌存」。但是如何在語者凋零、弱勢語言瀕臨滅亡的危機中保留珍貴文化遺產;如何在數位媒體與資訊科技的不可逆的洪流中,使語言繼續發揮承載知識與文化的人本功能;語言的數位典藏,是關鍵性的基礎工作。
就內容而言,語言是重要的文化典藏對象;就資料詮釋而言,語言與時、空互補,提供典藏基本定位詮釋的座標;就典藏知識的傳播與利用而言,包括內容檢索、知識擷取、及多語環境中之典藏使用,都必須建立在利用語言典藏與知識發展出的語言技術上。「語言典藏」計畫,便是以此為動機,希望以語言為主軸,建立詮釋資料、典藏內容及資訊技術密切合作、相輔相成的典範。
計劃介紹
在內容方面,「語言典藏」計畫分為『漢語典藏與典藏架構』及『台灣南島語典藏』二個計畫。其中『漢語典藏與典藏架構』包含了「近代漢語詞彙庫」、「先秦金文簡牘詞彙資料庫」、「二十世紀漢語語料庫與句法結構資料庫」、「新世紀語料庫-多媒體的語言呈現與典藏」、及「閩南語典藏-歷史語言與分布變遷資料庫」等五項子計畫。
而『台灣南島語典藏』包括台灣南島語語料庫、詞彙庫及語法,其最終目標為建立台灣南島語的語音、詞彙、單句和長篇故事語料,並加以中英文翻譯。
資料庫建置目的,主要為蒐集和保存現有語料,進而調查居民用語變化和語言分析,例如「近代漢語詞彙庫」在查詢時,顯示詞項和詞類的同時,顯示例句的出處,便於歷史語法的研究者使用;「二十世紀漢語語料庫與句法結構資料庫」之建立,有利於資訊檢索、擷取、自動問答、摘要等典藏處理應用上的附加價值。
參考資料:
語言典藏資料庫簡介
語言學研究所簡介
相關網站:
數位典藏國家型科技計畫http://www.ndap.org.tw/
語言典藏 http://languagearchives.sinica.edu.tw/
台灣南島語數位典藏 http://formosan.sinica.edu.tw/
近代漢語標記語料庫 http://www.sinica.edu.tw/Early_Mandarin/
先秦金文簡牘詞彙資料庫 http://inscription.sinica.edu.tw/
現代漢語平衡語料庫4.0版 http://www.sinica.edu.tw/SinicaCorpus/
現代漢語句法結構資料庫 http://treebank.sinica.edu.tw/
新世紀語料庫-多媒體的語言呈現與典藏 http://MMC.sinica.edu.tw
閩南語典藏 http://SouthernMin.sinica.edu.tw/
殷周金文暨青銅器資料庫 http://db1.sinica.edu.tw/~textdb/rubbing/query.php4 (需授權)