拓展台灣數位典藏 » Blog Archive » 語料庫建置入門工作流程指南

語料庫建置入門工作流程指南

Tags: 後設資料, 指南, 數位化工作流程, 文字, 詞彙, 語料庫, 語言發表: 2010-06-01, 點閱: 93,680 , 加入收藏櫃 ,

列印 ,

轉寄

想加入的書籤:

書籤網站 http://www.hemidemi.com/

前言

一、什麼是語料庫？

語料庫是龐大且具有組織架構的語言資料庫，語料庫可以只收錄單一語言，也可以囊括多種語言，語料內容則涵蓋文字、手語、聲音等領域。語料庫為語言學研究的重要成果，也是研究工具，通常做為語言統計分析、語言學術研究等用途，對一般使用者而言，則是學習語言的工具之一。

語言是人類表達與溝通的重要媒介之一，語言學是以人類語言為研究對象的學科。目前世界上現存語言已知的有三千多種，在新的語言誕生的同時，也有許多語言在凋零。如何保存這些凋零或是發展中的語言，語料庫就是一個很好的選擇，也是現今語言學研究結合資訊科技的結晶。語料庫通常指為了語言研究而收集並採用數位形式保存的語言材料，由自然語言或口語的樣本構成，用來表達特定語言或是語言轉變。經過科學標注並具有適當規模的語料庫能夠反映、記錄語言的實際使用狀況。透過語料庫觀察、掌握語言事實，可以研究分析語言系統的規律性，是語言學理論研究、應用研究以及語言工程重要的基礎資源。

按照語料的種類劃分，語料庫可以分為單語(Monolingual)，雙語(Bilingual)和多語的(Multilingual)。近年語料庫的類型逐漸多元，從以往的單語語料庫，到現今的多語語料庫，甚至結合影音呈現，不僅對於語言的研究分析有很大的助益，對於語言學習也有極大的貢獻。

語料庫與語言訊息處理有密切的關係。未使用語料庫方法之前，在自然語言處理和機器翻譯等研究中，分析語言的主要方法是基於規則，但對於規則不能表達或無法涵蓋的語言事實，電腦就很難處理。語料庫出現之後，人們可利用語料庫來調查、統計自然語言，建立統計模型，研究自然語言處理技術。另一方面，自然語言訊息處理的研究也為語料的加工提供了訊息檢索、文本輸入、自動分詞和標注、語料的統計和檢索等各方面的關鍵技術。

語料庫的功能主要涉及三個層面，一是語料庫的規模，二是語料的分布，三是語料加工的程度。規模大小關係到統計數據是否可靠，語料的分布涉及統計結果的適用範圍，語料加工的深度則決定這個語料庫能為使用者提供什麼樣的語言學訊息。

根據語料採集的原則與方式，語料庫可以分為以下四種類型：

1. 異質的(Heterogeneous)：無特定的語料收集原則，廣泛收集並原樣儲存各種語料。

2. 同質的(Homogeneous)：只收集同一類的語料。

3. 系統的(Systematic)：根據預先確定的原則和比例收集語料，使語料具有平衡性和系統性，能夠代表某一特定範圍的語言事實。布朗語料庫(Brown Corpus)於六O年代於布朗大學建立，是世界上第一個根據系統性原則採集樣本的標準語料庫，具一百萬詞規模。「中央研究院現代漢語平衡語料庫」簡稱「研究院平衡語料庫」（Sinica Corpus ）則是世界上第一個有完整詞類標記的漢語平衡語料庫。

4. 專用的(Specialized) : 只收針對某一特殊用途的語料。

語料加工主要指文本格式處理和文本描述兩項工作，文本格式處理是對於已採集的語料文本進行整理，轉成格式一致的電子文本，例如資料庫格式、XML格式等。

文本描述是說明每一篇語料樣本的屬性或特徵，包括篇頭描述和篇體描述。篇頭描述說明整篇語料樣本的後設資料屬性，例如語體、內容所屬的領域、作者、出版時間與發行出版社……等，篇體描述是在文本裡添加各種屬性標記，如詞語切分標記、詞類標記、語法特徵標記、語意訊息標記、言談標記……等。漢語文本語料庫的加工一般是從詞語切分（斷詞）、詞類標記，到語法、語意屬性標記循序漸進，所標注的訊息增加，語料加工的深度也就相對增加。

沒有篇體描述訊息的語料叫做素語料，漢語的文本素語料只能以字為單位進行檢索與統計，而經過詞語切分處理的語料，就能夠以詞為單位進行檢索、統計和定量分析，如果還加注了詞類標記，那麼可以獲得的訊息就更多了。語料的標注如果由人來執行，當然能夠保證其準確性，但速度很慢，對於大規模的語料來說，人工標注顯然緩不濟急，不符需求，因此大規模的語料加工往往需要藉助自動化技術來進行詞語切分、詞類標注等語料加工。

二、本書章節說明

本書包括引言、後設資料與相關國際標準、語料庫建置流程、語料庫建置實例、語料庫與數位學習、延伸議題、結語、附錄等八個單元。「後設資料與相關國際標準」介紹了泛用的後設資料標準「都柏林核心集」(Dublin Core, DC)、「開放語言典藏社群」(Open Language Archives Community, OLAC)以DC為基礎所制定的適用於語料庫的後設資料OLACMS、OLAC採用的跨資料庫檢索網路協定 OAI-PMH以及語言代碼國際標準。「語料庫建置流程」將語料庫建置工作分為語料數位化、語料庫系統建置、後設資料建立三個部份，簡要說明建置語料庫的流程。「語料庫建置實例」收錄文本、口語、影像、語言地理資訊等類型的語料庫建置經驗，供目前或未來其他單位或計畫進行語料庫建置時參考。「語料庫與數位學習」介紹了兩個將語料庫加值應用於教學網站之實例。「延伸議題」則探討語料庫建置涉及的數位內容保護、人力與設備成本等議題。

撰文：蕭素英、李佩瑛

<返回目錄>

<<回前頁 1 2 3 4 5 6 7 8 9 10 下一頁>>