- 拓展台灣數位典藏 - http://content.teldap.tw/index -

Posted By 呈晏 On 一月 21, 2008 @ 8:42 am In 數位典藏觀察室 | No Comments

內容發展分項計畫//李佩瑛

  British National Corpus(以下簡稱BNC)為一英語平衡語料庫,廣泛收錄20世紀後半的文本與口語資料,其中文本約佔九成,包含全國與地方性的報紙、各種類別的期刊、學術論文、已出版或未出版之書信與手稿…等;口語部份約佔一成,包含大量非正式的日常對談、較正式的商業與政府會議、甚至於廣播節目與聽眾來電,日常對談的部份則徵求義工錄製而成,對談內容跨各年齡層、地區與階層。

  以語料庫的類型來說,BNC為單語語料庫,收錄以現代英式英語為主之語料,而非歷史性之英語,內容方面則不設限,平衡並多元收錄各式不同語料。

BNC是由一產學界共同組成的集團運作,產業界包括牛津大學出版、朗文出版(Addison-Wesley Longman) 、樂思出版(Larousse Kingfisher Chambers);學界則包括牛津大學計算中心(Oxford University Computing Services, 簡稱OUCS)、蘭卡斯大學計算語言中心(University Centre for Computer Corpus Research on Language, 簡稱UCREL)與大英圖書館研究與創新中心(British Library’s Research and Innovation Centre)。

語料庫建立須經過幾個關鍵步驟,由不同單位進行,並記錄每個階段,存於OUCS的資料庫,建立程序如下 :

 

 

 

 

BNC於西元1991年開始建立,並於1994年建置完成,最初的版本於1995年二月發行,並提供歐洲學者研究使用。

目前BNC有各種不同的版本提供使用,但網站上依然開放大眾查詢,對於學術研究或是一般語言學習都相當的有幫助。

 


 

參考連結:
1. British National Corpus
2. Encoding the British National Corpus


Article printed from 拓展台灣數位典藏: http://content.teldap.tw/index

URL to article: http://content.teldap.tw/index/?p=357