語料庫建置入門工作流程指南
Tags: 後設資料, 指南, 數位化工作流程, 文字, 詞彙, 語料庫, 語言 發表: 2010-06-01, 點閱: 78,329 , 加入收藏櫃 , 列印 , 轉寄
對於語料庫的應用,語言學家關心的是如何呈現該語言原來的面貌,而電腦科學家則希望能將語料加以組織及結構化,再導入資料庫技術,以應付使用者不同的檢索需求。因此,語言典藏數位化一方面將克服傳統紙筆技術的問題,另方面也可摒棄書面格式的語料輸出,而這些理想都必須有賴電腦關聯式資料庫的技術予以達成。
從書面格式的語料庫進展到關聯式資料庫,代表著複雜度的增加,但是也在資料的有效運用及操控性上獲得相對的回報。細究之下,複雜度的增加並不是真實的,那些不同但相連結的資料表都可被認為是與語言學家的專業知識更加密切關聯。資料庫理論無疑是如何設計欄位、記錄及資料表,正如同語言學要如何呈現單字、句子及文章一樣,在彼此之間建立一個緊密而有效的連結。
本書所介紹的語料庫即利用現代資料儲存與擷取技術,以電腦的資料結構將原始語料庫的檔案轉換成資料庫。其中,對於語料庫的結構化、與規格化,乃利用關聯式資料庫的精神,一方面將語料資料定義的更為嚴謹,另方面對於資料與資料之間的連結也更為明確。
<返回目錄>
全文下載 (32.3 MB, 2,478 hits)