語料庫數位化工作流程指南
Tags: 指南, 數位化工作流程, 語料庫數位化, 語言學 發表: 2008-01-09, 點閱: 21,882 , 加入收藏櫃 , 列印 , 轉寄陸、結論
對於語料庫的應用,語言學家關心的是如何呈現該語言原來的面貌,而電腦科學家則希望能將語料加以組織及結構化,再導入資料庫技術,以應付使用者不同的檢索需求。因此,語言典藏數位化一方面將克服傳統紙筆技術的問題,另方面也可摒棄書面格式的語料輸出,而這些理想都必須有賴電腦關聯式資料庫的技術予以達成。
從書面格式的語料庫進展到關聯式資料庫,代表著複雜度的增加,但是也在資料的有效運用及操控性上獲得相對的回報。細究之下,複雜度的增加並不是真實的,那些不同但相連結的資料表都可被認為是與語言學家的專業知識更加密切關聯。資料庫理論無疑是如何設計欄位、紀錄及資料表,正如同語言學要如何呈現單字、句子及文章一樣,在彼此之間建立一個緊密而有效的連結。
本文所介紹的語料庫即利用現代資料儲存與擷取技術,以電腦的資料結構將原始語料庫的檔案轉換成資料庫。其中,對於語料庫的結構化、與正規化,乃利用關聯式資料庫的精神,一方面將語料資料定義的更為嚴謹,另方面對於資料與資料之間的連結也更為明確。雖然本文所述之議題可能已超過實際的技術問題,但透過南島語語料庫數位化計畫的嘗試,相信對於未來語料庫的研究將有著極深刻的影響。
〈目錄〉
語料庫數位化工作流程指南 (324.6 KB, 3,236 hits)