語料庫建置入門工作流程指南
Tags: 後設資料, 指南, 數位化工作流程, 文字, 詞彙, 語料庫, 語言 發表: 2010-06-01, 點閱: 78,331 , 加入收藏櫃 , 列印 , 轉寄貳、語料庫建置流程
本章概述語料庫的建置流程,下一章將以實例介紹口語、文本、手語等不同類別的語料庫。語料庫建置可分為語料數位化、系統建置、後設資料建立等三大部分,如圖2-1。[11] 前章已介紹後設資料,系統建置則與語料性質與建置目的密切相關,因此本章主要討論語料數位化的流程。
規劃語料庫首先要根據建置目的決定收錄的內容,並依此訂定語料的數位化規格、使用的設備、語料加工的標記集等。為語音辨識與合成研究而建置的語音資料庫收錄的可能是在錄音室錄製的高品質聲音檔,加工的標記可能是語音的聲學參數,而為了歷史語言研究所建置的文獻語料庫收錄的語料是代表各時代語言的文獻文字檔,加工標記可能包含文獻出處、分詞標記與詞類語意訊息等。
語料庫要收錄的語料可能是書面的資料,也可能須再調查採集;有些書面資料可能有電子文字檔,有些可能只有手寫或印刷的紙本。決定收錄的內容之後,需要考慮資料授權的問題。根據中華民國著作權法,著作財產權存續於著作人生存期間及其死亡後五十年;法人為著作人之著作,其著作財產權存續至著作公開發表後五十年;就原著作改作之創作為衍生著作,亦享有獨立於原著作的權利;製版權自製版完成存續十年。
收錄文本資料的語料庫需要獲得各文本著作財產權所有人的授權。古籍雖然任何人都可以自由利用,收錄於語料庫時仍須注意所採用版本的版式可能仍擁有製版權,校勘、註釋等衍生著作的著作財產權也可能仍存續。若收錄的語料是由發音合作人提供,考量著作財產權以及個人肖像權、個人資料與隱私保護等學術倫理議題,需要取得發音合作人的同意授權書。
此外,依據著作權法,受雇人於職務上完成之著作,其著作財產權歸雇用人享有;[12]出資聘請他人完成之著作,其著作財產權依契約約定歸受聘人或出資人享有,未約定者其著作財產權歸受聘人享有,[13]語料庫建置可能牽涉錄影、錄音、攝影、文字轉記、翻譯、系統設計建置、工具程式開發等工作,均為著作權法保護之「著作」,從事這些工作的若為委外或勞務承攬的工作人員,依法可能取得著作財產權,簽訂契約時應特別注意。
影音語料錄製完成後,除了存檔保存,須剪輯成合適的段落,刪除不適用[14]或含個人隱私等敏感內容的片段,或以模糊處理、靜音的方式處理保護隱私。[15]剪輯處理之後再輸出永久典藏格式檔案保存,[16]並轉出較低規格的公開格式檔案[17],進入文字轉記階段。紙本資料可以先掃描,使用文字辨識軟體轉為文字或直接人工輸入文字。重要的原典建議將掃描的書影一併典藏,讓使用者查閱時可以連結至原文獻圖檔。[18]
文字檔需要二次校對,第一次校對的重點是檢查內容是否與底本相符,第二次校對同時檢查篇名、頁碼等出處標記(Markup)是否正確。實務上,一校可以由兩人同時輸入或轉記同一份文件,再以電腦工具程式自動比對,因為兩人在同一處同時犯錯的機率不高,可以很快找出錯誤的地方加以校正。
校對完成的檔案可以開始標記等加工工作。不同用途的語料庫使用的標記集也不同,如語音語料庫可能會使用韻律標記集,對話語料可能使用言談標記集,一般語料庫可能使用詞類、構詞語法標記……等。單以人工標記語料不但耗時費力,也難以維持一致的品質,通常需要設計、開發自動處理程式與人工校正的工具界面。
語料庫系統建置包括架構資料庫、設計檢索系統、開發工具軟體與工作界面、建置網站等工作,這些工作在與料庫規劃初期就要同時展開,配合語料處理的進度按部就班完成。最後,語料庫建置完成上線後的管理維護相當重要,因此,檔案備份、異地備援、系統安全等問題也應一併規劃、切實執行。
撰文:蕭素英
圖2-1、語料庫建置流程圖
<返回目錄>
[11] 本圖由詹景勛製圖;後設資料之部份參考「數位典藏與數位學習國家型科技計畫後設資料工作組」以及「拓展台灣數位典藏-內容建置與整合子計畫」辦公室提供之資料,影音收錄之部份流程由閩客語典藏研究助理余瓊怡小姐參考李道明〈影音檔案數位化之規劃與流程﹥(http://content.teldap.tw/index/?dl_id=76, 2009年1月31日下載)與實際經驗製作初稿,「台灣南島語數位典藏」研究助理瓦歷斯.浦亞曾參與討論,在系統建置、資料備份方面提供許多建議,謹此致謝。
[12] 中華民國著作權法第11條:「受雇人於職務上完成之著作,以該受雇人為著作人。但契約約定以雇用人為著作人者,從其約定。依前項規定,以受雇人為著作人者,其著作財產權歸雇用人享有。但契約約定其著作財產權歸受雇人享有者,從其約定。前二項所稱受雇人,包括公務員。」
[13] 中華民國著作權法第12條「出資聘請他人完成之著作,除前條情形外,以該受聘人為著作人。但契約約定以出資人為著作人者,從其約定。依前項規定,以受聘人為著作人者,其著作財產權依契約約定歸受聘人或出資人享有。未約定著作財產權之歸屬者,其著作財產權歸受聘人享有。依前項規定著作財產權歸受聘人享有者,出資人得利用該著作。」
[14] 如手語辭彙庫這類根據腳本拍攝的影片,同一辭彙可能拍攝多次,再剪輯出適用的片段。
[15] 如荷蘭的 IFA 對話影音語料庫(IFA Dialog Video corpus)這類自由對話語料庫,雖已請發音人避免提及姓名等敏感內容,仍不免有一些不適宜的片段須刪除後才能釋出。
[16] 永久典藏的格式是考量當前技術、共通性、處理速度、儲存空間與成本等種種因素後,能容許的最高規格。數位典藏與數位學習國家型科技計畫目前推薦的影訊永久典藏格式是MPEG-2,資料傳輸率8M/sec.,聲音格式為不經壓縮的WAVE格式,取樣頻率 44.1KHz, 16-24bit。
[17] 公開格式通常經過壓縮,可能有多種版本供不同網路頻寬、平台的環境使用。
[18] 如「閩南語典藏-歷史語言與分布變遷資料庫」(http://southernmin.sinica.edu.tw)提供了《荔鏡記書影》、「閩客語典藏」(http://minhakka.ling.sinica.edu.tw/)的《廈英大辭典》、《增補廈英大辭典》、《台日大辭典》等的查詢結果均提供至原典相應頁面圖檔的連結。
全文下載 (32.3 MB, 2,478 hits)