語料庫建置入門工作流程指南
Tags: 後設資料, 指南, 數位化工作流程, 文字, 詞彙, 語料庫, 語言 發表: 2010-06-01, 點閱: 78,334 , 加入收藏櫃 , 列印 , 轉寄
壹、後設資料與相關國際標準
後設資料(Metadata)在數位典藏領域中最常見的解釋是「資料中的資料」(Data about Data)。以數位相機所拍攝的照片為例,拍攝完的每一張照片都是一筆數位檔案,除了影像資料外,這張照片檔案內還會有EXIF後設資料,上面記載拍攝日期、時間、地點、光圈、快門、焦距、鏡頭以及白平衡設定等多項資料。
根據數位典藏與數位學習國家型科技計畫後設資料工作組(以下簡稱後設資料工作組)的解釋,後設資料的定義為[1]:
後設資料(Metadata)是一組結構與標準化的背景資料,包括描述性、結構性與管理性三大類型,以及語義性、語法性與詞彙性三大屬性,用來描述每個數位典藏品的內涵與特徵,以便數位典藏品能夠在數位化環境或系統中,達到最佳化資源探索的效能,並能有效率而精準地被探索、呈現、管理、控制與執行相關功能,且順利地與其他數位典藏品進行資源互通與共享,最後還能達成數位典藏品的永久保存目的。
由此可知,每一件要永久保存的數位典藏品,背後都應該擁有一組後設資料,這些後設資料是確保數位化成果能被有意義地永久保存,有效率地被搜尋利用。以功能導向而言,後設資料有三種類型[2]:
(一) 描述性後設資料:用以描述一項文件或資源的內涵與關聯性,以便於發現與辨識資源,例如:書目記錄與本章之後將介紹的Dublin Core。
(二) 結構性後設資料:給予數位典藏品實質的結果,以便於瀏覽、檢索和呈現上述的資源,例如書的章節結構、具翻頁功能的電子全文,全文與相關影像的連結。
(三) 管理性後設資料:為了長久的管理、使用與觀看數位化資源的相關資源,如檔案格式、數位化解析度、智財權管理資訊等。
物件的後設資料可以隨計畫需求而調整,因此後設資料內容有大有小,各類型物件的編目規範也有所差異。語料庫的後設資料必須顧及許多層面,為了追求資料的健全完整,在後設資料欄位的制訂上會採用多種國際標準,比如Dublin Core都柏林核心集、OLACMS、ISO語言代碼等標準;如果語料庫要做到跨資料檢索,或是與國外進行資料交換,則要使用OLAC開放語言典藏社群所推薦的網路協定標準OAI-PMH。
語言學研究的目的是調查瞭解語言行為模式和分析各種語言,執行研究工作時,語言的發音人、語料搜集地點等都是探討項目之一,所以每一個語言樣本的背後都要擁有詳細的描述資料,以做為語言研究的基礎資訊,對於語料庫而言,後設資料的內容屬於較龐大的類型。
語料庫工作團隊在進行語料收錄之前,最好先按照計畫需求先完成後設欄位的制訂,仔細考量收錄語料時所必須記錄的資訊,避免完成語料收集工作並且離開調查地點之後,才發現資料掛一漏萬,屆時要再次進行語料收錄、田野調查,不僅費時費力且浪費計畫經費。
後設資料工作組強調,後設資料的規劃與實施是數位典藏工作的基礎建設,未來語料的檢索功能和語料的完整性與實用性,都端看後設欄位的詳細與否。有鑑於此,語料庫計畫團隊制訂後設資料欄位時,務必多花功夫,以求完整、全面。以下介紹泛用型的後設資料元素集「都柏林核心集」(Dublin Core)以及幾個與語料庫後設資料相關的國際標準。
1995年,OCLC(Online Computer Library Center)與NCSA(National Center for Supercomputing Application)聯合召開第一屆會議,會議上集合了圖書館界、資訊科學界的各領域專家 ,制定了一套專為網路資源而設計的後設資料元素集。這套元素內容依據會議地點美國俄亥俄州Dublin而命名,稱為Dublin Core(簡稱DC),目前Dublin Core已經成為國際標準,後續發展及規格內容由Dublin Core Metadata Initiative(簡稱DCMI)組織管理。
Dublin Core的規範力求簡單而有效,目前廣泛使用於數位典藏物件的後設資料上。Dublin Core的每個欄位都可以選擇性或重覆性使用,大部分的欄位也有一套限制性的細項可選用,可以進一步的表達完整的意義。每個元素欄位可以採任意排序呈現,著錄的規則也可按照計畫需求來訂定。非強制性的特色讓Dublin Core易於掌握及使用,但並不一定適用於所有的物件,對於意義與概念複雜的典藏物件更是如此。
目前Dublin Core欄位有兩種層級,較簡單的Dublin Core欄位中,採用15個元素欄位來描述數位典藏物件;至於完整Dublin Core欄位,則是在15個元素欄位中,再細分修飾語欄位,欄位內容包含使用對象、出處以及版權所有者等,更利於資料被搜尋使用。
15個Dublin Core欄位其下包含的修飾語又分Element Refinement元素精緻化、Element Encoding Scheme元素編碼表兩種,使用的原則有三大項:
1. 一對一原則:Dublin Core一次只描述一個數位典藏品,內容相同但屬於複製本或不同版本的物件,在Dublin Core元素中的創作者(Creator)、貢獻者(Contributor)等欄位的內容會不同。
2. 簡化原則:元素欄位可以不使用任何修飾語,僅保留資料值。
3. 適當的資料值:隨著物件不同,填入元素欄位或是修飾語欄位內的內容也會不同,應仔細斟酌填寫才能發揮後設資料的效用。
Dublin Core 有簡單容易制訂的特性,未經專業訓練的使用者也能制訂後設資料,甚至可以自行發展編輯器;此外,Dublin Core 的彈性大,內容可依需求延伸、選擇,同時又具有可重複性及可變性,符合多樣類型的數位典藏需求;最後,Dublin Core是以英文為發展基礎,易於國際上通用,是其強力優勢,因而成為國際間普遍應用的後設資料標準。
表1-1、Dublin Core一覽表[3]
Element |
Definition |
Qualifiers |
|
Element Refinements |
Element Encoding Schemes |
||
Title |
A name given to the resource |
Alternative |
|
Creator |
An entity primarily responsible for making the content of the resource |
||
Subject and Keywords |
The topic of the content of the resource |
LCSH MESH DDC LCC UDC |
|
Description |
An account of the content of the resource |
Table of Contents Abstract |
|
Publisher |
An entity responsible for making the resource available |
||
Contributor |
An entity responsible for making contributions to the content of the resource |
||
Date |
A date associated with an event in the life cycle of the resource |
Created Valid Available Issued Modified |
DCMI Period W3C-DTF |
Resource Type |
The nature or genre of the content of the resource |
DCMI type vocabulary |
|
Format |
The physical or digital manifestation of the resource |
Extent Medium |
IMT |
Resource Identifier |
An unambiguous reference to the resource within a given context |
URI |
|
Source |
Reference to a resource from which the present resource is derived |
URI |
|
Language |
A language of the intellectual content of the resource |
ISO 639-2 RFC 1766 |
|
Relation |
A reference to a related resource |
Is version of Has version Is replaced by Requires Is part of Has part Is referenced by References Is format of Has format |
URI |
Coverage |
The extent or scope of the content of the resource |
Spatial Temporal |
DCMI point ISO 3166 DCMI box TGN DCMI Period W3C-DTF |
Rights Management |
Information about rights held in and over the resource |
AccessRights License RightsHolder |
(一) OLACMS 後設資料元素集
「開放語言典藏社群」(Open Language Archives Community, OLAC)是一個由個人或組織所組成的國際性合作協會,成立於2000年12月,目前的主要協調人為Steven Bird與Gary Simons ,中央研究院鄭錦全院士是諮詢委員,中央研究院語言學研究所黃居仁研究員是顧問。
鑑於全世界許多組織都需要使用到語言資源,例如語言學家、工程師、檔案管理相關人士、軟體發展商和出版商等,大部分的使用者都希望透過單一介面就能取得所需的資源,包含描述語言的相關資訊、用來查詢語言的工具等,但是不同的語言資源散佈於網路各處,使用者難以一次就找到所需的資源,因此OLAC設立兩個目標,[4]一是針對語言典藏發展一套一致性的實踐指引;二是發展具有互通性的語言資源儲存器與服務中心。
為了完成這兩項目標,OLAC以Dublin Core Metadata Initiative與Open Archives Initiative(簡稱OAI)所制訂的兩個標準作為基礎,以達到與國外資料庫進行資料交換、跨資料檢索的目的。
後設資料上,OLAC以Dublin Core的15個元素欄位進行修改,制訂出一套更詳細的後設資料欄位,即為OLACMS,欄位如表1-2:
表1-2、OLACMS元素欄位
欄位元素 |
中文 |
欄位元素 |
中文 |
Contributor |
貢獻者 |
Language |
語言 |
Coverage |
涵蓋範圍 |
Publisher |
出版者 |
Creator |
創造者 |
Relation |
關聯性 |
Date |
日期 |
Rights |
權利管理 |
Description |
資料描述 |
Source |
來源 |
Format |
資源格式 |
Subject |
主題 |
Format.cpu |
資源cpu格式 |
Subject.language |
主題使用語言 |
Fomat.encoding |
資源編碼格式 |
Title |
資源標題 |
Format.markup |
標誌語言 |
Type |
資源型態 |
Format.os |
作業系統需求 |
Type.functionality |
軟體資源的功能 |
Format.sourcecode |
程式語言 |
Type.linguistic |
語言學上的資源型態 |
Identifier |
資源識別碼 |
|
|
OLACMS採用四個屬性做更詳細的特性定義,另外還包含一個langs附屬屬性。
1. refine:用來識別較仔細的意義與特性。
2. scheme:規範各元素內容文字是已經標準化的名稱。
3. code:用來標記後設資料中,OLAC特有的標誌系統。
4. lang:每個OLACMS中必有的屬性,註明元素欄位使用的語言。
5. langs:屬於元素的屬性,規範後設資料被閱讀時所採用的語言。
(二)跨資料庫檢索網路協定
OLAC也為有意進行跨資料檢索的語料庫計畫提供了一套解決方案。為了促進資料庫之間的相互搜尋,OLAC採用Open Archives Initiative(簡稱OAI)[5]所制訂的網路協定–OAI-PMH,透過此協定內容,使用者可以不分系統、應用程式、領域、語言的限制,在網路上搜尋資料,包含後設資料中所登錄的內容也可供搜尋。
OLAC透過OAI-PMH的協定,到各個資料提供者(Data Provider),也就是語料庫中抓取資料,然後在OAI 服務提供者(Service Provider)中建立一個索引。一旦有使用者在網路上搜尋資料時,就可以快速的看到完整而豐富的索引結果。
如果語料庫計畫團隊想要與OLAC進行跨資料庫檢索,有兩種方法,一種是由語料庫計畫團隊自行架設OAI Data Provider的伺服器,供OAI Service Provider定期抓取資料。第二種是語料庫計畫團隊依照OLAC建議的XML延伸性標誌語法,將語料庫資料製作成相關的文件,提供給OAI Service Provider。
(三)語言代碼國際標準
ISO 639 系列是國際標準組織所訂定的語言代碼,分為六個部份[6]。ISO 639-1 是第一部份,於2002年出版,使用兩個字母編碼,用來標示世界上主要的語言,註冊機構為 Infoterm (International Information Center for Terminology)[7] 。ISO 639-2 是第二部份,於1998出版,使用三個字母來表示語言、大語言(macrolanguage)、語系以及語言集合,其中大語言是數種密切相關語言的泛稱;此外,有 mis, mul, und, zxx 等四個特殊代碼以及使用者自行定義的保留碼區(qaa~qtz),"mis" 表示「未被編碼的語言」(Uncoded languages),"mul" 表示內容包括多種語言,且不一一標示,"und"表示「未確定的語言」(Undetermined Language),"zxx" 表示「沒有語言內容」(No Linguistic Content),使用於系統要求一定要標示語言,但內容不含語言訊息的情況。 ISO 639-2 的註冊機構是美國國會圖書館。ISO 639-3 是語言開放典藏社群(OLAC)目前推薦使用的語言代碼國際標準,於2007年出版,延伸ISO 639-2,但不包括語系、語言集合,目標是以三碼涵蓋所有語言,包括現存、絕跡、歷史、古老與人工的語言,美國國際語言暑期學院(SIL International)[8] 於2002年起參與ISO 639-3標準的制定,已將SIL 語言代碼整合進入新的標準,並自Ethnologue 第十五版起使用該標準。SIL International 也是 ISO 639-3的註冊機構。 ISO 639-5 於2008年出版,延伸ISO 639-2 中的語言集合,以三碼描述語系、語族、語群或是具有共同性質的語言之集合(如手語、混合語、人工語),註冊機構也是美國國會圖書館。 ISO 639-6 於2009年11月出版,試圖以四碼描述全世界所有之語言文字變體,由於才出版不久,除了主要參與制定的機構GeoLang Ltd 外,[9]採用的單位很少。
表1-3、 部份語言與語言集合之國際標準代碼[10] (製表:蕭素英)
英語名稱 |
中文名稱 |
ISO 639-5 |
ISO 639-3 |
ISO 639-2 |
ISO 639-1 |
備註 |
Altaic languages |
阿爾泰語系 |
tut |
tut |
語言集合 |
||
Amis |
阿美語 |
ami |
||||
Amis, Nataoran |
荳蘭阿美語 |
ais |
||||
Artificial languages |
人工語言 |
art |
art |
語言集合 |
||
Atayal |
泰雅語 |
tay |
||||
Austro-Asiatic languages |
南亞語系 |
aav |
語言集合 |
|||
Austronesian languages |
南島語系 |
map |
map |
語言集合 |
||
Babuza |
巴布薩語 |
bzg |
||||
Basay |
巴賽語 |
byq |
||||
Bunun |
布農語 |
bnn |
||||
Buriat |
布里雅特語 |
bua |
bua |
大語言 |
||
Buriat, China |
巴爾虎布里雅特蒙古語 |
bxu |
||||
Buriat, Mongolia |
蒙古國布里雅特語 |
bxm |
||||
Buriat, Russia |
俄羅斯布里雅特語 |
bxr |
||||
Chinese |
中文、漢語 |
zho |
zho/chi |
zh |
大語言 |
|
Chinese, Gan |
贛語 |
gan |
||||
Chinese, Hakka |
客語 |
hak |
||||
Chinese, Huizhou |
徽語 |
czh |
||||
Chinese, Jinyu |
晉語 |
cjy |
||||
Chinese, Late Middle |
近代漢語 |
ltc |
||||
Chinese, Literary |
文言文 |
lzh |
||||
Chinese, Mandarin |
官話 |
cmn |
||||
Chinese, Min Bei |
閩北語 |
mnp |
||||
Chinese, Min Dong |
閩東語 |
cdo |
||||
Chinese, Min Nan |
閩南語 |
nan |
||||
Chinese, Min Zhong |
閩中語 |
czo |
||||
Chinese, Old |
古漢語 |
och |
||||
Chinese, Pu-Xian |
莆仙語 |
cpx |
||||
Chinese, Wu |
吳語 |
wuu |
||||
Chinese, Xiang |
湘語 |
hsn |
||||
Chinese, Yue |
粵語 |
yue |
||||
Creoles and pidgins |
crp |
crp |
語言集合 |
|||
Daur |
達斡爾語 |
dta |
||||
Dongxiang |
東鄉語 |
sce |
||||
English |
英語 |
eng |
eng |
en |
||
English, Middle (1100-1500) |
中古英語 |
enm |
enm |
|||
English, Old (ca. 450-1100) |
古英語 |
ang |
ang |
|||
Esperanto |
世界語 |
epo |
epo |
eo |
||
Formosan languages |
台灣南島語族 |
fox |
語言集合;階層關係 map:fox |
|||
German |
德語 |
deu |
deu/ger |
de |
||
Germanic languages |
日耳曼語族 |
gem |
gem |
語言集合;階層關係 ine:gem |
||
Indo-European languages |
印歐語系 |
ine |
ine |
語言集合 |
||
Japanese |
日語 |
jpn |
jpn |
ja |
||
Jurchen |
女真語 |
juc |
||||
Kalmyk~Oirat |
卡爾梅克語、衛拉特語 |
xal |
xal |
|||
Kanakanabu |
卡那卡那富語 |
xnb |
||||
Kavalan |
噶瑪蘭語 |
ckv |
||||
Ketangalan |
凱達格蘭語 |
kae |
||||
Kitan |
契丹語 |
zkt |
||||
Korean |
韓語 |
kor |
kor |
ko |
||
Kulon-Pazen |
巴宰語 |
uun |
||||
Manchu |
滿語 |
mnc |
mnc |
|||
Mon-Khmer languages |
孟高棉語族 |
mkh |
mkh |
語言集合;階層關係 aav:mkh |
||
Mongolian |
蒙古語 |
mon |
mon |
mn |
大語言 |
|
Mongolian, Classical |
古典蒙古語 |
cmg |
||||
Mongolian, Halh |
喀爾喀蒙古語 |
khk |
||||
Mongolian, Middle |
中古蒙古語 |
xng |
||||
Mongolian, Peripheral |
內蒙古蒙古語 |
mvf |
||||
Mongolian languages |
蒙古語族 |
xgn |
語言集合;階層關係 tut:xgn |
|||
Oirat, Written |
書面衛拉特語 |
xwo |
||||
Paiwan |
排灣語 |
pwn |
||||
Papora-Hoanya |
巴布拉洪雅語 |
ppu |
||||
Puyuma |
卑南語 |
pyu |
||||
Qiang, Northern |
北部羌語 |
cng |
||||
Qiang, Southern |
南部羌語 |
qxs |
||||
Rukai |
魯凱語 |
dru |
||||
Saaroa |
沙阿魯阿語 |
sxr |
||||
Saisiyat |
賽夏語 |
xsy |
||||
Sign languages |
手語 |
sgn |
sgn |
語言集合 |
||
Sino-Tibetan languages |
漢藏語系 |
sit |
sit |
語言集合 |
||
Siraya |
西拉雅語 |
fos |
||||
Taiwan Sign Language |
台灣自然手語 |
tss |
||||
Tangut |
西夏語 |
txg |
||||
Taroko |
太魯閣語(賽德克語) |
trv |
||||
Thao |
邵語 |
ssf |
||||
Tibetan |
藏語 |
bod |
bod/tib |
bo |
||
Tibetan, Amdo |
安多藏語 |
adx |
||||
Tibetan, Classical |
古典藏語 |
xct |
||||
Tibetan, Khams |
康巴藏語 |
khg |
||||
Tibetan, Old |
古藏語 |
otb |
||||
Tibeto-Burman languages |
藏緬語族 |
tbq |
語言集合;階層關係 sit:tbq |
|||
Tsou |
鄒語 |
tsu |
||||
Tungus languages |
通古斯語族 |
tuw |
語言集合;階層關係 tut:tuw |
|||
Turkic languages |
突厥語族 |
trk |
語言集合;階層關係 tut:trk |
|||
Uighur |
維吾爾語 |
uig |
uig |
ug |
||
Uighur, Old |
古維吾爾語 |
oui |
||||
Yami |
達悟語(雅美語) |
tao |
||||
Yugur, East |
東部裕固語 |
yuy |
||||
Yugur, West |
西部裕固語 |
ybe |
撰文:蕭素英、詹景勛
致謝:瓦歷斯.浦亞
<返回目錄>
[1] 數位典藏與數位學習國家型科技計畫後設資料工作組網頁,計畫簡介:http://metadata.teldap.tw/introduction/introduction-frame.html。
[2]沈漢聰,《數位典藏技術彙編》電子書,數位典藏國家型科技計畫,2004年,ch.9-1。
[3]Dublin Core元素清單,數位典藏與數位學習國家型科技計畫後設資料工作組網頁 http://metadata.teldap.tw/standard/standard-frame.html。
[4] 張如瑩,〈語言開放典藏社群簡介及語言座標計畫參與狀況〉,語言典藏子計畫,數位典藏國家型科技計畫網頁http://www2.ndap.org.tw/newsletter06/news/read_news.php?nid=888。
[5]〈檔案管理局97年工作成果–工作分項領域知識資料彙整〉。取自檔案管理局網頁http://wiki.archives.gov.tw/index.php?option=com_content&view=article&id=556&Itemid=107。
[6] ISO 639 的六個部份包括:ISO 639-1:2002 Codes for the representation of names of languages — Part 1: Alpha-2 code; ISO 639-2: 1998 Codes for the representation of names of languages — Part 2: Alpha-3 code; ISO 639-3: 2007 Codes for the representation of names of languages — Part 3: Alpha-3 code for comprehensive coverage of languages; ISO 639-4 Codes for the representation of names of languages — Part 4: General principles of coding of the representation of names of languages and related entities, and application guidelines (尚未出版); ISO 639-5: 2008 Codes for the representation of names of languages — Part 5: Alpha-3 code for language families and groups; ISO 639-6: 2009 Codes for the representation of names of languages — Part 6: Alpha-4 code for comprehensive coverage of language variants。
[7] Infoterm: http://www.infoterm.info/。
[8] SIL的主要工作項目包含語言發展、學術研究、語言能力培訓、語言傳播媒材開發、翻譯、技術語言發展等項。SIL 出版的 Ethnologue: Languages of the World,在第14版之前使用SIL自訂的語言代碼。
[9] Geolang: http://www.geolang.com。
[10] 資料來源 Languages of Taiwan,《Ethnologue : Languages of the World》, Ethnologue:Web,網頁http://www.ethnologue.org/show_country.asp?name=TW 2010年1月21日查詢 ;ISO 639 http://en.wikipedia.org/wiki/ISO_639 2010年1月21日查詢; ISO 639 Code Tables http://www.sil.org/iso639-3/codes.asp 2010年1月21日查詢; List of ISO 639-5 codes http://en.wikipedia.org/wiki/List_of_ISO_639-5_codes 2010年1月21日查詢。
全文下載 (32.3 MB, 2,478 hits)