1024x768 1280x800   Decrease font size for  - 拓展台灣數位典藏 - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 Reset to normal font size for  - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 - 拓展台灣數位典藏 Increase font size for  - 拓展台灣數位典藏
 


語料庫建置入門工作流程指南

Tags: , , , , , , 發表: 2010-06-01, 點閱: 77,709 , 加入收藏櫃 , 列印 列印 , 轉寄 轉寄

想加入的書籤: HemiDemi MyShare Baidu Google Bookmarks Yahoo! My Web Del.icio.us Digg technorati furl 加入此網頁到:YouPush . . 推到twitter 推到plurk 推到FACEBOOK

 

壹、後設資料與相關國際標準

 

後設資料(Metadata)在數位典藏領域中最常見的解釋是「資料中的資料」(Data about Data)。以數位相機所拍攝的照片為例,拍攝完的每一張照片都是一筆數位檔案,除了影像資料外,這張照片檔案內還會有EXIF後設資料,上面記載拍攝日期、時間、地點、光圈、快門、焦距、鏡頭以及白平衡設定等多項資料。

 

根據數位典藏與數位學習國家型科技計畫後設資料工作組(以下簡稱後設資料工作組)的解釋,後設資料的定義為[1]

 

後設資料(Metadata)是一組結構與標準化的背景資料,包括描述性、結構性與管理性三大類型,以及語義性、語法性與詞彙性三大屬性,用來描述每個數位典藏品的內涵與特徵,以便數位典藏品能夠在數位化環境或系統中,達到最佳化資源探索的效能,並能有效率而精準地被探索、呈現、管理、控制與執行相關功能,且順利地與其他數位典藏品進行資源互通與共享,最後還能達成數位典藏品的永久保存目的。

 

由此可知,每一件要永久保存的數位典藏品,背後都應該擁有一組後設資料,這些後設資料是確保數位化成果能被有意義地永久保存,有效率地被搜尋利用。以功能導向而言,後設資料有三種類型[2]

 

(一) 描述性後設資料:用以描述一項文件或資源的內涵與關聯性,以便於發現與辨識資源,例如:書目記錄與本章之後將介紹的Dublin Core。

 

(二) 結構性後設資料:給予數位典藏品實質的結果,以便於瀏覽、檢索和呈現上述的資源,例如書的章節結構、具翻頁功能的電子全文,全文與相關影像的連結。

 

(三) 管理性後設資料:為了長久的管理、使用與觀看數位化資源的相關資源,如檔案格式、數位化解析度、智財權管理資訊等。

 

物件的後設資料可以隨計畫需求而調整,因此後設資料內容有大有小,各類型物件的編目規範也有所差異。語料庫的後設資料必須顧及許多層面,為了追求資料的健全完整,在後設資料欄位的制訂上會採用多種國際標準,比如Dublin Core都柏林核心集、OLACMS、ISO語言代碼等標準;如果語料庫要做到跨資料檢索,或是與國外進行資料交換,則要使用OLAC開放語言典藏社群所推薦的網路協定標準OAI-PMH。

 

語言學研究的目的是調查瞭解語言行為模式和分析各種語言,執行研究工作時,語言的發音人、語料搜集地點等都是探討項目之一,所以每一個語言樣本的背後都要擁有詳細的描述資料,以做為語言研究的基礎資訊,對於語料庫而言,後設資料的內容屬於較龐大的類型。

 

語料庫工作團隊在進行語料收錄之前,最好先按照計畫需求先完成後設欄位的制訂,仔細考量收錄語料時所必須記錄的資訊,避免完成語料收集工作並且離開調查地點之後,才發現資料掛一漏萬,屆時要再次進行語料收錄、田野調查,不僅費時費力且浪費計畫經費。

 

後設資料工作組強調,後設資料的規劃與實施是數位典藏工作的基礎建設,未來語料的檢索功能和語料的完整性與實用性,都端看後設欄位的詳細與否。有鑑於此,語料庫計畫團隊制訂後設資料欄位時,務必多花功夫,以求完整、全面。以下介紹泛用型的後設資料元素集「都柏林核心集」(Dublin Core)以及幾個與語料庫後設資料相關的國際標準。

 

一、都柏林核心集

 

1995年,OCLC(Online Computer Library Center)與NCSA(National Center for Supercomputing Application)聯合召開第一屆會議,會議上集合了圖書館界、資訊科學界的各領域專家 ,制定了一套專為網路資源而設計的後設資料元素集。這套元素內容依據會議地點美國俄亥俄州Dublin而命名,稱為Dublin Core(簡稱DC),目前Dublin Core已經成為國際標準,後續發展及規格內容由Dublin Core Metadata Initiative(簡稱DCMI)組織管理。

 

Dublin Core的規範力求簡單而有效,目前廣泛使用於數位典藏物件的後設資料上。Dublin Core的每個欄位都可以選擇性或重覆性使用,大部分的欄位也有一套限制性的細項可選用,可以進一步的表達完整的意義。每個元素欄位可以採任意排序呈現,著錄的規則也可按照計畫需求來訂定。非強制性的特色讓Dublin Core易於掌握及使用,但並不一定適用於所有的物件,對於意義與概念複雜的典藏物件更是如此。

 

目前Dublin Core欄位有兩種層級,較簡單的Dublin Core欄位中,採用15個元素欄位來描述數位典藏物件;至於完整Dublin Core欄位,則是在15個元素欄位中,再細分修飾語欄位,欄位內容包含使用對象、出處以及版權所有者等,更利於資料被搜尋使用。

 

15個Dublin Core欄位其下包含的修飾語又分Element Refinement元素精緻化、Element Encoding Scheme元素編碼表兩種,使用的原則有三大項:

 

1. 一對一原則:Dublin Core一次只描述一個數位典藏品,內容相同但屬於複製本或不同版本的物件,在Dublin Core元素中的創作者(Creator)、貢獻者(Contributor)等欄位的內容會不同。

 

2. 簡化原則:元素欄位可以不使用任何修飾語,僅保留資料值。

 

3. 適當的資料值:隨著物件不同,填入元素欄位或是修飾語欄位內的內容也會不同,應仔細斟酌填寫才能發揮後設資料的效用。

 

Dublin Core 有簡單容易制訂的特性,未經專業訓練的使用者也能制訂後設資料,甚至可以自行發展編輯器;此外,Dublin Core 的彈性大,內容可依需求延伸、選擇,同時又具有可重複性及可變性,符合多樣類型的數位典藏需求;最後,Dublin Core是以英文為發展基礎,易於國際上通用,是其強力優勢,因而成為國際間普遍應用的後設資料標準。

 

表1-1、Dublin Core一覽表[3]

Element

Definition

Qualifiers

Element Refinements

Element Encoding Schemes

Title

A name given to the resource

Alternative

 

Creator

An entity primarily responsible for making the content of the resource

   

Subject and Keywords

The topic of the content of the resource

 

LCSH

MESH

DDC

LCC

UDC

Description

An account of the content of the resource

Table of Contents

Abstract

 

Publisher

An entity responsible for making the resource available

   

Contributor

An entity responsible for making contributions to the content of the resource

   

Date

A date associated with an event in the life cycle of the resource

Created

Valid

Available

Issued

Modified

DCMI Period

W3C-DTF

Resource Type

The nature or genre of the content of the resource

 

DCMI type vocabulary

Format

The physical or digital manifestation of the resource

Extent

Medium

IMT

Resource Identifier

An unambiguous reference to the resource within a given context

 

URI

Source

Reference to a resource from which the present resource is derived

 

URI

Language

A language of the intellectual content of the resource

 

ISO 639-2

RFC 1766

Relation

A reference to a related resource

Is version of

Has version

Is replaced by

Requires

Is part of

Has part

Is referenced by

References

Is format of

Has format

URI

Coverage

The extent or scope of the content of the resource

Spatial

Temporal

DCMI point

ISO 3166

DCMI box

TGN

DCMI Period

W3C-DTF

Rights Management

Information about rights held in and over the resource

AccessRights

License

RightsHolder

 

 

 

 

二、語料庫後設資料相關國際標準

 

(一) OLACMS 後設資料元素集

 

「開放語言典藏社群」(Open Language Archives Community, OLAC)是一個由個人或組織所組成的國際性合作協會,成立於2000年12月,目前的主要協調人為Steven Bird與Gary Simons ,中央研究院鄭錦全院士是諮詢委員,中央研究院語言學研究所黃居仁研究員是顧問。

 

鑑於全世界許多組織都需要使用到語言資源,例如語言學家、工程師、檔案管理相關人士、軟體發展商和出版商等,大部分的使用者都希望透過單一介面就能取得所需的資源,包含描述語言的相關資訊、用來查詢語言的工具等,但是不同的語言資源散佈於網路各處,使用者難以一次就找到所需的資源,因此OLAC設立兩個目標,[4]一是針對語言典藏發展一套一致性的實踐指引;二是發展具有互通性的語言資源儲存器與服務中心。

 

為了完成這兩項目標,OLAC以Dublin Core Metadata Initiative與Open Archives Initiative(簡稱OAI)所制訂的兩個標準作為基礎,以達到與國外資料庫進行資料交換、跨資料檢索的目的。

 

後設資料上,OLAC以Dublin Core的15個元素欄位進行修改,制訂出一套更詳細的後設資料欄位,即為OLACMS,欄位如表1-2:

 

表1-2、OLACMS元素欄位

欄位元素

中文

欄位元素

中文

Contributor

貢獻者

Language

語言

Coverage

涵蓋範圍

Publisher

出版者

Creator

創造者

Relation

關聯性

Date

日期

Rights

權利管理

Description

資料描述

Source

來源

Format

資源格式

Subject

主題

Format.cpu

資源cpu格式

Subject.language

主題使用語言

Fomat.encoding

資源編碼格式

Title

資源標題

Format.markup

標誌語言

Type

資源型態

Format.os

作業系統需求

Type.functionality

軟體資源的功能

Format.sourcecode

程式語言

Type.linguistic

語言學上的資源型態

Identifier

資源識別碼

 

 

 

OLACMS採用四個屬性做更詳細的特性定義,另外還包含一個langs附屬屬性。

 

1. refine:用來識別較仔細的意義與特性。

 

2. scheme:規範各元素內容文字是已經標準化的名稱。

 

3. code:用來標記後設資料中,OLAC特有的標誌系統。

 

4. lang:每個OLACMS中必有的屬性,註明元素欄位使用的語言。

 

5. langs:屬於元素的屬性,規範後設資料被閱讀時所採用的語言。

 

(二)跨資料庫檢索網路協定

 

OLAC也為有意進行跨資料檢索的語料庫計畫提供了一套解決方案。為了促進資料庫之間的相互搜尋,OLAC採用Open Archives Initiative(簡稱OAI)[5]所制訂的網路協定–OAI-PMH,透過此協定內容,使用者可以不分系統、應用程式、領域、語言的限制,在網路上搜尋資料,包含後設資料中所登錄的內容也可供搜尋。

 

OLAC透過OAI-PMH的協定,到各個資料提供者(Data Provider),也就是語料庫中抓取資料,然後在OAI 服務提供者(Service Provider)中建立一個索引。一旦有使用者在網路上搜尋資料時,就可以快速的看到完整而豐富的索引結果。

 

如果語料庫計畫團隊想要與OLAC進行跨資料庫檢索,有兩種方法,一種是由語料庫計畫團隊自行架設OAI Data Provider的伺服器,供OAI Service Provider定期抓取資料。第二種是語料庫計畫團隊依照OLAC建議的XML延伸性標誌語法,將語料庫資料製作成相關的文件,提供給OAI Service Provider。

 

(三)語言代碼國際標準

 

ISO 639 系列是國際標準組織所訂定的語言代碼,分為六個部份[6]。ISO 639-1 是第一部份,於2002年出版,使用兩個字母編碼,用來標示世界上主要的語言,註冊機構為 Infoterm (International Information Center for Terminology)[7] 。ISO 639-2 是第二部份,於1998出版,使用三個字母來表示語言、大語言(macrolanguage)、語系以及語言集合,其中大語言是數種密切相關語言的泛稱;此外,有 mis, mul, und, zxx 等四個特殊代碼以及使用者自行定義的保留碼區(qaa~qtz),"mis" 表示「未被編碼的語言」(Uncoded languages),"mul" 表示內容包括多種語言,且不一一標示,"und"表示「未確定的語言」(Undetermined Language),"zxx" 表示「沒有語言內容」(No Linguistic Content),使用於系統要求一定要標示語言,但內容不含語言訊息的情況。 ISO 639-2 的註冊機構是美國國會圖書館。ISO 639-3 是語言開放典藏社群(OLAC)目前推薦使用的語言代碼國際標準,於2007年出版,延伸ISO 639-2,但不包括語系、語言集合,目標是以三碼涵蓋所有語言,包括現存、絕跡、歷史、古老與人工的語言,美國國際語言暑期學院(SIL International)[8] 於2002年起參與ISO 639-3標準的制定,已將SIL 語言代碼整合進入新的標準,並自Ethnologue 第十五版起使用該標準。SIL International 也是 ISO 639-3的註冊機構。 ISO 639-5 於2008年出版,延伸ISO 639-2 中的語言集合,以三碼描述語系、語族、語群或是具有共同性質的語言之集合(如手語、混合語、人工語),註冊機構也是美國國會圖書館。 ISO 639-6 於2009年11月出版,試圖以四碼描述全世界所有之語言文字變體,由於才出版不久,除了主要參與制定的機構GeoLang Ltd 外,[9]採用的單位很少。

 

表1-3、 部份語言與語言集合之國際標準代碼[10] (製表:蕭素英)

英語名稱

中文名稱

ISO

639-5

ISO

639-3

ISO

639-2

ISO

639-1

備註

Altaic languages

阿爾泰語系

tut

 

tut

 

語言集合

Amis

阿美語

 

ami

     

Amis, Nataoran

荳蘭阿美語

 

ais

     

Artificial languages

人工語言

art

 

art

 

語言集合

Atayal

泰雅語

 

tay

     

Austro-Asiatic languages

南亞語系

aav

     

語言集合

Austronesian languages

南島語系

map

 

map

 

語言集合

Babuza

巴布薩語

 

bzg

     

Basay

巴賽語

 

byq

     

Bunun

布農語

 

bnn

     

Buriat

布里雅特語

 

bua

bua

 

大語言

Buriat, China

巴爾虎布里雅特蒙古語

 

bxu

     

Buriat, Mongolia

蒙古國布里雅特語

 

bxm

     

Buriat, Russia

俄羅斯布里雅特語

 

bxr

     

Chinese

中文、漢語

 

zho

zho/chi

zh

大語言

Chinese, Gan

贛語

 

gan

     

Chinese, Hakka

客語

 

hak

     

Chinese, Huizhou

徽語

 

czh

     

Chinese, Jinyu

晉語

 

cjy

     

Chinese, Late Middle

近代漢語

 

ltc

     

Chinese, Literary

文言文

 

lzh

     

Chinese, Mandarin

官話

 

cmn

     

Chinese, Min Bei

閩北語

 

mnp

     

Chinese, Min Dong

閩東語

 

cdo

     

Chinese, Min Nan

閩南語

 

nan

     

Chinese, Min Zhong

閩中語

 

czo

     

Chinese, Old

古漢語

 

och

     

Chinese, Pu-Xian

莆仙語

 

cpx

     

Chinese, Wu

吳語

 

wuu

     

Chinese, Xiang

湘語

 

hsn

     

Chinese, Yue

粵語

 

yue

     

Creoles and pidgins

 

crp

 

crp

 

語言集合

Daur

達斡爾語

 

dta

     

Dongxiang

東鄉語

 

sce

     

English

英語

 

eng

eng

en

 

English, Middle (1100-1500)

中古英語

 

enm

enm

   

English, Old (ca. 450-1100)

古英語

 

ang

ang

   

Esperanto

世界語

 

epo

epo

eo

 

Formosan languages

台灣南島語族

fox

     

語言集合;階層關係 map:fox

German

德語

 

deu

deu/ger

de

 

Germanic languages

日耳曼語族

gem

 

gem

 

語言集合;階層關係 ine:gem

Indo-European languages

印歐語系

ine

 

ine

 

語言集合

Japanese

日語

 

jpn

jpn

ja

 

Jurchen

女真語

 

juc

     

Kalmyk~Oirat

卡爾梅克語、衛拉特語

 

xal

xal

   

Kanakanabu

卡那卡那富語

 

xnb

     

Kavalan

噶瑪蘭語

 

ckv

     

Ketangalan

凱達格蘭語

 

kae

     

Kitan

契丹語

 

zkt

     

Korean

韓語

 

kor

kor

ko

 

Kulon-Pazen

巴宰語

 

uun

     

Manchu

滿語

 

mnc

mnc

   

Mon-Khmer languages

孟高棉語族

mkh

 

mkh

 

語言集合;階層關係 aav:mkh

Mongolian

蒙古語

 

mon

mon

mn

大語言

Mongolian, Classical

古典蒙古語

 

cmg

     

Mongolian, Halh

喀爾喀蒙古語

 

khk

     

Mongolian, Middle

中古蒙古語

 

xng

     

Mongolian, Peripheral

內蒙古蒙古語

 

mvf

     

Mongolian languages

蒙古語族

xgn

     

語言集合;階層關係 tut:xgn

Oirat, Written

書面衛拉特語

 

xwo

     

Paiwan

排灣語

 

pwn

     

Papora-Hoanya

巴布拉洪雅語

 

ppu

     

Puyuma

卑南語

 

pyu

     

Qiang, Northern

北部羌語

 

cng

     

Qiang, Southern

南部羌語

 

qxs

     

Rukai

魯凱語

 

dru

     

Saaroa

沙阿魯阿語

 

sxr

     

Saisiyat

賽夏語

 

xsy

     

Sign languages

手語

sgn

 

sgn

 

語言集合

Sino-Tibetan languages

漢藏語系

sit

 

sit

 

語言集合

Siraya

西拉雅語

 

fos

     

Taiwan Sign Language

台灣自然手語

 

tss

     

Tangut

西夏語

 

txg

     

Taroko

太魯閣語(賽德克語)

 

trv

     

Thao

邵語

 

ssf

     

Tibetan

藏語

 

bod

bod/tib

bo

 

Tibetan, Amdo

安多藏語

 

adx

     

Tibetan, Classical

古典藏語

 

xct

     

Tibetan, Khams

康巴藏語

 

khg

     

Tibetan, Old

古藏語

 

otb

     

Tibeto-Burman languages

藏緬語族

tbq

     

語言集合;階層關係 sit:tbq

Tsou

鄒語

 

tsu

     

Tungus languages

通古斯語族

tuw

     

語言集合;階層關係 tut:tuw

Turkic languages

突厥語族

trk

     

語言集合;階層關係 tut:trk

Uighur

維吾爾語

 

uig

uig

ug

 

Uighur, Old

古維吾爾語

 

oui

     

Yami

達悟語(雅美語)

 

tao

     

Yugur, East

東部裕固語

 

yuy

     

Yugur, West

西部裕固語

 

ybe

     

 

撰文:蕭素英、詹景勛

致謝:瓦歷斯.浦亞

 


 

 <返回目錄>

 

[1] 數位典藏與數位學習國家型科技計畫後設資料工作組網頁,計畫簡介:http://metadata.teldap.tw/introduction/introduction-frame.html

 

[2]沈漢聰,《數位典藏技術彙編》電子書,數位典藏國家型科技計畫,2004年,ch.9-1。

 

[3]Dublin Core元素清單,數位典藏與數位學習國家型科技計畫後設資料工作組網頁 http://metadata.teldap.tw/standard/standard-frame.html

 

[4] 張如瑩,〈語言開放典藏社群簡介及語言座標計畫參與狀況〉,語言典藏子計畫,數位典藏國家型科技計畫網頁http://www2.ndap.org.tw/newsletter06/news/read_news.php?nid=888

 

[5]〈檔案管理局97年工作成果–工作分項領域知識資料彙整〉。取自檔案管理局網頁http://wiki.archives.gov.tw/index.php?option=com_content&view=article&id=556&Itemid=107

 

[6] ISO 639 的六個部份包括:ISO 639-1:2002 Codes for the representation of names of languages — Part 1: Alpha-2 code; ISO 639-2: 1998 Codes for the representation of names of languages — Part 2: Alpha-3 code; ISO 639-3: 2007 Codes for the representation of names of languages — Part 3: Alpha-3 code for comprehensive coverage of languages; ISO 639-4 Codes for the representation of names of languages — Part 4: General principles of coding of the representation of names of languages and related entities, and application guidelines (尚未出版); ISO 639-5: 2008 Codes for the representation of names of languages — Part 5: Alpha-3 code for language families and groups; ISO 639-6: 2009 Codes for the representation of names of languages — Part 6: Alpha-4 code for comprehensive coverage of language variants。

 

[7] Infoterm: http://www.infoterm.info/

 

[8] SIL的主要工作項目包含語言發展、學術研究、語言能力培訓、語言傳播媒材開發、翻譯、技術語言發展等項。SIL 出版的 Ethnologue: Languages of the World,在第14版之前使用SIL自訂的語言代碼。

 

[9] Geolang: http://www.geolang.com

 

[10] 資料來源 Languages of Taiwan,《Ethnologue : Languages of the World》, Ethnologue:Web,網頁http://www.ethnologue.org/show_country.asp?name=TW 2010年1月21日查詢 ;ISO 639 http://en.wikipedia.org/wiki/ISO_639 2010年1月21日查詢; ISO 639 Code Tables http://www.sil.org/iso639-3/codes.asp 2010年1月21日查詢; List of ISO 639-5 codes http://en.wikipedia.org/wiki/List_of_ISO_639-5_codes 2010年1月21日查詢。









Download: 全文下載  全文下載 (32.3 MB, 2,471 hits)



評分:

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

回應:


請輸入圖片中的文字
請按圖片取得圖片中文字的錄音檔
Click to hear an audio file of the anti-spam word