生物多樣性資料 Metadata 在不同尺度的意義
中央研究院 生物多樣性研究中心/柯智仁
Metadata 中文的譯法應該還會分歧一段時日,不管是「後設資料」、「詮釋資料」都包含到原文的意思了,而對岸普遍使用的「元資料」筆者認為其實比較適合拿來當作 atomized data 的譯詞。再提 metadata 的原因是,在目前生物多樣性資料的整合工作上,metadata 已經開始指涉兩種不同類型的資料內容,為免將來的溝通過程因為聽眾有意無意地把 metadata 所指的資料限縮在其中一種,特此為文釐清。
數位典藏計畫啟動時,博物館及標本館的實體標本是數位化的主要對象,通常其成果是影像檔案,但計畫執行單位同時會將該標本的標籤資訊、館藏管理資訊與相關的採集、地理資訊一併著錄,此著錄的資訊即為數位化物件的 metadata。一般當我們要求計畫在結案時要將 metadata 上傳到數位典藏的聯合目錄,指的就是這些著錄資料。各資料生產者必須使用相同的資料規格(或標準)才能達到資料共享、流通的目的,以生物多樣性的標本資料而言,在國內我們建議使用 Darwin Core 記載之。
這些標本資料,影像的部分提供形態鑑定的參考依據,著錄的 metadata 則描述此標本,可視為一個歷史上的觀測資訊。換句話說,標本實體是此物種在過去的某個時空曾經出現的證據,此證據的相關資訊,在數位化的過程中著錄下來。標本資料整合的過程中,每個標本的 metadata 各自代表所描述的「物種出現資訊」,透過TaiBIF,這些資訊被視為「點」和全世界所有標本館的「點」資料在 GBIF 平台上一起呈現。
對於資料品質有點概念的人,可能會想問:「這些點資料真的可以這樣全部放在一起看而不會有任何問題嗎?」可以,也不可以,這要看使用者的需求,以及資料是否提供用來判別是否適用的額外資訊。
就地理資訊而言,稍微瞭解GPS 定位原理就會知道,衛星在天空中的位置、天氣晴朗與否、建築物遮蔽都會影響到定位座標的誤差值,甚至有時使用者根本不曉得自己錯用了不同的大地基準。或者,有些單位針對敏感的物種分布資訊做了模糊處理,有些沒有,因此當這次資料被一視同仁地呈現在地圖上時,使用者實際上無從判定這些資料是否適合取用。另外,對於物種鑑定的結果,吾人是否能知道鑑定者對於該分類群的瞭解程度以決定該物種學名是否正確給定?以上種種考量,有些需要更詳盡地著錄原始資料的欄位,有些則需要在原始資料之外提供額外的描述資訊,像是取得資料的方法,資料是在何種研究背景取得,或是對於資料有進一步問題能聯絡、請教的對象等等,如此才能讓使用資料的人決定以什麼方法處理資料,或只使用滿足特定條件的子集合。
當這些自然史藏品的點資料(數位化物件的 metadata)需要其他資訊加以描述時,這些標本著錄的資料集也就有了自己的 metadata,這樣一來,我們在自然史典藏就會面對「metadata 的 metadata」這樣的語言。此時,metadata 的意義仍然一樣,只是我們的議題已經從標本數位化的尺度抽象提升到物種資訊整合的尺度,只要注意討論時的尺度,這其實不會造成困擾(請見附圖及圖說)。在生態資訊領域通行的 Ecological Metadata Language(EML),就把物種出現的點資料或是儀器取得的環境因子資料視為 source data(或 rawdata),而計畫執行的目的、方法、時空範圍等描述整體資料集的資訊則視為 metadata。事實上,在生物多樣性資訊跨館、跨國討論資料交換的場合,通常metadata 指的較常是資料集的描述資訊,而較少指涉數位物件的著錄資料。而未來這類基於資料集的描述資料集中起來,將能建構起自然史典藏的索引(請見 Biodiversity Collection Index Project),進而滿足使用者尋找適用資料集的需求(請見 GBIF Biodiversity Resources Discovery System, GBRDS)。
因為 metadata 的意涵較有彈性,故吾人在溝通的過程中,應該注意討論指涉的對象及尺度,特別是大家在數典的氛圍中已經習慣將 metadata 等同於標本數位化物件的著錄資料時。
附圖及圖說
標題:不同尺度的metadata
1. 針對數位化物件著錄與該物件相關的描述資料,是為此物件的 metadata,例如:
ColumnName | ColumnValue |
ScientificName | Rubus liuii Yang & Lu |
Locality | Mukuashan |
GeodeticDatum | TWD67 |
DecimalLatitude | 23.9075 |
DecimalLongitude | 121.435556 |
LatestDateCollected | 1961-07-25 |
Collector | M.T.Kao |
CollectorNumber | 4204 |
IdentifiedBy | T.Shimizu |
… | … |
2. 此 metadata 被視為一筆物種出現資料(點資料),與其他典藏單位的物種資料一併在 GBIF 或其他整合節點呈現。
3. 以相同方法、在相同背景下數位化或收集取得的物種出現資料,與其他使用其他方法或在不同背景下取得的資料可能有不同的適用性。針對每一批資料集建立起資料集的 metadata,有助於使用者決定那些資料集可以滿足其技術上、精確度上或其他可能的需求。此時 metadata 的內容通常是(表格值為虛構):
ColumnName | ColumnValue |
ProjectName | National Botany University Herbarium Digital Archives Project |
DatasetGUID | urn:lsid:tpi.nbu.edu.tw:pnspcol:344175 |
Method | 1. Specimens are digitized according to procedures described in manuals published by TELDAP project.
2. Sensitive coordinates are generalized. Please contact for permission and formula. |
Contact | Dr. John Smith |
ContactEmail | johnsmith[at]nbu.edu.tw |
TemporalCoverage | 1932-10-23 to 2009-01-07 |
Keywords | Fagales, specimen, teldap, ndap |
KeywordsInChinese | 殻斗目, 標本, 數位學習, 數位典藏 |
… | … |
從這個資料集的metadata 可以得知,這個計畫產出的標本資料主要以殼斗目的標本有關,採用的步驟是數位典藏出版的手冊;座標已經調整過,需要與聯絡人接洽才能獲得還原為原始坐標的方程式。資料集的全球唯一識別碼(GUID)可同時讓人與機器識別此資料集。資料集的 metadata 愈詳細,愈能幫助使用者決定是否使用所包含的資料。例如,假如使用者對殼斗目的標本完全沒有興趣,就不需要下載資料來用。
九月 29th, 2009 at 10:07 上午
[...] 資料來源:數位典藏觀察室 >> Blog Archive >> 生物多樣性資料 Metadata 在不