如何建置數位化資料庫的metadata:以「善本古籍」的數位化工作為例
內容發展分項計畫/江仁傑 2005.09
Metadata在臺灣翻譯為「後設資料」或「詮釋資料」,意思是「描述資料的資料」或「詮釋資料的資料」(data about data)。制訂metadata,是為了記下某一筆數位化資料的特性,例如我用數位相機拍攝的照片,可以有照片名稱、主題、拍攝者姓名、時間、地點、描述…等等簡單欄位,而這些欄位資訊,就是這張照片的後設資料。
metadata最好能達成三項目的:
- 描述數位藏品的內涵、特色。
- 在網路上或電腦上,易於檢索到使用者所需的一筆或數筆資料。
- 容易與其他資料庫互通、交換資料。
當然,依照資料庫建置的目的、針對的對象…等不同的考量,資料庫的metadata也許只需要達成上述一、兩個目的即可。
粗略地區分,資料庫的metadata可以分為兩種情況:一、如數位化物件不多,或者只需要簡易註記與搜尋功能,meatadata就可以制定得很簡單;二、若針對學術、研究用途,則可以制訂較嚴謹完整的metadata,用數十個甚至上百個欄位來描述一筆資料。目前參與「數位典藏國家型科技計畫–內容發展分項計畫」的單位所制訂的meatadata,通常是第二種情況。
在制訂meatadata時,各單位通常是依照自己的需要,參考某種較為通用的metadata標準,將之修改後再加以使用。如此一來,在進行資料交換時,雖仍需對應不同資料庫的欄位,但過程較為簡便,不需對應所有的欄位。
以「數位典藏國家型科技計畫-內容發展分項計畫」中的「善本古籍」主題小組為例,其中,「史語所傅斯年圖書館藏善本圖籍」計畫,就是參考圖書館界常用的「機讀編目格式」(Machine Readable Cataloguing Record,MARC)來制訂資料庫的metadata,而「國家圖書館古籍文獻典藏數位化計畫」,則是參考另一個常用的metadata標準「都柏林核心集」(Dublin Core)。
而參加善本古籍主題小組的三個機構計畫(中研院史語所傅斯年圖書館善本圖籍、國家圖書館古籍文獻典藏數位化計畫、故宮博物院善本古籍數位典藏子計畫),也參考「都柏林核心集」制訂出三個計畫之間的共通欄位,並且以這個共通欄位分別與三個計畫的欄位進行對應,因此,這三個計畫的資料庫都可以將資料匯出成「都柏林核心集」的matadata,便於資料交換。
試圖建置善本古籍相關資料庫的人士,可以聯繫已經參加過「善本古籍」主題小組的單位,以他們的meatdata做為參考,來制訂自己的metadata。或者,直接聯繫後設資料工作組(MAAT),請該小組協助制訂。
另外,在一般性、數量不多,或只需要簡易描述與搜尋功能的情況下,建議採用簡易的「都柏林核心集」(如下)。也可參酌這15個欄位,自行制訂更簡易的metadata欄位:
簡易「都柏林核心集」
欄位名稱 | 定義 |
題名Title | 典藏品的名稱,例如:動植物的學名、中英俗名,物件名稱,文件資料標題…等等。 |
著作者Creator | 編輯、創造該筆資源內容的主要負責人、團體、機構等,例如:作者,照片攝影者,地圖測匯者,標本鑑定者…等等。 |
主題與關鍵字Subject & Keywords | 資源內容的標題,例如:相關族群,礦物類別…等等,也可能是原典藏單位直接著錄之關鍵字。 |
描述Description | 資源內容的說明,例如:器物用途解釋,生物習性,圖畫流派意境,古文字、圖像釋文或解說,新聞報導內容…等等,通常是一小段文字。 |
出版者Publisher | 使資源能廣泛使用者,包括出版的個人與團體、機構。 |
貢獻者Contributor | 對於資源內容形成貢獻者,責任次於「著作者Creator」,例如:被攝影的對象,被調查、被描述的對象,文書中提及的對象,標本採集者…等等。 |
日期Date | 資源週期的事件日期,例如:製造日期,書寫日期,測繪日期,出版品發行日期,發掘日期…等等。 |
資料類型Type | 資源內容的性質或類型,例如:原始典藏品的素材種類,錄音帶、照片…等等。 |
格式Format | 關於資源的實際或數位的形式,包括媒體類型或資源的度量資料,例如:jepg檔,長寬高50×10×13,放映時間5分鐘…等等。 |
資料識別Resource Identifier | 該典藏品資源的明確辨識資料,例如:登錄號,典藏號,URI…等等。 |
來源Source | 敘述目前資源的衍生資源,例如:某一筆數位化物件的原始物件相關資訊。 |
語言Language | 資源所使用的語言,例如,內閣大庫檔案使用的語言類型是「漢文」或「中文」,部分文書可能是「原文:英文,譯文:中文」。 |
關聯Relation | 說明相關的資源,例如:參考書目,圖片登載出處…等等。 |
範圍Coverage | 資源內容的廣度或範圍,包括時、空的因素,例如:時期(時間名稱、日期或期間),空間地點(地理座標或地名),或行政區域。 |
管理權Rights | 描述資源權利相關的資訊,例如:原始物件典藏單位,數位化後物件典藏單位,後設資料著錄單位等。 |
(以上欄位,若沒有著錄之必要時,可以不填)
數位典藏聯合目錄,採取的就是簡易的「都柏林核心集」,請上網點選任一筆資料,參考其使用方式:http://catalog.ndap.org.tw/。