如何建置數位化資料庫的metadata:以「善本古籍」的數位化工作為例

內容發展分項計畫/江仁傑 2005.09

  Metadata在臺灣翻譯為「後設資料」或「詮釋資料」,意思是「描述資料的資料」或「詮釋資料的資料」(data about data)。制訂metadata,是為了記下某一筆數位化資料的特性,例如我用數位相機拍攝的照片,可以有照片名稱、主題、拍攝者姓名、時間、地點、描述…等等簡單欄位,而這些欄位資訊,就是這張照片的後設資料。

metadata最好能達成三項目的:

  1. 描述數位藏品的內涵、特色。
  2. 在網路上或電腦上,易於檢索到使用者所需的一筆或數筆資料。
  3. 容易與其他資料庫互通、交換資料。

當然,依照資料庫建置的目的、針對的對象…等不同的考量,資料庫的metadata也許只需要達成上述一、兩個目的即可。

  粗略地區分,資料庫的metadata可以分為兩種情況:一、如數位化物件不多,或者只需要簡易註記與搜尋功能,meatadata就可以制定得很簡單;二、若針對學術、研究用途,則可以制訂較嚴謹完整的metadata,用數十個甚至上百個欄位來描述一筆資料。目前參與「數位典藏國家型科技計畫–內容發展分項計畫」的單位所制訂的meatadata,通常是第二種情況。

  在制訂meatadata時,各單位通常是依照自己的需要,參考某種較為通用的metadata標準,將之修改後再加以使用。如此一來,在進行資料交換時,雖仍需對應不同資料庫的欄位,但過程較為簡便,不需對應所有的欄位。

  以「數位典藏國家型科技計畫-內容發展分項計畫」中的「善本古籍」主題小組為例,其中,「史語所傅斯年圖書館藏善本圖籍」計畫,就是參考圖書館界常用的「機讀編目格式」(Machine Readable Cataloguing Record,MARC)來制訂資料庫的metadata,而「國家圖書館古籍文獻典藏數位化計畫」,則是參考另一個常用的metadata標準「都柏林核心集」(Dublin Core)。

  而參加善本古籍主題小組的三個機構計畫(中研院史語所傅斯年圖書館善本圖籍、國家圖書館古籍文獻典藏數位化計畫、故宮博物院善本古籍數位典藏子計畫),也參考「都柏林核心集」制訂出三個計畫之間的共通欄位,並且以這個共通欄位分別與三個計畫的欄位進行對應,因此,這三個計畫的資料庫都可以將資料匯出成「都柏林核心集」的matadata,便於資料交換。

  試圖建置善本古籍相關資料庫的人士,可以聯繫已經參加過「善本古籍」主題小組的單位,以他們的meatdata做為參考,來制訂自己的metadata。或者,直接聯繫後設資料工作組(MAAT),請該小組協助制訂。

  另外,在一般性、數量不多,或只需要簡易描述與搜尋功能的情況下,建議採用簡易的「都柏林核心集」(如下)。也可參酌這15個欄位,自行制訂更簡易的metadata欄位:

簡易「都柏林核心集」

欄位名稱  定義 
題名Title  典藏品的名稱,例如:動植物的學名、中英俗名,物件名稱,文件資料標題…等等。 
著作者Creator  編輯、創造該筆資源內容的主要負責人、團體、機構等,例如:作者,照片攝影者,地圖測匯者,標本鑑定者…等等。 
主題與關鍵字Subject & Keywords  資源內容的標題,例如:相關族群,礦物類別…等等,也可能是原典藏單位直接著錄之關鍵字。 
描述Description  資源內容的說明,例如:器物用途解釋,生物習性,圖畫流派意境,古文字、圖像釋文或解說,新聞報導內容…等等,通常是一小段文字。 
出版者Publisher  使資源能廣泛使用者,包括出版的個人與團體、機構。 
貢獻者Contributor  對於資源內容形成貢獻者,責任次於「著作者Creator」,例如:被攝影的對象,被調查、被描述的對象,文書中提及的對象,標本採集者…等等。 
日期Date  資源週期的事件日期,例如:製造日期,書寫日期,測繪日期,出版品發行日期,發掘日期…等等。 
資料類型Type  資源內容的性質或類型,例如:原始典藏品的素材種類,錄音帶、照片…等等。 
格式Format  關於資源的實際或數位的形式,包括媒體類型或資源的度量資料,例如:jepg檔,長寬高50×10×13,放映時間5分鐘…等等。 
資料識別Resource Identifier  該典藏品資源的明確辨識資料,例如:登錄號,典藏號,URI…等等。 
來源Source  敘述目前資源的衍生資源,例如:某一筆數位化物件的原始物件相關資訊。 
語言Language  資源所使用的語言,例如,內閣大庫檔案使用的語言類型是「漢文」或「中文」,部分文書可能是「原文:英文,譯文:中文」。 
關聯Relation  說明相關的資源,例如:參考書目,圖片登載出處…等等。 
範圍Coverage  資源內容的廣度或範圍,包括時、空的因素,例如:時期(時間名稱、日期或期間),空間地點(地理座標或地名),或行政區域。 
管理權Rights  描述資源權利相關的資訊,例如:原始物件典藏單位,數位化後物件典藏單位,後設資料著錄單位等。 

(以上欄位,若沒有著錄之必要時,可以不填)

數位典藏聯合目錄,採取的就是簡易的「都柏林核心集」,請上網點選任一筆資料,參考其使用方式:http://catalog.ndap.org.tw/。

加入書籤
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • Hemidemi
  • MyShare
  • Live
  • Technorati
  • TwitThis
  • RSS
  • Funp
  • Haohao
  • MySpace
  • plunk

回應

*
請輸入圖片中的文字
按下圖片中的文字取得錄音檔

Click to hear an audio file of the anti-spam word

  • Loading...


    Loading...

    Login






    註冊 | 忘記密碼

    Register





    A password will be mailed to you.
    登入 | 忘記密碼

    Retrieve password





    A confirmation mail will be sent to your e-mail address.
    登入 | Register