匯入「數位典藏聯合目錄」的三種方式 Part1

文/網路核心平台 數位典藏聯合目錄建置計畫 江仁傑

編按:
本篇匯入聯合目錄的三種方式,由於篇幅限制故將文章分成兩期刊載。Part1部分為介紹匯出成XML檔案的方式;下期Part2部分將介紹另外兩種作法,敬請期待。

最快的方法:匯出成XML檔案

各計畫匯入聯合目錄的資料,以XML(「可擴展標示語言」,eXtensible Markup Language) 的方式來表示。各計畫有資訊人員可匯出XML,且XML符合聯合目錄所需的格式,則匯入聯合目錄的速度也最快。

聯合目錄的XML包含四個部分:
一、至少一張圖檔(或影音檔,若為純文字之數位典藏則免用圖檔)
二、可連回原始資料庫的連結
三、分類架構
四、聯合目錄欄位的後設資料(metadata)

在聯合目錄中,一筆資料就是一個XML檔,1000筆資料就是1000個XML檔,例如,這筆資料:我對蘭嶼設立國家公園的看法它原始的XML檔就是像這樣

或是另一筆:中日少年棒球賽胡勇輝擊出全壘打,它的XML是這樣


這些XML,就是上述計畫從自己的資料庫中匯出,交給聯合目錄,由聯合目錄匯入http://catalog.ndap.org.tw/的系統。
XML裡面的資訊,以下用一個XML範例來解釋:


(一)至少一張圖檔(或影音檔,若為純文字之數位典藏則免用圖檔)
該筆資料的瀏覽級圖檔的位址,圖檔只要72dpi即可,長寬超過500像素。可接受一張以上的圖檔。

<ICON>http://ndmmc.iis.sinica.edu.tw/jsp?Urn=urn:ari:ndmmc/archaeo.H00040.jpg</ICON>這個網址的作用,就是讓聯合目錄系統直接抓取圖檔,使圖檔可以顯示在聯合目錄上。

如果不匯出這個網址,而是直接把圖檔、影音檔交給聯合目錄匯入,則<ICON>裡只要列出檔案名稱即可,例如:
<ICON>H00039.jpg</ICON>,或<ICON>sud1002.wmv</ICON>。

這裡的圖檔、影音檔、聲音檔,都是瀏覽級即可,典藏級或商業用的等級,不需要給聯合目錄。目前接受的各種數位檔案格式:圖檔(jpg, gif),影音檔(avi, rm, mov, wmv),聲音檔(wav, mp3)。請參見上述XML範例[註解C6]。

(二)可連回原始資料庫的連結
該筆資料的原資料庫連結,使每一筆載聯合目錄的資料,都可以連回去原計畫網站的該筆資料頁面。請參見上述XML範例[註解C5]。

(三)分類架構
就是這個:http://catalog.ndap.org.tw/dacs5/System/Catalog/Catalog.jsp
分類架構,是XML中的<catalog></catalog>在控制的。共分成四種:
1、典藏機構與計畫(必填)
2、內容主題(主題小組)(必填)
3、時間檢索(選填)
4、地理檢索(選填)

1、典藏機構與計畫
<Record>典藏機構與計畫:中央研究院:歷史語文研究所:珍藏歷史文物數位典藏計畫 分項二:拓片及古文書數位典藏計畫</Record>
每一層之間,用半形冒號「:」隔開。
呈現出來就是這樣:http://catalog.ndap.org.tw/dacs5/System/Organization/Organization.jsp
一個計畫的每一筆資料,在這部份都是固定的資訊:典藏機構與計畫:公開徵選計畫:學校或機構名稱:單位或系所名稱:計畫名稱。

2、內容主題
就是:http://catalog.ndap.org.tw/dacs5/System/Catalog/Catalog.jsp
在XML中:
<Record>內容主題:考古:漢代簡牘:居延漢簡</Record>
每個計畫分在所參與的主題小組之下。

參加兩個主題的可以重複呈現,假設如下:
<Record>內容主題:考古:漢代簡牘:居延漢簡</Record>
<Record>內容主題:拓片:漢代簡牘:…….</Record>
不同的主題小組,會有不同的內容分類方式。請各自洽詢自己所參加的主題小組,或聯繫聯合目錄工作人員:江仁傑 snowred@gate.sinica.edu.tw。

3、時間檢索


要在時間檢索能夠顯示,必須在XML中有以下資訊:
<Record>時間架構:西曆:1000-01-01 </Record>
若沒有精確的月、日,可以只要:<Record>時間架構:西曆:1000-01</Record>,或者<Record>時間架構:西曆:1000</Record>

也可以顯示某一個範圍內的時間:
<record>時間架構:起:1000-01-01</record>
<record>時間架構:迄:1200-02-10</record>
或:
<record>時間架構:起:1000</record>
<record>時間架構:迄:1200</record>
若沒辦法寫出明確的時間,例如青銅器的時間是「商代中晚期」,就沒有辦法顯示。因此,這個項目並不要求所有計畫一定要匯出。

4、地理檢索
目前我們使用google所提供的電子地圖,將完整經緯度座標輸入,就可以在電子地圖上顯示該筆資料的相關位置。
在XML中要有以下資訊:
<record>地理架構:X:-10.0000</record>
<record>地理架構:Y:-5.0000</record>
就是西經10.0000,南緯5.0000。

用這種方式可以表示範圍:
<record>地理架構:Xmax:10.0000</record>
<record>地理架構:Xmin:-25.0000</record>
<record>地理架構:Ymax:5.0000</record>
<record>地理架構:Ymin:-15.0000</record>
也就是在東經10.0000,西經25.0000,南緯15.0000,北緯5.0000的範圍內。



由於不是所有的資料都有紀錄詳細的經緯度位置,因此不是所有的計畫都需要匯出這個部分的資訊。

(四)後設資料metadata

後設資料必須是聯合目錄所採用的DC(Dublin Core)欄位。

Dublin Core(都柏林核心集,DC)欄位定義


PS.各計畫亦可參閱由「數位典藏國家型科技計畫」之「後設資料工作組」於網路上所提供Dublin Core的參考規範:http://www.sinica.edu.tw/~metadata/standard/standard-frame.html,或者直接參考數位典藏聯合目錄(http://catalog.ndap.org.tw)目前的用法。

若各計畫原本並非採用DC欄位,請將計畫的欄位標準或範例寄給我們,由我們來替計畫進行對應(計畫若要自行對應也可)。完成對應之後,計畫就可以依照對應表來匯出。

資料庫Metadata欄位與DC欄位對應表舉例
聯合目錄欄位(都柏林核心欄位,DC)與中研院「歷史語言研究所藏漢代簡牘資料庫」欄位對應表(2004.06.30版)


有關繳交資料的問題,請聯繫:
江仁傑先生(snowred@gate.sinica.edu.tw)
黃冠華先生(rane@gate.sinica.edu.tw)

2007-11-22