匯入「數位典藏聯合目錄」的三種方式 Part2

文/網路核心平台 數位典藏聯合目錄建置計畫 江仁傑

編按:本期介紹匯入「數位典藏聯合目錄」的另外兩種方式,若無法匯出XML檔案時,還能用另外的方法解決問題。及介紹繳交資料時一定要避免的情形及常見錯誤集,敬請往下閱讀。若您想知道最快速的匯入方式,請閱讀第十九期電子報。

第二種方法 依照DC欄位與所需之管理用資訊,整理成Excel 檔案

部分公開徵選計畫若沒有建置線上資料庫,可採用此種方式:將所有資料庫的資料匯出成「符合DC欄位的後設資料與匯入用之管理性資訊」的Excel資料表,並繳交圖檔、影音檔,由聯合目錄工作人員代為處理。

其執行方式說明如下:

(一)符合DC欄位的後設資料:
各計畫的原本欄位不論是什麼,匯出成Excel時,都依照「欄位對應表」(聯合目錄負責製作),整理成聯合目錄用的DC欄位(各計畫負責整理)。

(二)匯入用的管理性資訊:
就是上述的XML的<AdminDesc>(管理性資訊)這個部分。包括:
1.計畫完整名稱。
2.執行數位化的單位完整名稱。
3.所屬主題的分類架構(有動植物主題、考古主題、地質主題、人類學主題、檔案主題、拓片主題、器物主題、書畫主題、地圖與遙測主題、善本古籍主題、新聞主題、漢籍全文主題、影音主題、建築主題、語言主題……,各計畫應該屬於上述主題的其中之一)。
4.完整的數位檔案名稱,例如:nctu1237_a.jpg, 或restno_001.avi, 或hoa_01.wav,目前接受以下幾種數位格式:圖檔(jpg, gif),影音檔(avi, rm, mov, wmv),聲音檔(wav, mp3)。
5.連到原資料庫該筆頁面的連結(如果有的話)。

Excel範例如下:


(在網頁上請插入:「欄位定義與範例」那個Excel檔)

第三種方法 「不」依照DC欄位與所需之管理用資訊,整理成Excel 檔案

使用這個方法基本上一定會托到時間,各計畫也可以將未經過DC欄位對應的Excel檔直接交給聯合目錄,並繳交圖檔、影音檔,由聯合目錄代為處理。
不過,匯入用的管理性資訊(就是上述的那5點),在Excel表中還是必須要有。
交給我們Excel檔之後,就是由我們來把計畫的資料,組成上述的XML檔案。

但是,由我們來做,會相當耗費時間,因為:
(1)計畫很多。
(2)通常各計畫最快也要到計畫結束前一個月才會交出資料。
(3)各計畫的管考與成果發表,通常在計畫結束後的一個月。

在以上的情況之下,所有委託給我們代為匯出的計畫,不可能統統在成果發表之前完成。因此,若是管考方面沒有時間壓力,可以考慮用這個方式。

●會讓人大叫:「天哪!這什麼東西」的情況,一定要避免
(一)每一筆資料都做成Word檔案,不是結構性資料。
(二)每一筆資料各自獨立的Excel檔案,不是結構性資料。
(三)Excel中,民國90年一路拉到民國200年。未校對即繳交資料。

●XML 匯出注意事項(常見錯誤集,敬請參考)
1.XML欄位內容遇到下列字元 需改用跳脫字元表示:
如:「&」→「&」
  「<」→「&lt;」
  「>」→「&gt;」
  「"」→「&quot;」
  「,」→「&apos;」
其中需要注意若是遇到類似「&amp;#1234;」的時候,&則不需要轉成跳脫字元,因為&amp;後面帶數字編碼代表本身就已經是跳脫字元。

2.<Record>欄位中的內容主題、典藏機構與計畫需用半形冒號「:」隔開,匯出時需小心類似這樣的錯誤:「內容主題:人類學::::雅美(Yami):器物」,正確範例如下:
<Record>內容主題:人類學:臺灣原住民族:高砂族群:雅美(Yami):器物</Record>
<Record>典藏機構與計畫:公開徵選計畫:國立政治大學:民族學系:國立政治大學民族博物館數位典藏計畫</Record>

3.Project欄位中的GenDate屬性,請用匯出XML的時間,例如「GenDate="2005-03-24"」,聯合目錄將依據此時間屬性來判斷此筆是更新還是新增的XML。

4.<DigiArchiveID>欄位內容必須為唯一碼(Unique Identifier),若是變更編碼可能造成下次匯入時,筆數無故增加的問題。

5.匯入前,請測試<Hyperlink>與<ICON>欄位,是否可以與XML內容與圖片正確連結。

6.內容單位匯出的XML若是有DTD宣告,請附上DTD檔案。若每筆XML 要加上DTD驗証的 Tag,也就是文件型別宣告(DOCTYPE),請注意其DTD檔案位置的正確性,尤其當XML與DTD是放在不同的目錄時,要注意其XML是否可正確參考到DTD檔案的所在位置。例如:<!DOCTYPE AnthropologyContract SYSTEM "..\AnthropologyContract_v1.0.dtd">

7.時間請遵照以下任一種格式:
yyyy-MM-dd hh:mm:ss.S
yyyy/MM/dd hh:mm:ss.S
yyyy/MM/dd hh:mm:ss.S
yyyy/MM/dd hh:mm:ss
yyyy-MM-dd
yyyy/MM/dd

註:yyyy 代表西元年、MM代表月份、dd代表日期、hh代表24小時制的時辰、mm代表分、ss代表秒、s代表毫秒。

8.若匯出大量XML 時,請以五千筆為一個單位放入個別目錄,目錄名稱可自由命名。
例:1~5000可放入名為01的目錄中,5001~10000 可放入名為02的目錄中,以此類推。

任何有關繳交資料的問題,請聯繫:
江仁傑先生(snowred@gate.sinica.edu.tw)
黃冠華先生(rane@gate.sinica.edu.tw)

2007-12-13