數位典藏聯合目錄整合動植物主題內容之經驗分享
圖文/溫淳雅、江仁傑
關鍵字:聯合目錄、metadata、數位典藏、跨主題式整合檢索
摘要:
數位典藏聯合目錄因其跨領域、跨機構的特性,因此面臨了metadata欄位與分類方式統合的挑戰。透過介紹聯合目錄進行欄位整合與呈現的考量;在主題小組架構上進行分類瀏覽的統合;並舉動、植物主題內容整合的經驗,希望能提供參考並獲得迴響,以進一步改進聯合目錄持續進行工作的方式。
1.數位典藏聯合目錄系統之建置緣由介紹
數位典藏國家型科技計畫(以下簡稱數位典藏計畫),是有關數位內容建置的重大科技研究計畫。參與單位包括中央研究院、國立自然科學博物館、國立故宮博物院、國史館、國史館台灣文獻館、國立歷史博物館、國立臺灣大學、國家圖書館等重要典藏單位,以及數十個具有內容價值的內容開發公開徵選計畫。其中所包含的內容縱貫古今、橫跨十餘種不同內容學科領域,至少包含生物、地質、檔案、書畫、器物、人類學、新聞等人文與自然類的典藏品,各個機構在建置自身的資料時,亦分別採用不同的Metadata標準與不同的資料庫系統。
數位典藏計畫執行至今已四年,而累積的數位化物件相當豐碩。大量的典藏品數位化之後,需要透過一個介面,將龐大的資源提供給使用者,使得資源能有效利用、數位典藏產生積極意義[1]。所以,建立一套能夠整合分散於各個計畫與機構的聯合目錄,一方面可以達到資訊共享的目的,另外更可以彰顯計畫的執行成果。
數位典藏聯合目錄(以下簡稱聯合目錄)為了統合上述不同學科領域與不同形式內容的資料庫,所採用的後設資料標準為都柏林核心集[2](Dublin Core,簡稱DC),這被普遍認為是一組簡單卻有效的核心元素集,包含十五個基本欄位以描述一件典藏品,具有「簡單易產生或維護、通用易瞭解的語意、全球通用、彈性高」等四項原則[3],應可運用來統合數位典藏科技計畫內龐大而複雜的內容。聯合目錄將數位典藏計畫中約90個資料庫的不同後設資料,與DC進行欄位定義上的比對,從對應中汲取其中的摘要資訊,匯入聯合目錄中,提供使用者目錄式瀏覽的功能。
2.聯合目錄如何進行整合工作
為了在尊重各機構計畫之典藏內容與相關應用國際標準各有不同的基礎上建構聯合目錄,聯合目錄的建置工作並非採用由上而下的強制規範,而是透過細密的內容分析,以及勤於溝通協調的方式,歸納統合建立共識之後,才得以順利推行。
聯合目錄要整合跨眾多主題的內容,主要有兩個方面的考慮,第一,不同型態資料庫的數位資料,如何整合在一個系統中;第二,在一個系統介面上,不同類型的資料要如何呈現。
第一個問題,雖然牽涉到技術上的資料庫匯出匯入的問題,但到目前為止,技術上都能服務這方面的需求,不斷克服、解決困難。因此,這個問題最主要的,還是在於必須聯繫各個無上下隸屬關係、各自發展的單位,解釋匯入聯合目錄的工作過程,排定時程來進行資料庫匯出作業,並從旁協助解決匯出作業過程中所遭遇的問題。
而參與數位典藏的機構計畫、公開徵選計畫的資料庫,總數量將近九十個,而每一個計畫,可能針對不同資料性質,設計出不同的欄位,甚至同一個資料庫由不同的研究者或助理負責不同的項目。所以,我們針對技術、版權、管轄情況各不相同的單位與資料庫,一一進行聯繫,必然需要大量的時間來進行聯繫溝通。
第二個問題是,原本各資料庫的系統、欄位等都有差異,那麼在聯合目錄上,應當如何顯示各種不同類型的資料?這又可細分為兩個部分,其一是要讓使用者看到每一筆資料的哪些內容?呈現哪些欄位?其二則是網站的分類瀏覽應如何呈現。
首先討論關於欄位的部分,我們有以下幾種選擇:
設定所有計畫之間的共通欄位,再將各個不同的資料庫欄位,全部對應成此一共通欄位。例如,將A資料庫的「生態狀況」欄位,與B資料庫的「花紋樣式」欄位,全部對應成「數典聯合目錄」共通欄位之中的「描述」欄位。
不設定共通欄位,各資料庫在數典聯合目錄的介面上,直接呈現出原本各不相同的欄位資訊,只設定共通的檢索欄位,例如,只設定「題名」、「關鍵字」等為共通檢索欄位。
設定部分欄位為共通欄位,而各計畫得以在共通欄位之外,再自行發展其他欄位項目。例如,設定各計畫的共通欄位為:「題名」、「關鍵字」、「管理權」三種欄位為共通欄位(並可規定為必填欄位),而各個計畫可以在自己的資料庫之中,再增加符合自己需求的欄位。
以上三種方式,各有優缺點,分述如下。
第一種方式,所有不同欄位整合為一種共通欄位,優點是在聯合目錄上的欄位顯示,較有統一風格,使用者容易熟習欄位架構,閱讀欄位資訊的速度較快,降低進入的門檻;缺點是較為耗時,要將所有不同欄位對應成同一欄位,各機構並需要在匯出資料時,匯出為聯合目錄所需的欄位。
第二種方式,直接呈現出各不相同的欄位,可以保留原資料庫再描述該筆資料的原始特性,欄位名稱較為明確合理,而且,不需要耗費人力進行欄位對應;缺點則是在同一系統上,呈現的風格不一致,且欄位內容屬於各學科領域的專門知識,使用者較不容易熟習欄位。
第三種方式,設定少數共通欄位,其他欄位由各計畫自訂。這種方式,必須在數位典藏計畫一開始時,就決定共通欄位,否則就要各機構更改自己資料庫中一部份的欄位,各機構將耗費額外時間人力進行著錄,以目前數位典藏計畫的型態,並不合適。
表一 資料庫欄位呈現方式比較
欄位對應方式 | 優點 | 缺點 |
採用單一套共通欄位 |
|
|
不設定共通欄位 |
|
|
設定部分欄位為共通欄位 |
|
|
以上三種方式各有優缺點,對於正在準備發展跨機構或跨領域的聯合目錄,可以作為整合方式的參考。但對於較機構進行實體數位化工作要晚開始的數位典藏聯合目錄,究竟應採用哪一種方式進行整合?在經過2002年度、2003年度兩個不同的工作團隊,在原型建立過程中加以試驗、測試之後,到了計畫的第三年,在2004年度新的工作團隊正式執行系統建置,仍對此產生許多討論;最後才明確決定,採用第一種方式,以聯合目錄的原始目標:使用者的查詢、瀏覽需求為導向,採用國際間咸認簡單、明確的metadata欄位標準:Dublin Core(以下簡稱DC),克服欄位間的差異,以欄位定義的對應方式,來取得一般性的資料內容。此後雖然工作團隊耗費更多時間進行欄位對應工作,但是在介面上呈現資料時,會比較一致。
不過,2004年度工作團隊在執行欄位對應的過程中,產生了一種折衷的方式,那就是主題小組先發展共通欄位,再將共通欄位與DC欄位進行對應。由於部分主題小組互動頻繁密切,且比聯合目錄有更強烈的學科整合需求,因此主題小組間往往會自行討論欄位的對應或互通。而會互通的欄位,往往也是該領域資料重要或核心的內容。所以,在主題小組的同意下,聯合目錄發展部分主題小組欄位對應的方式,便是直接對應已確認的共通欄位,而可減少分別對應各欄位的複雜度。
但同時為保留原始資料庫內容性質,聯合目錄除採用上述的DC欄位標準外,在各欄位之內再加上「先行詞」,以表現不同型態的資料特性。例如,原計畫資料庫與某物件的「描述」有關的欄位,可能有「型態特徵」、「棲所生態」或「世界分佈」等等欄位,而在聯合目錄的DC欄位上,只有「描述」一個欄位與之對應。此時,為了保留這些不同欄位的特性,我們把「型態特徵」、「棲所生態」或「世界分佈」都放在DC的「描述」,再把原始的欄位名稱當作先行詞來修飾:
表二 聯合目錄欄位表現方式示意
欄位名稱 | 顯示結果 | |
例一 | 描述 | 描述 發育階段:Adult 標本部位:全魚 |
例二 | 範圍 | 採集地:屏東,東港 採集緯度:22.48 採集經度:120.46 |
例三 | 著作者 | 學名命名者:Linnaeus’ 1776 鑑定者:張鎮國 |
例四 | 描述 | 型態特徵:頭胸甲呈圓方形,額向下彎,額後具有四個隆脊。 體色藍綠或草綠色密布白點及白色條紋,步足淺黃綠色雜著按紫色斑塊。 棲所生態:棲息活動在岩礁海岸潮間帶高潮線附近的沙岸石塊區或消波塊堆 世界分佈:廣泛分布於印度─太平洋熱帶區 |
並且,在「題名」的顯示結果上,加上原資料庫顯示該筆資料之頁面的URL,讓使用者可直接點選,進入原資料庫完整的顯示資訊,或者更清楚的數位化圖檔、影音檔等。在聯合目錄,原則上只讓使用者檢視每一筆資料的簡明資訊,以及瀏覽用的圖檔,較詳細資訊與更清晰之圖檔、影音檔,仍保留在各計畫各單位的資料庫中。這也有利於讓使用者查出藏品的簡易資訊之後,再連結至原始資料庫或原機構,觀看更詳細的資訊。
此外由於幾個主題小組如動、植物;人類學;檔案等主題,在主題小組內部的互動已經十分密切,積極討論例如:同主題所採用的metadata標準是否能與國際接軌?如有一致的著錄規範將有利於主題領域間的互動等議題,有關分類架構,亦都有學科方面原初的學術標準,可彼此互通。因此,聯合目錄其中一項重要的建構方式,便是配合數位典藏科技計畫的內容主題小組,透過主題小組建立共識的方式,達到領域整合的目的。
所以,在分類瀏覽的部分,2004年的聯合目錄工作團隊接手之後,便從經驗豐富的主題小組方面吸收經驗,並同時推動其他主題小組在小組會議中,討論同主題共通的分類架構概念。由於學科領域相同,對於分類的學理也大約一致,除了少數類目在定名上有所差異外,分類方面往往可以比對出意義相同之處;或者各機構的分類切入點雖有不同,但統合的分類卻可截長補短。在工作團隊不斷推動下,目前已完成所有主題分類的分類架構,但仍有新加入的主題需要再加以組織分類,或者原有主題分類需要調整。
3.聯合目錄進行動、植物主題小組整合過程介紹
數位典藏計畫為了使整個計畫有效執行,在計畫辦公室下設立五個不同功能的分項計畫:內容發展分項計畫、技術研發分項計畫、訓練推廣分項計畫、應用服務分項計畫、維運管理分項計畫;其中,內容發分項計畫[4](以下簡稱內容分項)負責數位典藏內容之管理、規劃及各機構間的橫向聯繫、協調等事宜。因此,內容分項依八大機構計畫的典藏內容及所屬領域,區分為15個主題小組(見下圖),以建立橫向的溝通聯繫。並依加入的數位典藏科技計畫藏品的特性,再予以隨時增加新主題,如下圖中語言、漢籍全文、影音三個主題,便是94年度根據新加入數位典藏計畫的內容,而新增的主題小組。
圖一、內容主題小組示意圖
動物、植物主題小組的成員極多,囊括了整個數位典藏計畫三分之一的機構計畫與公開徵選計畫。包括:中央研究院;國立臺灣大學;國立自然科學博物館;農委會農、林、水產試驗所;國立海洋大學;國立中興大學;國立臺灣博物館;國立海洋生物博物館等。
動、植物主題小組在內容發展分項計畫所組織的主題小組之中,是較早發展的兩個主題小組。因為數位典藏計畫中有大量此類型藏品,且主題內部的互動密切、良好,也因此早在聯合目錄建置之前,動、植物主題小組便已經開始進行統合的前置作業。
在欄位方面,原本參加動植物主題的計畫,有TaiBIF、GBIF等整合方式,不過欄位內容較為學術性,且中文說明文字較少,而數位典藏聯合目錄,依照計畫的精神與設定的目標,必須兼顧到中小學教師、學生、社會大眾..等需求,因此聯合目錄的欄位內容,應盡量保留各單位原本較詳細的著錄文字,例如棲所生態、型態特徵、漁業利用、可食性/不可食性…等。所以,聯合目錄還是與各計畫的資料庫分別進行欄位對應的工作,將各資料庫的欄位,與聯合目錄的Dublin Core欄位進行對應。
在分類架構方面,由於動植物主題小組學科特性的緣故,因此在聯合目錄的「內容主題分類瀏覽」上,以「生物」的方式整合呈現,採用的分類架構乃是學科原本的「界門綱目科屬種」。此種分類的優點是完全符合學科的知識本體,具有教育使用者、線上學習的意義。不過相對而言,對於生物學瞭解較淺的一般使用者而言,已知名稱的生物,以檢索方式搜尋出結果,並從中獲取該生物所屬科、目、綱等知識較為容易;但如果要從此分類下去瀏覽,則不易找到特定生物。聯合目錄面對此一問題,可能採取兩種方式來加以解決,其一就是目前正在推動的「特色藏品」,將各館藏品挑選部分做主題特色展示,以一般俗名或較簡易的分類呈現給一般大眾;其二則是與動、植物類的整合資源庫,如TaiBIF,進行資料庫間的合作,以符合學理的不同角度切入進行新的分類。
4.從聯合目錄以內容主題整合推動的建置經驗所產生的建議模式
由聯合目錄整合的發展經驗來看,主題小組由於在內容上具有共通性,並且成員多為學科專家,對於建置統合性的檢索資料庫所需的Metadata共通標準、分類瀏覽層次分析等等,都可以做更深入的討論。由內容主題專家來就資料庫間的差異進行溝通,其效果會遠勝於聯合目錄工作小組以外加的分析方式去強行規範內容。
在共通欄位方面,由於聯合目錄所採用的是DC欄位,其普遍性雖然可以處理異質資料庫間的共通,但主題間可能會討論出搭配該學科更需要凸顯的共通欄位,由此整合的共通欄位再行對應DC欄位,並搭配聯合目錄對個別資料庫欄位的分析,將可提高聯合目錄上所呈現內容的目錄價值。
而在分類架構方面,主題統合的效果與意義更加明顯。透過學科專家討論統合後的分類架構,將更具有權威性,並可建立知識本體(Ontology),讓使用者獲得對知識全面性的瞭解。
此外,主題小組為整合所進行的運作,如由會議的方式決議共通欄位與分類架構,在共識的取得上較能關照全局,但是由於內部細節繁雜,僅由會議討論以做決議,需仰賴主題小組的密切互動。以人類學主題小組為例,其發展人類學的聯合檢索目錄與檔案聯合檢索在時程上也十分相近,但因為人類學主題開會密集而頻繁,每月皆有工作會議,共識極高,因此其發展聯合檢索目錄的整合所採取的方法便是會議決議。而以檔案主題小組的經驗而言,在會議上就大原則取得共識,會議後再以訪談方式進行細節溝通,在執行上也頗具效率。
不過相對應的,主題小組必須要有專責人員能投入進行訪談以及後續的分析研究工作。在聯合目錄的情況來說,對內容發展的各主題而言,並不一定具有相同的基礎可以進行相似工作,此時便需要聯合目錄進行積極的介入與支持,推動主題小組進行相關議題的整合。以2004年聯合目錄的推動工作而言,便是積極建議各主題小組進行核心欄位或分類架構整合的討論,例如:協助進行分類架構資料收集、分析比對主題各成員不同分類架構之異同、分類名稱定義的對應、欄位比對工作等等。
5.結語
整合性的聯合目錄系統之發展與建置,其最主要的挑戰便是整合異質資料庫,尤其是跨領域的整合更是艱難。數位典藏聯合目錄在檢討過去的基礎上,學習主題小組發展、共識的經驗,建立了以溝通協調為主、以內容主題方式深入各種藏品特性與內涵的工作方式。並由聯合目錄的工作小組協助推動主題小組進行分類架構比較與整合、欄位比對等工作。藉由對整合工作考量點的說明與分析,希望能與打算建置整合目錄的先進交換意見,以做未來工作的改進方向。
參考文獻:
[1]陳昭珍,「數位典藏異質系統互通機制:以OAI建立聯合目錄之理論與實作(上)」,數位典藏國家型科技計畫:電子通訊第九期,http://www.ndap.org.tw/NewsLetter/content.html?subuid=450&uid=23,2003/2/7。
[2]都柏林核心集元素名稱與定義:http://www.dublincore.org/documents/dces/,或者可參閱數位典藏後設資料工作組所翻譯的Dublin Core元素清單:http://www.sinica.edu.tw/~metadata/standard/dublincore-chi.htm。
[3]後設資料工作組,Dublin Core簡介,http://www.sinica.edu.tw/~metadata/standard/standard-frame.html。
[4]數位典藏國家型科技計畫內容發展分項計畫,「計畫簡介─前言與組織」,http://content.teldap.tw/main/introduction.php,2005/4。