1024x768 1280x800   Decrease font size for  - 拓展台灣數位典藏 - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 Reset to normal font size for  - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 - 拓展台灣數位典藏 Increase font size for  - 拓展台灣數位典藏
 


古籍線裝書數位化工作流程指南

Tags: none 發表: 2009-10-19, 點閱: 227,054 , 加入收藏櫃 , 列印 列印 , 轉寄 轉寄

想加入的書籤: HemiDemi MyShare Baidu Google Bookmarks Yahoo! My Web Del.icio.us Digg technorati furl 加入此網頁到:YouPush . . 推到twitter 推到plurk 推到FACEBOOK

 

伍、 後設資料與資料庫建置

 

一、後設資料生命週期作業[43]

 

(一)後設資料生命週期模式:為有效促使數位典藏計畫有效發展其後設資料,並達到後設資料的品質保證、作業一致性與計畫管理等多重目的,數位典藏與數位學習國家型科技計畫後設資料小組參酌電腦科學之系統分析與人文社會科學的內涵分析等方法,建立後設資料生命週期作業模式(Metadata Life cycle Model, MLM),提出後設資料生命週期分析法,對資料的深層後設資料加以分析,主要包括了內涵分析、系統分析、結果測試與成效評估四大層面。

 

(二)生命週期作業程序:以數位典藏與數位學習國家型科技計畫後設資料小組協助善本古籍小組主題研擬核心欄位為例,分為四個階段十個程序,包含:1.「需求評估與內涵分析」:需求訪談、計畫相關標準與個案觀察、深入分析後設資料需求、確認後設資料策略暨標準間的互通性。2.「後設資料需求功能書」研製後設資料功能需求書、評估後設資料系統。3.「後設資料系統」:研製參考規範、開發後設資料系統。4.「服務與評估」:後設資料服務、後設資料作業評估。以下將分別說明各步驟的內容。

 

 

圖5-1 、生命週期作業程序

 

資料來源:數位典藏與數位學習國家型科技計畫 後設資料小組

 

1. 需求訪談:後設資料分析人員訪談主題計畫之內容專家或提供者,以了解計畫屬性與其後設資料需求。除了獲取計畫背景資訊、協調聯絡方式外,並與主題計畫確認計畫的目的、目標及預期效益。

 

2. 計畫相關標準與個案觀察:分析相關的後設資料標準及其應用個案,評估應用標準實作的可能性。在標準觀察方面,應用「後設資料標準評選模式」從社群、資料、學科、功能四個層面分析主題計畫的屬性,歸納適用的後設資料類型。在個案分析方面,則蒐集國際上相關的數位圖書館計畫,了解其後設資料的應用趨勢和議題,以作為未來實施與發展的參考。此階段分析的成果,將有助於主題計畫了解與其他同質或相似計畫間的差異,藉以修正計畫規劃的方向。

 

3. 深入分析後設資料需求:評估後設資料系統發展的可能性,以利主題計畫決定採用同質或相似計畫的系統,或自行發展,或採取與其他組織團體(如大學或業界)合作等方式發展其系統。針對中央研究院傅斯年圖書館、國家圖書館兩單位所提之善本需求元素,與MICI-DC、Dublin Core、MARC21、CMARC 四標準所做之評估分析[44]

 

表 5-1、 後設資料標準評估分析

種類

滿足率

無法對應之元素數

優點

缺點

MARC21

77%

20

A. 善本古籍之書目描述需求滿足率最高B. 易與國際圖書館社群進行交換C. 易與圖書館目錄系統結合

善本古籍內容小組會議 數位典藏國家型科技計畫後設資料工作組分析報告A. 缺乏專為善本古籍類型資料之描述欄位B. 古籍善本特殊描述項目(如:牌記、手書題記等)只能著錄於500General Note。

CMARC

67%

29

A. 有善本古籍之特殊描述欄位(140、141)B. 較能配合依中國編目規則描述之善本記錄C. 易與圖書館目錄系統結合

A. 部分善本古籍特殊描述項目(如:牌記、手書題記等)只能著錄於300一般註

MICI-DC

62%

33

A. 是為善本古籍類資料所設計之後設資料格式,對於善本古籍特殊描述項目(如:牌記、手書題記等)皆有描述欄位可滿足

A. 偏於博物館社群之善本古籍描述格式,對部分以圖書館社群切入之善本古籍描述需求無法滿足(如:出版、印刷)B. 缺乏對與善本古籍其他形式電子資源連結之描述

Dublin Core

95%

4

A. 使用彈性大B. 易與其他學科領域或社群進行交換

A. Dublin Core 元素只有15 個,較適於簡要資料之描述B. 多數善本古籍需求元素皆對照一個 Dublin Core 元素,Dublin Core元素過少,無法具體描述善本專業描述需求C. 交換時恐造成資料遺失。

資料來源:數位典藏與數位學習國家型科技計畫後設資料小組

 

4. 確認後設資料策略與標準間的互通性:利用之前的研究發現,建議主題計畫採用的後設資料策略,如採用單一或複合的後設資料標準;或以既有的後設資料標準為基礎,發展適用的後設資料格式。例如國家圖書館在執行數位化工作,為能探討國內外 Metadata 發展現況、積極加入國內外 Metadata 研究組織及相關計畫(如DC會議及CORC計畫)。發展各主題領域或資料類型之metadata、研究 MARC 與 Metadata 轉換之語法、語意等相關標準,以及發展 Metadata 管理系統等需求,成立metadata小組。[45]

 

(1) 善本古籍需求元素與標準對照一覽表:以數位典藏與數位學習國家型科技計畫善本古籍主題小組為例,分析包括:「台灣地區善本古籍需求元素與相關標準對照一覽表」、「善本古籍後設資料核心元素分析」、「後設資料標準評估分析」等。後續並將就善本古籍的範圍、數位典藏計畫,以及後設資料標準應用方式,提出觀察與分析報告,最後並提出善本古籍「後設資料核心元素」與數位典藏與數位學習國家型科技計畫的「聯合目錄」之建議方案,詳見附錄五「善本古籍核心元素需求書」。

 

(2) 核心元素分析:各核心元素的定義與範例,係參考數位典藏與數位學習國家型科技計畫善本古籍主題小組「中研院史語所傅斯年圖書館善本古籍元素」、「國家圖書館善本古籍元素」、「國立故宮博物院」所提供的定義以及中國編目規則相關規範、彙整所得。

 

表 5-2、 善本古籍主題小組核心元素表

 

描述性後設資料元素

(共12元素)

類型

 

識別號

登錄號、排架號、索書號

題名

正題名、其他題名、拼音題名

著者

姓名、朝代年號或國別、著作方式

其他貢獻者

姓名、朝代年號或國別、著作方式

出版資訊

責任者、地點、時間、責任方式

數量

 

簡述

版本、裝訂、裝潢、圖像、行格、避諱等

主題

主題、關鍵詞

語文

 

關連

叢書、子目、合刊、原件複製品、影像檔

現藏者

 

紀錄管理性後設資料元素(共1元素)

建檔紀錄

建檔人員、建檔時間、修改人員、修改時間

資料來源:內容發展分項計畫之善本古籍小組所提供的核心欄位

5. 研擬後設資料功能需求書:後設資料功能需求書的目的,即作為主題計畫、後設資料分析、系統開發三方面溝通的橋樑,促使不同專業領域達成共識。其內容包括:需求書的版本與管理資訊、計畫背景、參與人員、系統目標與範圍、採用的標準、後設資料元素與結構、後設資料元素屬性(如名稱、長度、資料型態、系統主鍵等)、輸出範本、相關標準的比對、系統範圍關係圖、系統功能需求(如中文、日文字型的輸入與顯示)、控制詞彙或代碼清單、XML DTD等。以數位典藏與數位學習國家型科技計畫 善本古籍主題小組為例,是以元素需求為導向,並參考各核心元素對照至Dublin Core 與MARC21 ㆗所屬之元素段。

 

6. 後設資料系統評估:評估後設資料系統發展的可能性,以利主題計畫決定採用同質或相似計畫的系統,或自行發展,或採取與其他組織團體(如大學或業界)合作等方式發展其系統。

 

7. 研擬參考規範:評估後設資料參考規範的目的:包括後設資料元素應用指引,或提供計畫應用標準的檢核表與參考資料,或控制後設資料記錄品質的手冊等。參考規範內容應包括後設資料元素定義、著錄原則、系統建議、著錄範例,及其他相關後設資料標準的對照項目等。系統發展的可能性,以利主題計畫決定採用同質或相似計畫的系統,或自行發展,或採取與其他組織團體(如大學或業界)合作等方式發展其系統。

 

8. 發展後設資料系統:至此階段,已完成後設資料發展任務,進入系統開發程序。系統開發任務在於開發符合需求書的後設資料系統與工具。開發期間,為促使有效的系統設計,主題計畫、後設資料及系統發展者之間的參與成員,應持續交流與討論意見。待系統雛型完成後,主題計畫與後設資料分析人員雙方,亦應回覆系統測試與評估的結果,提供系統人員修正的參考。

 

9. 著錄後設資料:如何存放端看各機構如何規劃整個數位化工作,委外的部分有哪些?資料庫是以誰為核心?圖檔資料及其文字metadata篇目文字該如何對應,都是此部分應該要仔細考慮?

 

10. 後設資料服務與作業評估:為控制後設資料機制的品質,後設資料工作小組依服務模式涉入的角色、關係與服務項目,規劃「後設資料服務模式」,並依據主題計畫的需求,檢視後設資料整體實施程序和效益。

 



二、關聯式資料庫

 

數位化工作從起始階段開始,一直到資料庫儲存的結案階段,所涉及的九大知識領域比重不同。而目前數位化的目的為了要能有效的保存典藏品及有利於資訊分享,因此如何達到此目的,將是數位典藏工作的核心目標。而建立資料庫是多數人在管理資料時所採用的方式,所謂的資料庫廣義來說,為一個具有相關隱含意義的資料集合,通常為了特殊目的而建置,因此會有預定的使用族群,而資料庫可大可小、可簡單亦可複雜。一般對於資料量需求不大、關係簡單之資料,是可以採用Word、Excel等文件格式記錄,這也算是廣義資料庫的一種;但若資料彼此間關係稍微複雜,就會有不少維護困難與著錄限制,[46]因此目前各執行計畫多採用關聯式資料庫。

(一) 關聯式資料庫:是1969年E. F. Codd博士在IBM公司的研究成果,不同於其它資料庫模型,關聯式資料庫模型是以數學集合論為理論基礎建立的資料庫模型。簡單來說,就是將資料看成一些彼此有相關的表格,允許資料庫檔案之間存在著關係(relation),使得使用者修改其中一份檔案,另外幾份相關檔案也會跟著修改。利用各關係檔案之中的關鍵欄位來互相建立關聯模組,串起整個相關資料。

(二) 數位內容品質管理:數位化工作是一個具規模或持續性的工作,並對於影像檔有一定的品質要求,由於具有一定的規模因此需要有效地進行工作進度的掌控。數位化工作一直以來的困擾:「人員的流動」、「委外廠商的能力評估」,應以系統來管理數位化流程,建立一個透明化的工作平台。中央研究院歷史語言研究所傅斯年圖書館林妙樺館員在「2008年數位典藏專業培訓課程」中[47],針對數位化系統規劃提出以下五點:

1. 發掘數位化需求,並擬定規劃策略:檢視典藏品的現況,分類並評估出哪些古籍線裝書可立即並具有價值可進行數位化,並了解目前有哪些館藏已經數位化的部分,並提出未來欲數位化典藏品的需求,進而擬定數位化清單

2. 分析、評估整體環境與現況:主要探討的部分為「原件」、「人員」、「系統」、「數位化操作及儲存環境」、「現有設備」。

(1) 從數位化清單中了解欲數位化物件之原件現況,是否能立即進行數位化,或需先進行修復工作。同時決定該原件可數位化的方式,例如使用平床式(平台光學)掃描器或平台式掃描器。

(2) 專案的人員組織包含參與數位化之相關人員、原始典藏之維護管理人員、資訊技術人員等,由內容及技術兩部份組成數位典藏團隊。

(3) 在系統的部分,評估原有館藏或單位的舊系統是否適用於數位化系統規劃,是否能整合或取代之,若需進行整合,則應了解新舊系統之間的整合方式,是否皆能移轉或仍要進行程式改寫等步驟。

(4) 古籍線裝書藏品需要在恆濕恆溫的環境中保存,因此空調的設備、數位化操作空間及光源、防潮箱、機房等環境都需加以評估。

3. 系統規劃之目標及預期效益:系統規劃數位化流程需達到下列的三個成效。

(1) 避免原始典藏因數位化而損傷:有鑒於原始典藏品不易保存且流通不易,再加上典藏空間的不足,因此將原始典藏品數位化以另一種型式典藏,數位化的過程中要極力避免藏品的二次傷害。

(2) 可有效控管數位化流程:數位化流程是由許多流程串連而成,且由於數位化涉及多元領域,因此多數機構會將專業的部分委由廠商協助進行,因此參與數位化的人員將不限定於館藏人員,因此藉由系統來加以有效的控管流程,讓流程透明化,達到一定的品質產出。

(3) 結合不同典藏團隊:數位化工作涉及文史學科及技術的資訊科技等專業性,對於古籍線裝書在選定數位化物件、擬定數位化清單、排定數位化順序、metadata欄位分析與著錄及資料庫檢索需求等內容,有賴文史學科專業背景的人協助。而在技術方面,有賴於資訊科技背景的專業人士協助評估系統整合的可行性、資料庫系統的建置、及考慮成本而採用委外廠商進行掃描工作內容。

4. 規劃符合需求之系統架構及方案:首先須擬定專案工作流程以及製作的數位化工作流程之各種規化流程圖,其次決定系統架構是要以集中式或分散式系統建置,及作業系統的選定,同時並提交相關系統開發需求書及規格書,最後評估核定經費及人力,決定流程中哪些要自行製作開發及委外製作開發。

5. 訂定數位化系統發展計畫等內容:若決定採用系統來有效將資源整合,需納入「系統測試」、「教育訓練」、「系統驗收」、「系統維護與保固」、「系統評鑑」等部分,雖耗時,但若能嚴謹且妥善的進行,相信將有效的節省數位化流程中反覆校驗成果的時間,並有效產出相同的數位化品質。

(三) 各館資料庫分析:以下列出各館資料庫與檢索系統,及資料庫建置方式。

 

表5-3、各館資料庫與檢索系統分析

中央研究院歷史語言研究所傅斯年圖書館

http://lib.ihp.sinica.edu.tw/pages/03-rare/DAP/index.php

典藏館特性

圖書館

書目系統

傅斯年圖書館善本圖籍書目資料庫

http://www.ihp.sinica.edu.tw/ttscgi/fsndb2/ttsweb?@0:0:1:fsndb::/ttsweb/fsn/main.htm@@0.9961351775402316

文字metadata建置

新增欄位於書目資料庫中

影像資料庫系統

匯入書目清單的文字metadata與上傳影像檔至傅圖善本圖籍典藏系統。

檢索系統

http://ndweb.iis.sinica.edu.tw/rarebook/Search/index.jsp

數位典藏系統入口網

http://lib.ihp.sinica.edu.tw/pages/03-rare/system/index.htm

國立故宮博物院

http://tech2.npm.gov.tw/da/ch-htm/about02_5.html

典藏館特性

博物院

書目系統

新建善本古籍總目資料庫。「善本古籍資料庫後設資料檢索目錄」:為配合「善本古籍及其附圖」影像檔的建置以及方便讀者能在短時間內檢索所需之資料,因而建置「善本古籍及其附圖」目錄檢索資料庫。

文字metadata建置

建置於善本古籍總目資料庫

影像資料庫系統

將影像上傳善本古籍總目資料庫中,完成全文影像資料庫。「善本古籍影像檔資料庫」:本計畫一方面以裱褙修補古籍的方式增強其保存性,一方面以高品質數位掃描(或數位攝影)建檔,以減低對古籍本身的損耗,同時影像檔分別以300dpi 無壓縮Tiff圖檔及200dpi JPG壓縮之Tiff的圖檔儲存格式儲存,以便能兼及優良圖檔的保存及網路應用傳輸下載的便利性。

檢索系統

《國立故宮博物院圖書文獻處善本古籍資料庫》:http://npmhost.npm.gov.tw/tts/npmmeta/RB/RB.html

數位典藏系統入口網

http://www.npm.gov.tw/digitization/overview.htm

國家圖書館

http://readopac.ncl.edu.tw/ndap/rar/ndap-rar-int-00.htm

典藏館特性

圖書館

書目系統

開發建置「善本古籍Metadata書目資料庫」,http://rarebook.ncl.edu.tw/rbook.cgi/store/frameset.htm

文字metadata建置

將館藏善本的相關書目訊息以詮釋資料(Metadata)格式提供查詢,方便利用,使用者無論從善本書的書名、著者、版本,乃至於序跋者、刻工、版式行款、…等各個角度檢索,都可以查到所需的古籍資訊;此外還可以點選該書的卷次及篇目,以便在網路上閱覽到整部古籍的影像。

影像資料庫系統

查詢結果「條列式」顯示畫面出現圖案者,代表該書有全文影像,並於特定區域內直接瀏覽全書影像。大部分書目於「詳目式」頁面右上方,有「卷端書影」縮圖,點選後可放大瀏覽。【缺字處理】以 Unicode 為內碼,缺字則以圖片方式呈現,並參考CNS11643中文全字庫網站的字碼查詢提供本系統已處理之缺字的查詢。

檢索系統

「善本古籍Metadata書目資料庫」與上傳影像檔至古籍影像檢索系統作連結。http://rarebook.ncl.edu.tw/rbook.cgi/store/frameset.htm,並無單獨建置數位典藏系統入口網

資料來源:拓展台灣數位典藏計畫 彙整

 

三、全文影像資料庫

 

(一)建置metadata 資料

 

metadata欄位擬定後,評估其現有資料庫功能以及規劃,了解是否可直接新增欄位建立資料,以資料庫整合方式進行。若否,則須擬定資料庫系統需求書,建立新的資料庫系統。完成資料庫規劃後,可開始逐筆建置圖籍影像的文字metadata篇目資料。在進行書目建檔時,依照書籍後設資料的metadata資料庫欄位表單依序著錄。例如中央研究院歷史語言研究所傅斯年圖書館會將線上公用目錄已有書目資料者,以人工鍵入metadata資料庫中,再進行更細部的影像描述及展現工作。若系統已建立控管物件數位化等流程,在進行影像數位化的同時,列印出當天或當月份已數位化的清單,可掌握數位化圖檔的產出進度。依物件數位化的數量而定,目前評估每天大約需要2-3名工作人員進行於此工作。

 

1. 依循標準:metadata資料庫欄位表單、著錄規範

 

2. 注意事項:在此步驟有些單位會與物件數位化一起進行,最後在一起上傳到資料庫中,再加以校對。而有些單位則會先建立圖檔後,在資料庫中進行細部的描述。此關鍵在於數位典藏資料庫是要整合進入原有書目館藏的資料庫中、或將原有的書目館藏資料轉入新建立的數位典藏資料庫中、又或是直接建立新的資料庫,因此該步驟會如何安插在整個數位化流程中,端看該單位是如何進行數位化工作,並且是否有委外請廠商共同進行,也需要一並考量,如何能讓流程透明化、流暢是本指南終旨。

 

3. 相關設備:總目資料庫、PC(需有DVD ROM)

 

(二)全文影像資料庫建置

 

1. 影像上傳或連結:在影像數位化完後,批次將DVD光碟上傳到影像資料庫中,並與Metadata書目資料庫連結整合,完成全文影像資料庫建置工作。文字metadata資料的規劃與各機構的數位化工作流程有關,委外的部分有哪些,資料庫是以誰為核心,圖檔資料及其文字metadata篇目該如何對應,都是此部分應該要仔細考慮。

 

2. 資料庫開放應用:目前「數位典藏與數位學習國家型科技計畫」執行迄今已邁入第二期的階段,機構已累積相當成熟的數位化方式及規範,各機構所進行的資料庫開放程度,在遠端均可檢索影像,但若需要複製或列印,則皆須到各館進行申請。

 



四、全文資料標誌語言

 

所謂全文資料標誌語言是指可用來標誌各種不同常見文件特徵,已達到文件轉錄的最大效益,並促進平台系統之間的文件交換,例如最常於佛學數位化研究中提及的TEI(Text Encoding for Interchange),是一個國際性、跨學科性的標準,利用標準通用的標誌語言(SGML)展現電子形式的文本,可不受軟硬體、平台的限制達到再利用、資料交換的目的。其主要用於協助圖書館、博物館、出版者和個別學者以電子文本形式呈現各種文獻和(語言學)文本,達到線上教學與利用[48]

 

 

「數位典藏與數位學習國家型科技計畫」對於全文資料之標誌語言之應用,有用在「新聞數資料庫」、「漢籍資料庫」、「史籍資料庫」等。全文資料庫建立後有利於關聯式資料庫的處理,以中央研究院為例,1985年10月開始試做的「漢代墓葬綜合研究資料庫」,1986年2月的「台灣土著語言資料庫」,1986年4月的「台灣日據時代戶籍資料庫」,1987年1月的「清代竹塹地區土地申告書資料庫」,以及1989年計算中心所做的「說文解字和玉篇資料庫」等等。也有利用影像處理技術所做的古籍資料庫,如傅斯年圖書館發展的「善本書全文影像資料庫」,目前已完成該館近半數善本書的典藏,並已開放使用。這些資料庫雖非本文報告的重點,然而在語文處理技術上和全文資料庫是相輔相成的[49]。詳細全文資料庫建置方式請參見:中央研究院資訊科學研究所之「文獻處理實驗室」《中央研究院古籍全文資料庫的發展概要》一文。http://www.sinica.edu.tw/~cdp/paper/1997/19970301_5.htm


 

 

<回 到 目 錄>

 

[41]數位典藏與數位學習國家型科技計畫計畫辦工是 彙編,《數位典藏技術彙編2007年版》,台北:數位典藏與數位學習國家型科技計畫,2007年12月,http://www2.ndap.org.tw/eBook08/showContent.php?PK=162

[42] 數位典藏與數位學習之學術與社會應用推廣分項計畫,計畫網站http://aspa.teldap.tw/

[43]數位典藏與數位學習國家型科技計畫 後設資料工作組,<後設資料生命週期作業模式(Metadata Lifecycle Model, MLM)>,檢索:2009年2月,http://metadata.teldap.tw/design/lifecycle_new2.htm

[44] 數位典藏與數位學習國家型科技計畫 後設資料工作組,<善本古籍內容小組核心元素分析報告(一)>,檢索:2009年2月,http://pl11.sinica.edu.tw:8080/dspace/bitstream/1868/1857/1/N1-BC0800001.pdf

[45]國家圖書館中文編目標準規範 metadata小組http://catweb.ncl.edu.tw/2-1-12.htm

[46]黃國倫著,<資料庫初體驗(I)>,數位島嶼電子報第24期,檢索:2009年2月,http://content.teldap.tw/main/epaper_detail.php?doc_id=1177&epaper_id=44

[47]林妙樺 著,<數位內容之品質管理>,台北:數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫:品質管理研討會,2008年,http://dlm.ntu.edu.tw/01_1.htm









Download: 古籍線裝書數位化工作流程指南全文下載  古籍線裝書數位化工作流程指南全文下載 (8.6 MB, 6,595 hits)



評分:

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

回應:


請輸入圖片中的文字
請按圖片取得圖片中文字的錄音檔
Click to hear an audio file of the anti-spam word