數位時代知識文明資產長期儲存的重要性

◎文/李姿穎

穿越歷史長河—材料與文明的交互作用

中央研究院歷史語言研究所數位知識總體經營計畫,於2007年9月7日舉辦「穿越歷史長河-文明科技四千年」主題特展,並一併展出數位典藏機構計畫成果展內容。數位典藏,以數位化形式典藏數千年來人類知識文化的重要遺產。以中研院史語所內,珍藏的文物類型諸如:考古發掘文物、拓片古文書、少數民族文獻、明清內閣大庫檔案、善本古籍等,皆為人類文化重要的資產內容。知識文化跟隨人類歷史演變的腳步,絕非憑空出現乃有脈絡可循,跨越時空的限制達到知識文明累積。
圖一:穿越歷史長河文明科技四千年 活動海報

文化發展的過程,最初由父傳子、母傳女語言交談、口耳相傳的方式,記憶群體的來源與歷史。或以神話、祭儀、歌舞樂曲等,將日常生活經驗的累積傳承。當人們的記憶力不足以應付日益繁雜的社會生活,文字的創造則方便人類管理、記錄生活圈內的人事物。數千年來文字記錄的載體本身,歷經骨頭、石器、青銅、竹、木等材質變化,每一項變化都是先人曾經走過得痕跡。而記錄載體的變革在紙張的發明之後,創造更為普及和便利的知識傳播工具,輕便且成本低,使得紙張成為重要的書寫、記錄的媒材。繼之而起,印刷術的發明讓知識藉由紙本、書籍的快速複印、流傳,達到另一波知識傳播的高鋒。


圖二:活動展場

「創造、散佈與消失」—數位資訊不易保存的問題

電子計算機的問世,知識文明儲存的媒介,從實體的物理性材質逐漸轉變至數位化媒材,以數位形式產生的資訊或由實體媒材轉變成數位形式的資訊,於二十一世紀資訊科技快速傳播的當下,正透過網際網路於虛擬的世界中,依著不可思議的速度,創造、散佈、再製與消滅。數位資訊在知識的傳播、複製、再製作的便利性,與傳統媒材相較具備著壓倒性的優勢。然而數位資訊先天上致命性的缺點,卻衝擊著數位資訊能否長期保存、讀取的可能性。據資料顯示1964年麻省理工學院及卡內基美隆大學的第一封電子郵件,因系統改變並未保存下來。而1970年代比利時人造衛星觀測有關亞馬遜河變遷的資料,也已經遺失。一般電腦的使用者,數位檔案如果沒有按時備份,更可能在磁碟損壞或系統重灌時,遺失檔案。因此,數位資訊的妥善保存、長久取用將是數位時代知識累積重要的課題之一。


圖三:刻劃於甲骨上的時代史料(仿製品)

由於資訊科技進步的速度飛快,平均以三至五年的為週期淘汰舊的產品或技術。比起數位媒材自然的損壞程度,科技的躍進更造成數位檔案無法讀取的原因之一,因其無法脫離軟體單獨存在,過時的格式不一定能被新的軟體所讀取。目前市售常見的電腦使用儲存媒體如:光碟片、硬碟、碟帶,其保存的壽命各不相同。燒錄光碟的生命週期約三至五年,硬碟則視支座類似滾珠軸承的功能是否良好,基本上仍以五年為淘汰週期。至於磁帶儲存年限較長,約三十年至百年的生命週期。


圖四:王安系統的儲存媒體

數位保存研究的興起與重視

正因數位資訊的保存不易,但卻富含人類重要的知識內容,更需要相關單位的重視。以歐洲地區、英國、美國、加拿大等,已日漸重視數位資訊長期儲存取用的議題。以圖書館組織和典藏機構為領導者,諸如:英國大學研究圖書館聯盟數位化檔案庫方案(CEDARS)、澳洲國家圖書館PANDORA計畫、加拿大文化遺產資訊網計畫(CHIN)、以荷蘭圖書館為首的歐洲國家NEDLIB計畫、美國記憶計畫等,大型圖書館典藏機構藏品數位化計畫,在建置過程中亦逐步摸索長期儲存的輪廓。

綜合各項資料,認為數位資訊及保存性後設資料,轉換成的位元流(bytestream),需永久保存不再更動。並設法尋求完善的數位資訊保存策略,然而未有一套保存策略能百分之百保證數位資訊永久存在,任何方式皆有遺失或損壞的風險。而系統保存、轉置、模擬為目前較常見的保存方式。

1.系統保存被視為非長期性的策略,適合於短期內尚未發展出合適的儲存方式時,可以採用的方式。
2.轉置,在於保存原始數位物件和讀取的工具,但較花費人力時間成本,亦可能在過程中喪失部分資訊。
3.模擬,則能精確還原檔案的外觀與感覺,卻需要較多的技術支援才能施行,也並非所有檔案類型皆適合模擬。

典藏技術的發展,僅為長期儲存概念之一環,針對此議題Preservation Metadata的研究亦被視為重點內容。美國研究圖書館組織(RLG)及線上電腦圖書館中心(OCLC)等,亦積極投入保存性後設資料的研究。RLG組織亦於1998年率先提出16個保存性後設資料欄位,雖今日看來當初所設定的欄位尚有許多不足處,但卻是保存性後設資料研究的先鋒。2003年由RLG與OCLC兩大組織贊助成立PREMIS Working Group,全名為PREservation Metadata: Implementation Strategies,致力於發展國際性標準化的保存性後設資料欄位,利於長期儲存與使用。於2005年5月提出第一版的Data Dictionary for Preservation Metadata Final Report,並持續不斷地與使用該成果的單位討論及更新改善。另外,國會圖書館亦加強投入關於「數位原生」檔案的保存研究,自2001年起設立NDIIPP計畫<註1>,特別針對沒有物理材質的原生數位檔案,如電子地圖、網頁、電視、電子期刊等,進行技術的發展與研究。

從典藏者出發—長期儲存議題發展趨勢

雖然數位化長期儲存的議題已經逐漸被圖書館界與典藏機構重視,而實際在運作的過程中,近年來又呈現出怎樣的變化?依照康乃爾大學2003-2005年針對此議題,對114間機構進行問卷調查<註2>。機構來源為:學術圖書館、政府部門、機構、博物館、公立圖書館等。部分議題亦與先前RLG組織所進行的調查做比較,得知其中議題變化的趨勢。調查議題包括:
政策的類型、數位物件的格式、儲存媒體、以功能區分所使用的儲存媒體、檔案管理實踐內容、保存數位內容生命所採取的行動、資料儲存庫的安排、是否有維持數位保存的資金、人力資源問題、合適的技術組織、長期儲存的最大威脅…等。

其中,54%的機構已經定義其保存策略,與2002年的39%比率開始上升,但仍有近四成單位,未定義自身的保存策略。數位物件的類型方面,超過九成機構擁有PDF、websites、digital image files的類型,八成五以上擁有word processing files、databases/spreadsheets,其顯示出這些類型檔案普遍性的成長。儲存媒體的選擇,近九成使用CD、DVD。超過八成以上的機構使用線上儲存(online storage)和磁帶。並且以檔案功能的觀點出現,調查儲存的媒體。線上儲存的檔案,主要為access copies和master files,備份功能的檔案以磁帶為儲存媒體最多。
在2005年的調查,38%的機構認為他們已準備持續性的資金,用以維持數位保存。而34%的機構認為他們沒有長期性的基金支援,多仰賴一次性資金的贊助,其餘則作答「不知道」。另一項有興趣的發現是,調查各機構認為對於數位保存最大的威脅,「技術過時」的因素在1998年的調查中,被視為排名第一的最大原因,而在2005年,「不足的保存政策和計畫」,則被視為數位保存的頭號威脅。「技術過時」的因素,已降至第四順位,第二名則為資源不足。

材料的累積 文明的創造

就國外針對數位保存的議題所進行之研究,亦能作為我國數位典藏國家型科技計畫對此議題的借鏡,或實踐的參考。而保存政策的擬定亦被視為踏出長期儲存重要的第一步,若能對自身的資源與現況越多的了解,則有助於制定合適且實用的政策。數位時代,知識文明的創造以0、1位元的方式被記錄著,不僅是實體材質的數位化,有更多數位原生的檔案不斷地生成。今日我們能保存多少的數位資料,亦決定當代或後世所能讀取到、再創造的知識素材,其意義亦如同先人用紙筆、用刀刻為後世留下豐厚的文明史料,持續累積與創造數位時代人類文明的重要資產。

<註1>NDIIPP計畫全名為:National Digital Information Infrastructure and Preservation Program
<註2>資料來源:http://www.rlg.org/en/page.php?Page_ID=20744

2007-09-20