漢籍電子文獻資料庫數位化工作流程簡介
Tags: 影像, 掃描, 數位典藏, 數位化, 數位化工作流程, 文書, 檔案, 資料庫, 資訊 發表: 2008-08-08, 點閱: 7,116 , 加入收藏櫃 , 列印 , 轉寄
計畫單位:中央研究院歷史語言研究所漢籍工作室
計畫名稱:中央研究院漢籍全文資料庫
古籍是歷代流傳下來的文化瑰寶,因年代久遠,加上種種破壞與耗損,使得大多數的古籍難以完整保存,能夠保存下來的古籍自然更顯珍貴。因此整理及保存古籍的完整性是一項非常重要,且需長期投入的工作。
鑑於古籍數量龐大,加上善本取得不易,匯集古籍的工作十分困難。從搜集、編目到進行各種研究,都必須花費相當的人力與物力;而人力不足及人工作業疏失,有時難免造成缺誤。
古籍電子化後,透過電腦的處理及全球網際網路的優越性,這些資料可無限制地被使用者利用。再者,使用計算機進行處理,可以進行大量且連續的操作,將資料匯集起來,經過學者專家相互的比對參照,常能發現前人所未見的新資訊,所以古籍電子化對於研究工作是極為重要的突破。
中央研究院歷史語言研究所(以下簡稱史語所)與中央研究院計算中心於1990年完成共同開發的二十五史資料庫,於1995年將WWW檢索程式上線命名為「瀚典全文檢索系統」,1997年瀚典改版至1.3版,但為了因應電腦軟硬體不斷擴充與使用者需求,更為精益求精,在現任主持人史語所袁國華副研究員的帶領下,已再次規劃改版事宜,以期能達成人文為本、科技為用的目標。
早期的檢索系統是在UNIX作業系統下開發的,歷經多次修訂,目前重新使用JAVA程式開發系統。資料庫乃以保存原書的文字與排版為基礎,由層級(hierarchical)的目錄來對應書本的章、節、段落等結構,讓使用者得以據其調閱公文,或訂定檢索的範圍。
為因應資料庫改版,舊系統的資料需重新校對,標誌需要修改;同時新資料的電子化工作也必須持續進行。
正在建構中尚未完成之書籍約有兩億二百零二萬字。其中已完成校對的書籍有《宋人傳記資料索隱》等二十種,約五千五百三十九萬字,於2005年上線。校對中的書籍,有《明代律例彙編》等二十五種,約三千零六十四萬字。另外待校對書籍,有《文苑英華》等二十六種,約一億四千四百二十一萬字,正陸續建構中。
漢籍古文數位化工作流程圖
數位化工作流程說明
|
(一)提出書單:
書目清單來源有二:
2. 主持人根據漢籍全文資料庫完整性所提出的書目。
(二)擬訂書單:
整理後條列出書目清單(表1)。
表1、漢籍全文資料庫待輸入書單
(三)漢籍選書委員會審核:
交由漢籍選書委員會審核並排定建置順序。
(四)請求授權:
請求著作權授權,如果無法取得授權必須重新擬訂書單,或者更換可以取得授權之版本。
(五)確定書單:
確定數位化書目清單。
|
(一)書籍分類:
依四庫圖書分類法之「經」、「史」、「子」、「集」,並增列「叢書」、「其他」二種,分門別類(圖一)。
圖一、漢籍電子文獻資料庫目錄
(二)查詢書籍館藏號:
目前漢籍主要書籍為中央研究院各圖書館館藏,其他為史語所漢籍工作室購買,另一部份為研究人員提供。可從中央研究院各圖書館查詢預定數位化之書籍的館藏號,提供讀者原書典藏處。
(三)依欄位輸入資料:
輸入類別、序號、書名、作者、出版者、出版地、出版年、典藏單位……等各項欄位(圖二)。
圖二、漢籍電子文獻資料庫書目欄位
(四)批次列印、校對及修改:
每一年度書目資料輸入完成後必須列印樣稿,以便校對及修改。
(五)上傳主機:
核對資料無誤後,完成上線程序,以提供書目檢索。
|
(一)制訂影印、掃校標準:
1. 影印稿為提供輸入廠商繕打之用,因此依照字體大小及清晰度決定比例大小。
2. 掃描圖檔則依照〈傅斯年圖書館全彩影像掃描及校驗相關作業標準〉,將原書1:1之比例,以頁為單位,規格為300dpi、全彩(黑白)、TIFF格式存檔。
(二)提借原書:
1. 根據書單,提調所選定之書籍以提供得標廠商影印及掃描。目前書籍的來源有三:一是漢籍提供經費購書,二是研究人員提供,三是院內圖書館館藏之書籍。
2. 如遇不得外借之書籍,依照各館藏單位之規定辦理仍不能處理者,提回至「選書」作業重新選擇版本。
(三)公開招標:
依照中央研究院招標規定施行。
(四)驗收:
影印完成後廠商須將影印稿及原書送回本單位,驗收合格後即可。掃描完成後廠商須將檔案送回史語所漢籍工作室,驗收合格後進行影像降階工作。
(五)影像降階:
將圖檔依照〈傅斯年圖書館全彩影像掃描及校驗相關作業標準〉降階轉存,以利於後續作業,降階完成的檔案須另作備份。
|
(一)預先處理層級資訊及制訂標準:
此為發包委外工作,因此需依據各書籍體例及研究人員之要求,編寫檔案代碼及基本層級結構,針對各書列出輸入說明及規範、作業環境與限制等規定。
(二)公開招標:
依年度提撥經費,決定擬輸入字數並進行詢價,提出申請,經中央機關採購法規定,進行招標程序。
(三)廠商提領:
得標後,至工作室提領輸入文件,由漢籍工作室人員向廠商說明注意事項,提供加入XML語法標誌之程式及中央研究院之「缺字公用程式」,並示範操作,提供書面資料,讓廠商了解如何安裝與使用。
(四)繕打及初次標記:
1. 繕打:依據漢籍繕打原則(依書中原樣處理,內容中不清楚處,不作模糊的判斷與處理)進行文字輸入。
2. 初次標誌:使用Keytext、EmEditor等文書處理軟體做最初級的「層級」標誌。
(五)廠商自行查驗:
錯誤率達萬分之一以下方可送回。
(六)漢籍查驗:
工作室同仁對送回檔案進行隨機取樣查驗,若達到合格要求(錯誤率達萬分之一以下)即上傳主機及燒製光碟進行備份,未達要求則退回廠商處進行修改,安排二次查驗。依採購法規定,所內或院方之驗收步驟,由相關單位派人至工作室對檔案進行查驗,合格即依規定處理,不合格則限期請廠商修改再重新進行驗收步驟。
(七)建置初校稿資料庫:
將驗收完成之檔案上傳,建置初校稿資料庫,供所內同仁使用。
|
(一)匯整主機資料:
將繕打後的資料上傳主機,並且備份廠商送回的原始檔。
(二)測試:
進行資料庫上線測試。
(三)初建檔資料庫上線:
測試無誤後初建檔完成,並開放資料庫(圖三)提供所內同仁使用。
圖三、漢籍電子文獻資料庫瀏覽畫面
|
(一)制訂標準:
1. 制訂異體字、訛字、缺字、避諱字等挑字原則。
2. 制訂抽驗標準。
(二)分配工作:
1. 依總量平均分配。
2. 依難易分配給程度相當之工作人員。
(三)校對:
按照原書逐字校對,並針對每本書的差異之處將標準略加修改,以符合實際。
(四)改稿:
修正校對挑出之錯誤。
(五)抽驗:
根據所制訂的標準,每本書抽出相同的字數,給非校對該書的工作人員抽驗。不合格者,組長詢問校對此書的人員之工作狀況,依情況列入績效考評,並且重新校對,如遇到書籍內容難度太高(如:以草書、行書繕寫,或字體不易判斷的手寫書稿等),必須尋找合適的校對人員、參考工具書或利用其他版本之書籍,重新校對。
(六)上傳主機:
完成的檔案上傳於主機備份。
「詞類標記」工作分為「詞類輸入」、「電腦斷詞」與「人工處理」等三個階段,除詞類輸入委外製作,另兩項皆由漢籍工作室執行。
|
(一)提借書籍:
依資料庫所需,從中央研究院各圖書館提借相關詞類書籍與工具書。
(二)問題產生:
因繕打時必須對內容進行判斷,如遇到經由查詢工具書及相互討論還不可解決之問題,需記錄並尋求研究人員之協助。
(三)電腦自動標誌:
先進行人名、地名等工具書或參考資料的繕打工作,再由資料庫進行電腦自動標誌。
(四)人工標誌:
檢查電腦無法處理的問題,目前先處理人名、地名、朝代、著作、職官、族名、年號七個部份。如遇有爭議的問題,先就資料庫查詢資料,無法解決再由小組相互討論;若尚有無法解決的問題,必須先記錄問題再尋求相關研究人員解決。
(五)使用軟體檢查錯誤:
使用標誌除錯軟體,可於加標誌的同時,檢查錯誤。
””””””””””’
(六)匯出各標誌清單:
分別按人名、地名、朝代、著作、職官、族名、年號匯出名單以利後續處理。如:用《佩文韻府》標注《全宋詩》。
|
(一)線上校對:
將二次建檔完成之檔案進行線上校對,以檢查及修正詞類標誌之錯誤。
(二)建檔完成:
開放資料庫給一般讀者使用(圖四)。
圖四、漢籍電子文獻資料庫畫面
※ 製作單位:數位典藏國家型科技計畫 內容發展分項計畫
中央研究院歷史語言研究所漢籍工作室
※ 文字撰寫:中央研究院歷史語言研究所漢籍工作室 助理李芳瑩
數位典藏國家型科技計畫 內容發展分項計畫
漢籍全文主題小組助理 謝筱琳
※ 圖片提供:中央研究院歷史語言研究所漢籍工作室 助理李芳瑩
※ 圖文編輯:數位典藏國家型科技計畫 內容發展分項計畫
漢籍全文主題小組助理 謝筱琳
※ 以上數位化工作流程,參考漢籍工作室於「2005漢籍數位化合作建制研討會」
致謝:
感謝中央研究院歷史語言研究所,漢籍工作室「漢籍電子文獻資料庫」之計畫主持人 袁國華老師、聯絡人李芳瑩小姐撥冗指導及提供實地拍攝與簡介編寫。並感謝漢籍電子文獻資料庫相關計畫人員之協助。
全文下載 (1.2 MB, 1,951 hits)