世新大學北平世界日報內容數位化開發計畫
Tags: none 發表: 2007-11-06, 點閱: 6,539 , 加入收藏櫃 , 列印 , 轉寄本文主要是介紹世新大學進行「世界日報」的數位化工作流程。
計畫單位:世新大學
計畫名稱:北平世界日報內容數位化開發計畫
計畫簡介:
「世界日報」乃是世新大學創辦人 成舍我先生于1924年在北京創辦的報紙,並在1934年上海創辦「立報」。隨著二次世界大戰中日開戰後,上海被日軍攻佔淪陷(1935年),「立報」隨即轉往香港復刊。繼香港淪陷後再度轉往陪都重慶,成先生計畫在抗戰勝利後擴大辦報規劃。隨著中日戰爭結束,「世界日報」、「世界晚報」、「立報」等相繼在重慶、上海、北京復刊。隨著大陸中共政權成立,成先生跟隨蔣介石先生撤遷來台。
成先生在臺灣除為新聞報業貢獻心力外,亦創辦臺灣第一所全傳播新聞學校—世界新聞專科學校。成舍我先生於1991年2月先世,世新大學為紀念成先生辦報成就,計畫運用現代資訊科技進行世界日報數位化的工作,以重現近代中國發展歷史。新聞報紙數位化內容發展計畫在1998年進行作業測試,1999~2000年進行初步全文數位化測試。於2002年被列入國家科學委員會國家典藏發展計畫專案,計畫完成初期預估將可達成:
滿足傳播科系與中國近代史學者研究的需要;
增進歷史新聞事件資料查詢的便利性;
促進數位圖書館發展;
豐富華文網路資料庫等目標。<目錄>
圖一、成舍我先生家人
圖二、成舍我先生
圖三、成舍我先生創辦各種報紙 圖四、創報之工作情形
數位化工作流程說明:
現代中文資料的數位化工作,大多採取OCR文字辨識方式。但由於世界日報原文字形並不工整,原始資料保存不善、國內報紙資料庫數量不足、現有報紙資料庫收錄年代時間短,加上報紙全文影像處理等缺失,擬將世界日報的微縮資料(報紙原件存於北京圖書館),進行內容數位化開發。世界日報創刊於1925年,運用鉛字排版印刷,時間久遠紙質不佳,報紙內容甚多缺字、漏字,不常用字,簡體字等問題,又經過微縮影像列印出來,使得文字影像的自動辨識率相當低。經過廠商與相關測試結果,電腦自動辨識率不及一半。因此,在數位化過程不得不採取人工輸入方式。
整體數位化作業過程,2004年初已經將微縮捲片全面轉置完成成為數位影像檔案,放棄原本卡片製作方式,直接閱讀報紙影像檔作為文字影像輸入方式。因省略卡片製作時間,提高報紙影像的清晰度,縮減數位化資料轉置作業,同步提升數位內容開發的品質。同時全面利用FTP上傳與下載的方式進行圖文與檔案傳遞。
世界日報內容數位化工作流程,主要分成六部分進行,即計畫執行、新聞微縮捲片、新聞內文、新聞資料輸入、資料校對、網站建置。<目錄>
一、計畫執行:
該計畫由世新大學資訊傳播學系系主任莊道明副教授負責策劃執行,典藏計畫之數位化工作流程圖如下(圖五)<目錄>:
圖五、典藏數位化工作流程圖
二、新聞微縮捲片
針對數位化典藏的報紙資料,進行資料收錄規則。資料收錄數目方面:原則上,新聞相關內文採全文收錄,依照新聞事件逐筆輸入資料庫,預估每日約90則當天重要新聞,平均每月約2,700則新聞。報紙內的廣告、文藝副刊及週刊作品(與新聞無直接相關的版面內容)目前已經開始進行測試工作,並採用Metadata方式描述,並搭配其他相關新聞資料,提供使用者檢索。在全文新聞資料建置方面,以國內要聞、各省新聞、世界要聞、經濟界、教育界、世界瑣聞等主要版面消息為主。
透過與大陸北京圖書館等進行合作,取得原報紙內容全文的微縮捲片(圖六)(圖七)。利用微縮閱讀機讀取微縮捲片全文(圖八),並列印全文影像(圖九)。若微縮捲片品質不甚良好,則需人工調整列印,以加強列印後之品質控制。 <目錄>
圖六、世界日報微縮捲片
圖七、世界日報微縮捲片
圖八、透過微縮機讀取世界日報之全文影像檔
圖九、列印世界日報原版報紙
三、新聞內文
2004年數位化方法流程更改為直接微縮捲片全面轉置為影像圖檔,一張圖檔即為一日全版新聞(圖十)。整版新聞以圖檔切割方式裁切為單則新聞檔案,每則圖檔即為一則新聞(圖十一),並加上新聞流水號做圖片檔名。
圖十、整版新聞圖檔
圖十一、切割後的新聞圖檔
將圖檔轉製成數位影像檔,發現如轉製後的圖檔清晰度或黑白對比不甚理想,考慮利用影像處理軟體來進行修圖工作,以提高打字人員辨識的輸入效率。<目錄>
四、新聞資料輸入
電子圖片新聞資料,交由打字人員,依據特定格式輸入電腦(圖十二),輸入欄位包括:流水號(no)、標題(ti)、副標題(ts)、日期(da)、版次(ed)、版名(cl)及全文(ct)。目前已經開始Metadata的建置、人名權威檔以及附加主題的分析。
而對於新聞版面配置與收錄原則,如下:
(一)收錄:國內要聞、世界要聞、各省新聞、經濟界(圖十三)、教育界、世界瑣聞、地方新聞。
(二)測試階段:廣告、文藝副刊、商品廣告、週刊作品。
將主要版面消息,如國內要聞、各省新聞、世界要聞、經濟界、教育界、世界瑣聞…等新聞資料全文,依照流水號(no)、標題(ti)、副標題(ts)、日期(da)、版次(ed)、版名(cl)及全文(ct)鍵入為word檔,並以「則」為單位,上述這些資訊可供本計畫網站上檢索之用途。
文藝副刊、週刊作品目前已進行影像裁切與數位化測試,豐富世界日報網站
資料多元特性。
圖十二、新聞資料輸入
圖十三、新聞第七版版面
此外,若新聞原版報紙內容字跡不清楚、有缺字、漏字、不常用字、或簡體字等問題出現時,需仰賴打字員先行解讀後,試將缺字讀出,再行輸入。若上述問題仍令打字員無法解讀,則在鍵入資料時以「▓」表示之。
在輸入資料過程中,若遇難字與不常用字時,建議打字助理可使用Word中之難字表(【插入】à【符號】à字型【標準文字】&【中日韓統一的表意文字】),來輔助輸入作業(圖十四)。或使用中央研究院文獻處理實驗室發展的漢字構形資料庫查難字、不常用字。若遇缺字時,則建議自行下載行政院主計處電子處理資料中心建置之《CNS11643中文標準交換碼全字庫》,簡稱全字庫,全字庫應用工具4.0(圖十五)。<目錄>
http://www.cns11643.gov.tw/web/index.jsp;
http://www.cns11643.gov.tw/web/download.jsp。
圖十四、難字表
圖十五、全字庫
五、資料校對
對於資料校稿部分很慎重,實因關係到檢索結果呈現與資料之正確性與否的問題,故校對工作小組共規劃為三次之校稿,分別為一校、二校、三校,最後將完成三校的*.txt文字檔之新聞資料全文,匯入資料庫系統中。
(1) 一校:紙本校對(2) 。
校對工作小組將輸入資料之Word檔列印出紙本,與新聞原版報紙之電子圖像檔相互比對,進行全文資料校正與核對的工作(圖十六)。並特別注意缺、漏字與標點符號標註部分,提高輸入資料的正確率。
(3) 二校:電子檔校對(4) 。
一校完畢後,校對人員再次進行二次校對同時修正電子檔的錯誤(圖十七),檢查電子檔與影像檔之比對,如發現錯誤並修正電子檔。
(5) 三校:用Excel開啟*.txt檔校對(6) 。
將二校完成的電子檔,轉成.txt檔(圖十八)存檔,再用Excel軟體開啟*.txt檔校對(圖十九),因Excel軟體可自動分欄,增加校對效率。<目錄>
圖十六、一校 圖十七、二校
圖十八、轉成*.txt檔 圖十九、三校
(四)全面FTP上傳與下載圖文檔案。
利用FTP方式傳遞圖文檔案與電子檔,加快數位化作業之效率(圖二十)。
圖二十、2004年新增FTP檔案上下傳作業流程
六、網站建置
世界日報數位典藏計畫http://icd.shu.edu.tw/lipo/ 網站(圖二十一)之架構,目前僅提供三部分:
第一部分:計畫相關歷史背景介紹。
包括計劃緣起、報紙數位化的價值與重要性、世界日報典藏現況(現藏於世新圖書館)、數位化進行現況、世界日報版面配置、世界日報內容特色、報紙數位化的問題、實際展示等八個項目。
第二部分:世界日報全文檢索系統(圖二十二)。
將三校完成的*.txt文字檔之新聞資料全文,匯入資料庫系統中,並定時(約1~2個月)新增資料庫中新聞事件筆數,提供更豐富的新聞內容,及全文資料等瀏覽使用。使用者可透過檢索介面,利用關鍵字詞進行新聞全文檢索,更可利用布林邏輯(AND、OR、NOT)建立檢索策略進行搜尋,並可以新聞刊登起訖日期限制檢索範圍,以期檢索出精確之搜尋結果。
未來,擬加入北平世界日報微縮捲片轉出之影像檔,以供學者研究與民眾學習之用。
第三部分:網站加值。
包括歷史上的今天、與我們連絡、指正與建議、其他網站連結等四個項目。<目錄>
圖二十一、世界日報數位典藏計畫之網站
圖二十二、世界日報全文檢索系統之檢索介面
※以上數位化工作流程簡介之文字,主要是參考「世新大學北平世界日報典藏數位化工作流程調查表」、【國家數位典藏國家型計畫中程綱要計畫書】。
※製作單位:數位典藏國家型科技計畫 內容發展分項計畫
世新大學北平世界日報典藏數位化計畫
※文字撰寫:世新大學北平世界日報典藏數位化計畫 郭哲裕、羅玉容
數位典藏國家型科技計畫 內容發展分項計畫
新聞主題小組助理 汪怡慧
※圖片拍攝:數位典藏國家型科技計畫 內容發展分項計畫
新聞主題小組助理 汪怡慧、陳美智
※圖文編輯:數位典藏國家型科技計畫 內容發展分項計畫
新聞主題小組助理 曾欣怡、呂俊毅
致謝:
感謝世新大學「北平世界日報內容數位化開發計畫」之計畫主持人 莊道明
副教授撥冗指導及提供實地拍攝與簡介編寫。並感謝郭哲裕等相關計畫人員的協助。<目錄>
十二月 20th, 2012 at 2:45 pm
你好,如何读取《世界日报》。
十二月 22nd, 2012 at 11:11 am
您好
請到http://newsmeta.shu.edu.tw/shewo/
此網站可查詢世界日報及立報資料