1024x768 1280x800   Decrease font size for  - 拓展台灣數位典藏 - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 Reset to normal font size for  - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 - 拓展台灣數位典藏 Increase font size for  - 拓展台灣數位典藏
 


期刊報紙全文輸入工作流程

Tags: none 發表: 2007-12-10, 點閱: 30,220 , 加入收藏櫃 , 列印 列印 , 轉寄 轉寄

想加入的書籤: HemiDemi MyShare Baidu Google Bookmarks Yahoo! My Web Del.icio.us Digg technorati furl 加入此網頁到:YouPush . . 推到twitter 推到plurk 推到FACEBOOK

伍、後設資料與資料庫建置

 

一、後設資料與XML

二、資料庫建置

 



一、後設資料與XML


(一)
Metadata釋義與目的
     所謂Metadata,在資訊界最普遍的解釋是「資料中的資料」(data about data),意指與資料相關的描述性資訊,國內翻譯為「元資料」、「詮釋資料」或「後設資料」等不同辭彙。國際圖書館聯盟協會(The International Federation of Library Associations and Institutions,簡稱IFLA)對Metadata之定義為可用來協助對網路電子資源的辨識、描述、與定位其位置的資料。另外,較重視Metadata結構性概念者,則解釋作「結構性資料」(Structure Data About Data),其以「結構」二字區隔Metadata資訊組織方式與全文索引(full-text indexing),目的在於以結構化項目,經由人工或自動的方式來描述另一物件,而Metadata系統則會包含相關語法,並與所描繪的物件有密切相關之功能性,針對實體或數位化資料做描述,以方便資料的查詢、管理與再利用。
      
     後設資料主要用途在於對無文字敘述的物件,例如實體的書畫、雕塑品或者數位影像、聲音、視訊資料以及平面書籍等提供檢索功能,其真實涵義在於針對資訊的內容與外觀等特性作適當性的描述,就它的意義和功能來說,其實就是一種電子目錄(electronic catalogue),而編制目的即為描述資料的內容和特色,進而達成資料的檢索。在兼顧後設資料標準、實際著錄需求與資訊系統投資的情況下,後設資料標準並不適合當作各單位共通的著錄規範或資料庫規格,而比較適合做為某特定領域典藏資料交換與查詢介面的標準。因此各單位可保留各自所需的著錄項目,再透過對應關係轉為領域內共通的後設資料標準交換格式來交換典藏資料,才可達到後設資料標準國際化的目標。

     後設資料約可分為兩類,一種類型為描述資源或知識的資料,此類後設資料並無明顯的標誌或符號,而是一種組織或表達知識的架構方式,例如日常生活中文書編撰所使用的文章組織架構與編排格式皆屬之。另一種類型為結構化與半結構化的描述資料,意指資料是以電腦能了解的結構方式所表達,例如資料庫內所定義的欄位資料就屬於結構化描述資料,而可擴展標記語言(Extensible Markup Language,簡稱XML)與超文字標記語言(Hypertext Markup Language,簡稱HTML)等則為半結構化描述資料,可提供使用者有彈性的資料表達結構。

     就後設資料分析的模式而言,中央研究院後設資料分析小組建議從人、事、時、地、物五個角度來思考後設資料應包含哪些著錄項目,因此應結合與典藏物品本質相關的資料及外在資料兩者間的資訊關係,以分析後設資料應包含哪些著錄項目。同時透過管理(administration)、取用(access)、保存(preservation)、應用(use of collections)等四個層面去思考建立後設資料的用途與後設資料使用者之需求,以使後設資料的分析盡可能包含各層面的需要。後設資料應滿足以下需求:

1. 
促使系統互通,而不僅僅是提供摘要性資訊。
2. 當越來越多的資訊被電子化時,後設資料模組應能讓電腦連接資訊源並自動擷取詮釋資料。
3. 後設資料管理系統應能定期核對原始資訊源,以確保後設資料資訊的正確性。

 

    後設資料可根據其在使用時功能性(Functionality)的不同,分為管理(Administrative)、描述性的(Descriptive)、保存(Preservation)、用途(Use)和技術性的(Technical)等五大類Metadata(表5)[5]

 

6、Metadata功能類型定義及功能

 
類型
定義
例子
管理的
(Administrative)
資源的管理(Metadata used in managing and administering information resources)
物件權限、位置資訊、版本控制
描述性的
Descriptive)
資源的描述及識別(Metadata used to describe or identify information resources)
編目資料、超連結、使用者註解
保存(Preservation)
資源的保存管理(Metadata related to the preservation management of information resources)
資源的實際狀態文件、原件、數位物件的保存文件
用途(Use)
資源的使用層次及類型(Metadata related to the level and type of use of information resources)
展示紀錄、使用紀錄、內容重複使用及多版本資訊
技術性的(Technical)
描述系統及Metadata如何運作(Metadata related to how a system function or Metadata behave)
軟硬體文件、數位化資訊

      
     
就新聞主題各計畫進行不同數位化物件而言,後設資料可能包含文字、畫面、聲音以及影像等多媒體資訊,而本文以針對期刊報紙文字型後設資料作說明。物件本身內容的文字後設資料包含文字訊息,而非內容本身的文字後設資料則有文字的種類、頁數、文字的形成,以及其他有關章節數目與段落數目等資訊。文字也可以被加以注釋,雖然注釋大多用於聲音和影片資料,然而大量文字資料也需要包含重要資訊的注釋,尤其是以網頁為基礎的系統,可以利用連結來取得特定被檢視的文字資料注釋。注釋也可以被視為補充的資料,並且可被視為一種後設資料。文字資料的重大發展為國際標準組織(International Organization for Standardization,簡稱ISO)於1986年制訂了標準通用標記語言(Standard Generalized Markup Language,簡稱 SGML)。因為SGML,文字資料可以輕易地被標示並且截取出後設資料,可標示出文字資料中所包含的人與發生地點,因此可以用關鍵字來擷取後設資料,SGML後來即演變為XML。

(二)
XML的應用
1. 何謂XML
     網路上的新聞資料庫若要建立更有效的檢索、或進行跨平台使用,必須讓電腦辨識若干訊息內容的意義。第一個以結構和新興標準來支配後設資料的,就是所謂的可擴展標記語言(Extensible Markup Language, 簡稱XML)。標記(markup)是指在稿件或文章上添加一些特殊記號,以記錄各種不同的資訊,就像在中國古代書籍中打圈批改的眉批,或是平常我們閱讀文章時,會把重點特別註記起來,目的是用來突顯或是註解這些地方,這就是標記的原始概念。
     日常生活中,我們在書寫時所用的語言,可以稱為書面語言,如果在書面語言中為了突顯某些訊息,而加入一些標記,那麼這種加了標記的書面語言就可以被稱做為「標記語言」(markup language)。在這裡所說的標記語言,是一種為了讓電腦能夠處理而設計的標記語言,而所使用的標記,通常選擇具有一定涵義的文字或數字來標記,一般的做法是依據需求,先定義一套助憶的標記,然後將這套標記添加到書面語言中,使書面語言變成標記語言。
     全球資訊網協會(World Wide Web Consortium,簡稱W3C)於1998年2月正式公佈了XML的Recommendation 1.0版語法標準。XML掌握了SGML其延展性、文件自我描述特性、以及其強大的文件結構化功能,但XML卻摒除了SGML過於龐大複雜以及不易普及化的缺點。雖然字面上看來XML是一種標示語言,但嚴格來說它是一種「元語言」(meta-language)。換句話說,XML是一種用來定義其它語言的語法系統,這正是XML功能強大的主因。
XML主要有以下優點:
(1)延伸性:可自訂標籤以滿足不同應用的需求,它沒有固定的一組標記,允許使用者自行定義適用。
(2)跨平台、跨程式語言。
(3)利於網路環境下的傳送與使用。
(4)具有提供有意義的標記的能力。
(5)具有共通性與國際化的特性。
(6)結構化:用XML可以定義出文件的結構,複雜度不設限。
(7)具有自我描述資訊的能力:XML除了可使用標記與屬性來描述資料的意思外,也用來確認XML文件結構的正確性。

XML同時也具有以下缺點:

(1)標準尚未成熟。
(2)複雜度較高。
(3)工具軟體的支援度不高。
(4)可定義結構但無法限制語義(semantics),亦即XML可用來描述文件的結構,但卻無法完整表達這些結構的語義。

2.
用於新聞領域的XML[6]
     科技與網路的蓬勃發展,使得越來越多新聞媒體利用電腦及網路來相互傳播新聞,數位化新聞遠比傳統新聞需要更強而有力的資訊組識方法,以便能更迅速有效的進行交換、傳遞與分享,因此對於新聞資料的保存及利用也就產生了新的技術與規格,以求能將新聞資源做最佳化的管理典藏,並且透過系統平台讓使用者快速且簡捷的獲得新聞資料,加速資料的散播。為解決數位化新聞資訊組織的問題,許多專用於新聞事件的後設資料格式也就隨之產生,且各有不同用途。而利用後設資料格式描述新聞事件,可加強新聞的結構性且增加自我描述性,有利於更迅速的交換、傳遞與分享數位化新聞。用於新聞領域的XML簡述如下:
(1)NITF(News Industry Text Format)
由國際新聞通訊協會(International Press Telecommunication Council,簡稱IPTC)所制訂,著重在新聞內文的描述。
(2)NewsML(News Markup Language)
著重封裝多種不同的媒體,用於描述電子出版、傳送、典藏的新聞檔。
(3) SportsML(Sports Markup Language)
用於運動項目紀錄。
(4) ProgramGuideML(Program Guide Markup Language)
專用於廣播與電視新聞節目。
(5)PRISM (Publishing Requirements for Industry Standard Metadata)
IDEAlliance(International Digital Enterprise Alliance)所發佈,主要是為滿足雜誌、新聞、目錄、書籍和期刊等平面媒體出版者的商業需求而設計。
(6)XMLNews
XMLNews.Org 所研擬,主要在描述新聞報導之實質內容,是借用NITF而來的。
(7)RSS( Really Simple Syndication)
RSS衍生自Netscape 推播技術(Push),是一種用於互通新聞和其他Web 內容的資料交換規格,目前已普遍應用於入口引擎、新聞網站、Blog 和WiKi 等系統中。
(8)NRMF(News Records Metadata Format)
行政院文化建設委員所制訂的新聞紀錄Metadata 格式。
(9)UdnML(UDN Markup Language)
台灣新聞業界聯合報系所訂定的「聯合新聞標示語言」。
(10)XinhuaML(Xinhua Markup Language)
大陸新華社所發展的「新華標示語言」。
(11)CNTF(Chinese News Text Format)
由中國報業協會制訂的「中國報業電子新聞文稿格式」。


二、資料庫建置

     資料庫的建置,初期在處理Metadata的統合工作、建置具有學科原理的分類架構等基礎建設,必定會耗費較大的心力,需要結合涉及內容領域之知識專家與資訊科技人才。

 

(一)數位化資料儲存與管理

      由於數位化的格式種類多,且早期資訊儲存技術不發達時,報紙儲存方式除了原件之外,大多製作成為微縮膠卷,但卻也因使用頻繁而受磨損。而目前在儲存技術的進步與發達之下,則可依據不同的目的,儲存與備份設備如DVD、CD-R、磁碟陣列及光碟櫃等多種形式;而數位化的品質需有專業人員定期檢驗,確認無誤後再轉入資料庫中,以提供使用者利用。惟在將網站資料庫開放之前,需先將版權問題妥善處理,以免觸法。

(二)
撰寫規格需求書
      在設計資料庫前,一般也會先撰寫需求規格書,尤其是當資料庫外包給廠商做時,需求規格書是取得共識的好方法,能讓資訊技術人員能正確的分析、規劃、設計出內容知識專家所需的典藏系統,從事Metadata分析與資料庫管理之人員需要有良好之溝通,方可避免Metadata分析的結果與資訊系統分析產生矛盾的現象。

(三)
資料庫設計
     由於多媒體資料庫未來收錄內容繁多,一般的檢索條件有時仍會導致搜尋結果資料量過於龐大,對於進階搜尋的部分,可設計「搜尋結果範圍內查詢」的功能,以節省搜尋時間,提高精確度,也就是讓使用者下好關鍵字,並得到第一次檢索資料條列後,讓系統使用適當的程式來進一步發問,使用者再經由系統提供的答案,繼續搜尋自己想要的資料;分類架構的管理系統本身,不管是在分類的哪一個層次上,都要預留「修改」、「增加」、「刪除」等功能,使得編輯人員可以依照資料所呈現出的樣貌,隨時修改分類架構,甚至可發展為離散式資料庫:每一筆資料的分類作業與管理系統是連動的,可讓編輯人員藉由開啟另一個視窗,直接在「分類管理」系統中,修改類目名稱,因此只要分類架構改變了,那麼資料庫中所有資料與欄位都會即刻改變分類位置,可能會有新增類目或者類目合併的狀況。

(四)
資料庫維護

     若是定期持續更新典藏品的資料庫,其資料庫維護必須由專人隨時待命,讓資訊內容持續更新與即時回訊,使系統安全維持穩定運作,以利資料庫的維護工作。這方面必須特別注意資料庫管理人員的工作交接。

目錄



2.洪淑芬,《文獻典藏數位化的實務與技術》,頁96。「棉質手套」:如果所處理之事項多為搬移作業,接觸部分多為資料之外包裝,或是翻動之資料狀況良好,極易翻掀,則棉質手套可防汗垢沾上資料,但是,棉質手套必須隨時清洗乾淨,避
免使用已髒污之手套。「膠質手套」:最好是手套內無粉者。膠質手套不透氣,穿戴時間稍長會感到不舒服,但對於有蟲蛀之資料,必須使用表面光滑之膠質手套,以防止資料上的蟲損之處,黏附於手套上,反而對資料造成傷害。
3.曾逸鴻,《光學文字辨識(OCR)技術整理報告》,頁2。
4.曾逸鴻,《光學文字辨識(OCR)技術整理報告》,頁3。區塊切割有兩種方法:「遞迴投影法」(Recursive projection analysis)或「相連元件偵測法」(Connected component detection)。若文件屬於版面較傾斜者,則前者「遞迴投影法」較無法獲得準確的切割位置。
5.曾欣怡、潘育潔,〈新聞傳播多媒體資料庫Metadata分析研究〉,頁B3-4。
6.林信成、康珮熏,〈報紙新聞數位典藏Metadata 轉換系統之設計與應用〉,頁B2-1。

 

 









Download: 期刊報紙全文輸入工作流程指南  期刊報紙全文輸入工作流程指南 (959.7 KB, 2,375 hits)



評分:

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...
引用通告

回應:


請輸入圖片中的文字
請按圖片取得圖片中文字的錄音檔
Click to hear an audio file of the anti-spam word