1024x768 1280x800   Decrease font size for  - 拓展台灣數位典藏 - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 Reset to normal font size for  - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 - 拓展台灣數位典藏 Increase font size for  - 拓展台灣數位典藏
 


漢籍全文數位化工作流程指南

Tags: none 發表: 2008-01-18, 點閱: 28,483 , 加入收藏櫃 , 列印 列印 , 轉寄 轉寄

想加入的書籤: HemiDemi MyShare Baidu Google Bookmarks Yahoo! My Web Del.icio.us Digg technorati furl 加入此網頁到:YouPush . . 推到twitter 推到plurk 推到FACEBOOK

 

 

 

 伍、後設資料建置
           
                                           
一、文獻語料的專屬後設資料─TEI

    TEIhttp://www.tei-c.org/)是一國際性與跨學科性的標準,協助圖書館、博物館、出版者和個別學者以電子文本形式呈現各種文獻和語言學相關的文本,以達到線上教學與利用之便。TEI利用標準通用標誌語言(SGML)展現電子形式的文本,可不受軟硬體、平台的限制,達到資料交換、再利用之目的。TEI P4版本(2002),已可使用可擴充標誌語言(XML)編碼,而西元2006年釋出的最新版本TEI P5也新增了缺字的子集,並且補完整體標記系統。
    TEI的文件結構可分成兩大部分:標目(Header)和文本(Text)。由於標目類似圖書文獻的版權頁,除記載原始文本的來源、出處、作者、出版資訊等基本書目資料,也記錄標記者的姓名、身分、標記年份、以及用途,一般也常作為文本之後設資料使用;文本部分則可標誌內文的層級架構、使用語言,甚至詮釋內容、註釋特殊字句、記錄缺字等。TEI訂立很多標籤作為標記時使用的元素,諸如<作者>、<引用>、<新增>、<刪減>、<異體字>、<名稱>、<段落>、<行>、<篇章>……等等。
                     
 二、TEI的核心元素
因為TEI不斷改進創新,現在流通的版本共有TEI P4、TEI P5以及TEI Lite三種版本。TEI P5為TEI P4的補完版本,而TEI Lite是為TEI P4之選錄輕量版,內含簡單的TEI編碼架構,標籤抽取自大量元素中的易用選集,可滿足TEI社群中九成使用者的九成需求,不過較不適用於複雜的文本。有關TEI的核心元素,以TEI P4的核心元素示之(表7)。
 
 
(紅字為必要元素;綠字為屬性)
表7、TEI(P4)核心元素一覽表
元素名稱
定義
範例
類型(type)
header所加進的檔案類型。
語料庫(corpus)
建立者(creator)
指出TEI Header的建立者。
 
階段(status)
說明header是新的或是已經改版過。
 
建立日期(date.created)
指出header第一版的建立日期。
 
更新日期(date.updated)
指出現在版本的建立日期。
 
檔案描述(fileDesc)
描述電子檔案(computer file)本身的完整書目資訊。從這些描述裡,文件的使用者可以得到適當的參考文獻,或當這些檔案由圖書館或檔案館收藏時,館員可以根據此描述建立目錄。這裡的「電子檔案」是指由header所描述的整批文件或檔案,而不管是否分別儲存在數個作業系統下。這個類別也可以描述電子檔案的來源資訊。
 
 
標題敘述(titleStmt)
一組有關作品的標題和負責智識內容者的資訊。
 
 
題名(title)
一件作品的題名,作品可以是文章、期刊、書籍或叢書;標題包含了別名(alternative titles)或副檔名(subtitle)。
Two stories by Edgar Allen Poe: electronic version
 
層級(level)
標題的書目層級,可以指出是屬於文章、期刊、書籍、叢書或未出版文獻的題名。
 
類型(type)
題名的類型,依據一些合適的分類標準來分類題名。
 
作者(author)
書目索引裡的作者名稱,包含作品作者的名稱,可以是個人的或團體的名稱。在任何書目資料裡是對負責者的主要敘述。
Poe, Edgar Allen(1809-1849)
贊助單位(sponsor)
指出贊助機構或組織的名稱。
 
主辦單位(funder)
為文件或計畫出資的個人、學術機構或組織的名稱。
Wellcome Institute for the History of Medicine
主要建立者(principal)
負責建立電子檔案的主要研究人員名稱。
Dominik Wujastyk
負責者敘述(respStmt)
提供負責文件內容、版本、紀錄或叢書負責人的敘述。通常作為當作者或編輯者等元素不足以描述或沒有描述時的補充說明元素。
 
負責內容(resp)
以短語的方式描述負責者智識上的工作內容。
由—編輯(compiled by)
姓名(name)
 
James D. Benson
 
類型(type)
以短語的方式對物件類型命名。
 
版本敘述(editionStmt)
一組有關文件某版本的資訊。
 
 
版次(edition)
描述某一文件某一版本的特殊性。
第二版草稿,較前版大為擴展、改版和修正
負責者敘述 (respStmt)
提供負責文件內容、版本、紀錄或叢書負責人的敘述。通常作為當作者或編輯者等元素不足以描述或沒有描述時的補充說明元素。
 
名稱(name)
 
George Brown
 
類型(type)
以短語的方式對物件類型命名。
 
負責內容(resp)
以短語的方式描述負責者的工作內容。
由—全新註釋
大小(extent)
描述電子檔案儲存在某些媒介裡的約略大小,須以合適的單位表示。
(1) 4532 bytes
(2) 3200句
出版描述 (publicationStmt)
一組有關電子或其他文件出版或發行的資訊。
 
 
出版單位 (publisher)
負責出版或發行書目項目的組織名稱。
牛津大學出版社
發行者/單位 (distributor)
負責文件發行的個人或其他代理人的名稱。
Oxford Text Archive
權威人士(authority)
非出版者或發行者,但負責使電子檔案可通行的人或機構名稱。
James D. Benson
 
出版地點 (pubPlace)
一個書目項目出版的地點名稱。
牛津
地址(address)
提供出版者、組織或個人的郵件或其他地址。
21 High Street, Wilmslow, Cheshire M24 3DF
識別碼(idno)
用於識別一個書目項目的標準式或非標準式的號碼。
0-19-254705-4
 
類型(type)
識別碼的類型,例如ISBN或其他標準序號。
<idno type=’ISBN’>
取用權(availability)
提供一份文件的取用權的資訊,包括使用或發行限制、著作權限等。
James D. Benson
日期(date)
 
1989
 
曆法(calendar)
指出時間表示的系統或曆法。
 
格式(value)
以標準的格式表示日期,通常以yyyy-mm-dd表示。
 
精確度(certainty)
描述日期的精確程度。
 
序號敘述(seriesStmt)
有關序號的一組資訊,通常在出版上使用。
 
 
題名(title)
一件作品的題名,作品可以是文章、期刊、書籍或叢書;標題包含了別名(alternative titles)或副檔名(subtitle)。
Machine-Readable Texts for the Study of Indian Literature
 
層級(level)
標題的書目層級,可以指出是屬於文章、期刊、書籍、叢書或未出版文獻的題名。
<title level="S">
類型(type)
題名的類型,依據一些合適的分類標準來分類題名。
 
識別碼(idno)
用於識別一個書目項目的標準式或非標準式的號碼。
1.2
 
類型(type)
識別碼的類型,例如ISBN或其他標準序號。
<idno type="vol">
負責者敘述(respStmt)
提供負責文件內容、版本、紀錄或叢書負責人的敘述。通常作為當作者或編輯者等元素不足以描述或沒有描述時的補充說明元素。
 
負責內容(resp)
 
由—所編
姓名(name)
 
Jan Gonda
 
類型(type)
以短語的方式對物件類型命名。
 
附註敘述(notesStmt)
收集有關文件資訊的補充說明以增加書目描述的其他部分。
 
 
附註(note)
包含附註或註釋(annotation)。
歷史評註由Mark Cohen提供
 
類型(type)
描述附註的類型。
 
註解者(resp)
說明負責註釋的人員,例如:作者、編輯者、翻譯者等。
 
地點(place) 
指示附註出現在來源檔案的位置
 
下錨處(anchored)
說明是否複製的文件為附註顯示了正確的參照位置。
 
標的結尾處(targetEnd)
如果附註沒有包含在文件裡,則說明附註加接範圍的終點。
 
來源描述(sourceDesc)
提供有關電子文件來源的複製文件的書目描述。
 
 
書目資料(bibl)
包含書目資料的粗略描述,其中的次類不一定要明顯標記(tagged)。
The first folio of Shakespeare, prepared by Charlton Hinman (The Norton Facsinile, 1968)
書目結構(biblStruct)
包含結構化的書目引用,其中只會出現有關書目的次元素並以特定的順序出現。
 
完整書目(biblFull)
包含書目資料的完整結構,其中會出現TEI檔案描述的所有組成成分。
 
條列書目(listBibl)
將書目引用以條列方式表示。
 
腳本描述(scriptStmt)
包含對口語檔案的詳細腳本的引述。使用在電子檔案的來源文件是口語檔案時。
 
記錄描述(recordingStmt)
描述口語檔案轉寫時的紀錄。使用在電子檔案的來源文件是口語檔案時。
 
紀錄(recording)
描述口語檔案來源的錄音或錄影事件,影音來源可以從大眾傳播上取得。
U-matic recording made by college audio-visual department satff, available as PAL-standatd VHS transfer or sound-only casssette
 
類型(type)
說明錄音/影的種類。
<recording type=’video’>
時長(dur)
說明錄音/影的時長。
<recording dur="30 mins">
設備(equipment)
提供錄音/影設備或媒體的詳細敘述,這些聲音或影像的紀錄是作為口語檔案的來源。
數位錄音自FM廣播
廣播節目(broadcast)
描述作為口語檔案來源的廣播節目。
主題:Interview on foreign policy
製作單位:BBC Radio 5
主持人:Robin Day
受訪者: Margaret Thatcher
節目名稱:The World Tonight 
附註:First broadcast on 27 Nov 1989
編碼描述(encodingDesc)
描述電子檔案和其來源之間的關係。這個類別詳細描述了在轉寫過程中,文件如何標準化、編碼者如何解決原始文件內歧義的問題、應用了何種層級的編碼或分析方法。
 
 
計畫描述(projectDesc)
詳細描述電子檔案編碼的目的,以及電子檔案集結過程的相關資訊。
Texts collected for use in the Claremont Shakespeare Clinic
取樣宣告(samplingDecl)
以散文的方式描述建立語料庫時,文本取樣的原理和方法。
文件取樣是從開頭算起兩千字
編輯宣告(editorialDecl)
描述當為文件編碼時,所使用的編輯原則與實作。
 
 
修正(correction)
說明在何種情況下以及如何修正文件。
拼字錯誤檢查是藉由WordPerfect spelling checker來執行
 
程度(status)
指出應用在文件上的修改程度。
<correction status="unknown">
方法(methond)
用於指出文件內標明更動的方式。
<correction metnod="silent">
標準(normalization)
指出轉成電子檔案的原始文件內,施行標準化的範圍。
藉由韋氏第九版Collegiate字典將字轉成標準美式拼字(Modern American spelling)
 
來源(source)
指出任何施行標準化的權威檔
<normalization source="w9">
方法(methond)
用於指出文件內標明標準化的方式。
<normalization method="silent">
引號(quotation)
在編輯時,原始檔內引號的應用。
所有開引號由參考實體(entity reference) ODQ表示;所有閉引號由參考實體CDQ表示
 
引號(marks)
指出引號在文件內是否被保留作為內容的一部份。
<quotation marks="all">
形式(form)
說明引號在文件內指示功能的運作方式。
<quotation form="std">
連字號(hyphenation)
摘要敘述原始。
 
 
行尾(eol)
說明文件裡行尾的連字號是否被保留。
 
斷詞(segmentation)
描述文件斷詞的原則,例如是依句子、聲調單位或字素圖層等。
 
標準值(stdVals)
當使用標準化的日期或數字表示時,指出使用的格式(format)。
 
詮釋(interpretation)
描述除了轉譯以外,任何加在文件上的分析或詮釋資訊的內容。
第四部份的言談分析是以手寫方式加入,還未被檢查
標籤宣告(tagsDecl)
詳細描述應用在SGML文件裡標籤的。
 
 
翻譯(rendition)
提供有關一個或多個元素欲轉成樣式的資訊。
 
標籤使用方式(tagUsage)
文件內特定元素的使用資訊。
只用來加標籤在複製文件裡的斜體字
 
(gi)
標籤所標示的元素名稱(一般辨識名稱)。
<tagUsage gi="p">
(occurs)
文件內元素的出現次數。
<tagUsage occurs="28">
識別(ident)
在全球識別屬性(global id attribute)擁有區辨值的文件內,元素的出現次數。
<tagUsage ident="321">
翻譯(render)
指出「翻譯<rendition>」元素的識別,而翻譯元素是定義元素是如何被翻譯的。 
<tagUsage render="style1">
參照宣告(refsDecl)
說明如何為這份文件建立正式的參照(canonical references)。
 
 
檔案類型(doctype)
說明在參照宣告內的檔案類型。
<refsDecl doctype="TEI.2">
階梯式(step)
指出由階梯式方法定義的正式參照的一個構件。
 
 
參照單位(refunit)
在正式參照中,給予這步驟所識別出的單位(書、章、詩篇canto、詩節verse)命名。
<step refunit="chapter" >
長度(length)
指出參照構件的固定長度。
<step length="3" >
定界(delim)
提供跟隨在參照構件後的定界線(delimiting string)。
<step delim=":" />
起點(from)
指出在正式參照裡,藉由此步驟參照的起點。
<step from="DESCENDANT" (1 DIV2 N %2)" />
終點(to)
指出在正式參照裡,藉由此步驟參照的終點。
<step to="DITTO"/>
里程碑式(state)
指出由里程碑式方法定義的正式參照的一個構件。
 
 
版本(ed)
指出里程碑方式應用在何種版本上。
<state ed="first"/>
單位(unit)
指出在這里程碑上什麼部份被改變了。
<state unit="page"/>
長度(length)
指出參照構件的固定長度。
<state length="2"/>
定界(delim)
提供跟隨在參照構件後的定界線(delimiting string)。
<state delim="."/>
類別宣告(classDecl)
以一或多個分類法定義檔案內的分類碼。
 
 
分類法(taxonomy)
定義類別來分類文件,可以不明顯地藉由書目索引,或明顯地採結構化分類
 
類別(category)
包含個別的描述類別,可能在使用者定義的分類法內,套合在superordinate類別裡。
 
類別描述(catDesc)
描述文件分類裡的一些類別,可以以短文的形式或藉由使用在TEI正式檔案描述(textDesc)的狀況參數(situational parameters)描述。
報紙報導(Press Reportage)
特徵系統宣告(fsdDecl)
識別出特徵系統宣告,其宣告包含對特徵結構的特定類型的定義。
 
 
類型(type)
指出記錄在FSD內特徵結構的類型。這將會是至少一個特徵結構裡的類型屬性值。
<fsdDecl type=’myA1′>
特徵系統宣告(fsd)
指出包含特徵系統宣告的外部實體。在檔案的DTD次集合的實體宣告必須和系統內具有檔案的實體名稱相關連。
<fsdDecl fsd=’myFeatures’/>
韻文宣告(metDecl)
當韻文的型態是以結構化的元素屬性表示出來時,此元素記錄被運用以顯示韻文型態(metrical pattern)的符號。
 
 
類型(type)
指出符號是否表達了抽象的韻律形式(metrical form),真正的韻律展現(prosodic realization),或者韻律架構(rhyme scheme),或一些相關的組合。
<metDecl type="MET REAL">
型態(pattern)
指出規則性的表示方法來定義對符號的合法值。
<metDecl pattern="((1| 0)+\ |?/?)*">
象徵(symbol)
記錄在韻文符號內,特定字串的重要性,可以明顯表示或藉由在同一個metNotation內的象徵元素。
韻律顯著(metrical prominence)
 
內含值(value)
指出被紀錄的字元或字串。
<symbol value="1">
終點(terminal)
指出象徵符號是由其他符號定義(terminal=N)或以描述法(prose)定義(terminal=Y)。
<symbol terminal="y">
文件變體編碼(variantEncoding)
宣告變體文件的編碼方法。
 
 
方法(method)
指出變體裝置的編碼方法。
 
地點(location)
指出裝置(apparatus)是隨檔案運作出現或在檔案運作外圍出現
 
文件描述(profileDesc)
提供一份文件非書目部分的詳細描述,特別是所使用的語言和次要語言,文件建立的情況、參與者以及其背景。
 
 
建立(creation)
有關一份文件建立的資訊。
<date value="1992-08">1992年8月</date>
<rs type="city">新墨西哥州,Taos城</rs>
使用的語言(langUsage)
包含一組有關描述文件的主要語言、次要語言、登錄者、方言等的資訊。
 
 
語言(language)
描述文件內單一的語言或次要語言。
加拿大商用英語(Canadian business English)
 
書寫系統宣告(wsd)
為包含書寫系統宣告的實體,用來顯示文件上的語言。
<language wsd="wsd.en">
使用法(usage)
指出文件內使用某語言的冊數所佔的約略百分比。
<language usage="20">
文件類別(textClass)
一組描述文件性質或標題的資訊,可以藉由標準化的分類架構來描述,例如thesaurus等。
 
 
關鍵詞(keywords)
含有關鍵詞或短語的列表,用來指出一份文件的主題或性質。
 
 
架構(scheme)
定義關鍵詞時所依據的控制詞彙。
<keywords scheme="lcsh">
分類碼(classCode)
依據一些標準分類系統為文件訂定分類碼。
005.756
 
架構(scheme)
指出使用的分類系統或分類法。
<classCode scheme="ddc19">
類別參照(catRef)
一些分類學上所定義的一個或多個類別。
 
 
目標(target)
指出有關的類別。
<catRef target="b12 b15">
架構(scheme)
指出定義類型集所依據的分類架構。
<catRef scheme="brown"/>
文件描述(textDesc)
提供依據狀況參數(situational parameters)表示的文件描述。
 
背景描述(settingDesc)
描述語言互動(language interaction)發生時的背景,可以是散文式描述或利用一系列元素來描述。
 
筆跡(handlist)
包含描述來源筆跡的元素列表。
 
改版描述(revisionDesc)
允許編碼者提供在電子檔案發展過程中,檔案變動的歷史。改版歷史對版本控制(version control)和解決文件歷史的問題都很重要。
 
 
變更(change)
摘要描述一份多位研究者所共有的電子文件的變更或改版的內容。
 
 
日期(date)
以任何形式表示的日期。
5/25/91:
 
曆法(calendar)
指出時間表示的系統或曆法。
 
格式(value)
以標準的格式表示日期,通常以yyyy-mm-dd表示。
 
精確度(certainty)
描述日期的精確程度。
 
負責者敘述 (respStmt)
提供負責文件內容、版本、紀錄或叢書負責人的敘述。通常作為當作者或編輯者等元素不足以描述或沒有描述時的補充說明元素。
<name>EMB</name>
<resp>ed.</resp>
項目(item)
包含一列表的一個組成部分。
檔案格式更新
(發表於西元2001年6月,URL: http://www.tei-c.org/P4X/元素名稱、定義與範例是由技術發展分項計畫後設資料工作組翻譯)
                   
 三、TEI標記實務
(一)標記作業程序參考

 

(二)建立適合計畫的標記模組
TEI標記語言是以上百個描述元素(標籤)組成,由於標籤數量眾多且規則繁雜,要熟悉並學會使用所有標籤實為難事,況且多數計畫單位的文本不需使用所有的標籤,反而是依照不同文本特性選用不同標籤,集合成能夠標記計畫文本的標籤集合。
    為了方便計畫單位建立或者參考他人所選用的標籤,網路上有自發研究的工程師設計了一個線上系統Roma(http://tei.oucs.ox.ac.uk/Roma/,圖九),提供所有人士免費登入,於其中創造、修正,或是分享自己的TEI標籤集合。
 

圖九、Roma首頁
 
  在這個系統裡,點選最上列的module選項,可看見標籤依據其功能與用途,歸納條列成核心、文件結構、表頭,以及適合詩歌、語言分析、散文、戲劇等各類標籤集合(圖十左列),如drama(戲劇)、figures(圖表)、gaiji(缺字/外字)、corpus(語料)……等,並賦予這些標籤集合一個專有名詞稱做TEI模塊(TEI Module)。
 

  圖十、Roma Modules選擇介面
 
使用者根據手邊文本的特性與複雜度,只要點選左列模塊名稱旁的add(增加)字樣,就能新增模塊至右列的已選模塊裡,若要刪去,點選remove(移除)字樣就能刪除,這些選擇的模塊會組成TEI標記的子集,又稱作TEI模組(TEI Schema)。為確保所有使用者創造之模組符合TEI標準結構,不失資料於國際、館際交換流通之通用標準特質,此系統還特別將core、tei、header、teistructure四個主要構成TEI結構之模塊強制加入右列清單,使用者無法刪除。
TEI除了模塊的組合自由外,使用者還可針對模塊裡的標籤進行屬性的修改,只要點選模塊名稱本身,例如teistructure,就能進入該標籤集合頁面進行標籤的新增與刪除,及其屬性的定義與修正(圖十一)。
 

圖十一、teistructure module修改畫面
 
    待模塊選擇完畢,且內含標籤的屬性都定義完畢後,點選畫面最上方工具列的schema選項(圖十二),可以進入選擇轉出模組格式的畫面,系統會以選擇之格式輸出TEI模組的DTD(Document Type Definition,文件格式定義);而點選documentary選項(圖十三),則能產出文件定義之文字說明檔。
 

圖十二、建立TEI Schema畫面
 

 
圖十三、建立TEI Documentation畫面
 
(三) 標記人員
    標記分為層級標記與內容標記,前者標記內文的結構如題名、作者、段落、行句……等,這些屬於比較制式化、不需專業學識判斷的基本標記,可交由輸入、繕打的一般人員於輸入文字時一併處理。
而後者的內容標記,因為牽涉到內容的判讀與辨識,例如缺字、異體字、訛字、或是特殊註釋等,則需由專業人士(例如計畫成員或經過訓練的人員)使用參考工具如字典、辭典等工具書進行考究,才能正確無誤標誌。
(四)使用軟體
   1. UltraEdit
    UltraEdithttp://www.ultraedit.com/)是一種純文字編輯器,可以使用它來   編輯XML檔,並在UltraEdit裏設定呼叫XML Parser,隨時做XML的語法檢查,方便尋找、修正錯誤。其特色與功能如下:
提供超強的文字檔編輯、預視、列印功能。
提供直接編輯十六進位碼功能。
可編輯 HTML 檔案,以彩色顯示HTML標記,方便網頁編輯。
新版在畫面左邊提供快速檢視欄框,無論切換編輯視窗或檔案都很容易。
新增的 project(計畫)功能,可以把數個文字檔合成一個「計畫」,方便一次編輯數個彼此有關連的文件。
 2.Oxygen
    Oxygen http://www.oxygenxml.com/index.html)是一種XML編輯器。其特色是能夠匯入自訂模組,並在定義的模組內編輯、檢查語法,錯誤語法會一一條列於下方視窗內,點擊條目上方的編輯畫面就會顯現相對的錯誤處,方便修訂。此外,也能靈活轉換成HTML、PDF與PostScript。
(五)轉出HTML格式
    標記完成後並且語法檢查無誤之文字檔,可轉出HTML格式儲存,並搭配適宜之Style Sheets,即可於網頁上呈現出型式與內容兼具的電子全文。 (目錄)
      









Download: 漢籍全文數位化工作流程指南  漢籍全文數位化工作流程指南 (2.3 MB, 1,767 hits)



評分:

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

回應:


請輸入圖片中的文字
請按圖片取得圖片中文字的錄音檔
Click to hear an audio file of the anti-spam word