TEI Tutorial心得紀要
星期四, 一月 24th, 2008內容發展分項計畫/謝筱琳
2006年3月6日至9日於中央研究院舉行之「TEI Tutorial」,為交通大學資訊工程系教授傅心家邀請,數位典藏國家型科技計畫計畫辦公室主辦之教育訓練課程。為培育臺灣文件符碼化(TEI)種子教師,特邀文件符碼化協會(TEI Consortium)主席法蘭德斯‧朱麗亞(Julia Flanders),與文件符碼化協會北美地區編輯席‧包曼(Syd Bauman)專講授課。課程分為四天(表1),內容包括:
1.文件符碼化及標誌介紹(Introduction to Text Encoding Initiative and markup)
2.文件符碼化教學介紹(Introduction to Teaching TEI)
3.文件符碼化格式與驗證:DTDs(Document Type Definitions)and Schemas
4.未來文件符碼化教學議題(Further Issues in Teaching TEI)
表1、TEI Tutorial 課程表
|
3月6日 |
3 月 7 日 |
3月8日 |
3月9日 |
0900 │ 1200 |
單元一: |
單元三: |
單元五: |
單元七: |
1400 │ 1700 |
單元二: |
單元四: |
單元六: |
單元八: |
課堂以教師授課與分組討論進行,學員約20名,分別來自中研院史語所、語言所、近史所、資訊所,台灣大學圖書館特藏組、中華佛學研究所,以及數典計畫維運分項計畫之出版子計畫、技術研發分項計畫,與後設資料工作小組。前三天課程均為教師授課為主、學生提問為輔,教師並隨學生需求增減教材;最後一天開放全天討論,由教師列出小組討論問題(詳見附件1),學員自行分組準備,後上台口頭簡報,全體提問討論,教師總結。四天密集訓練結束,授與結業證書。
TEI新舊版本更替
總計辦TEI Tutorial為文件符碼化協會每年預定工作項目之一,只要會員提出教育訓練要求,他們就會提供師資課程,舉辦世界巡迴講座;此次講座即為傅心家教授邀請,首次登台授課。
「今年不是學習TEI的最好時機……」,講師第一堂課即開宗明義道出軟體程式隨時代變革的無常。在最新版本──TEI P5──釋放之前,學界、圖書館、博物館早以TEI P4或TEI Lite版本標記全文,例如中華電子佛典協會(CBETA)即以P4版本詳細標記佛經的段落層次與內容;然隨2006年P5版本出現,新增缺字(gaiji,日文「外字」)處理模式,修訂、增補各種標籤、描述的定義,更新更完整的標記方式逐漸成形,標記者被迫面臨版本更新與轉換的抉擇,此變革亦產生教師教授TEI必噓新舊版本並呈之困難。不僅TEI Tutorial將課程內容先從P4版本切入,後以P5補充,本計畫漢籍全文主題小組舉辦之TEI Workshop也同樣授與P4與P5兩版本,並提供輕量版(TEI Lite)供學員輕鬆上手。
兩方講師皆建議,若已使用P4(或Lite)版本標記文本之研究單位,可繼續使用舊有版本,也可選擇轉換成P5版本(CBETA如是);而將要進行全文標記之單位,則建議直接採用P5版本。P4與P5兩個版本差異不大,後者較前者功能完善且新增缺字模組;TEI Lite為TEI P4之輕量版,其功能則較不適用於繁複的文本。
新增缺字功能
缺字與異體字的問題,一直是非西洋語系國家使用電腦儲存文本之的難題。許多漢文文本歷經時代的流變、筆者錯用、抄手誤植等變遷,一字衍生多形,而電腦因為編碼不足無法顯示,形成研究者研讀考據、甚至數位化障礙。
TEI P5版本新增缺字處理模式,以其日文發音命為gaiji(日文「外字」),其概念約為將原文使用字之圖檔與現行通用的異體字並呈,便利後人查閱標記即可並觀不同時代的字形字義。由於缺字模組為新增功能,TEI Tutorial特別請到日本京都大學人文科學研究院維習安博士(Dr. Christian Wittern)專講「缺字」課程。
維習安博士認為,在全文數位化過程裡,將單字的字形、字義劃開是必要的,因為文本常出現同字(義)卻外型不同的單字。TEI P5的缺字模式能將文本原有字形連結或是指向現行通用字,並於其後標記該字為萬用碼(Unicode)缺字,免去電腦無法顯示,直接反應缺字問題於標記語言裡,標記者或研究者可輕易查覺。
TEI Modules(模塊)
TEI大致可分為表頭(header)與標籤(tags)兩大部分。表頭類似書籍的版權頁,除記載原始文本的來源、出處、作者、出版資訊等基本書目資料,也記錄標記者的姓名、身分、標記年份、以及用途。標籤為標記時使用的元素,諸如<作者>、<引用>、<新增>、<刪減>、<異體字>、<名稱>、<段落>、<行>、<篇章>……等等。TEI標籤數目達到上百個,採用單位可視預標記文本之複雜度選用所需標籤,就像制定後設資料的著錄欄位一樣。眾多標籤,可依其標記之功能、用途歸納出核心、文件結構、表頭等標籤的集合,組成一個個模塊(module),而核心元素、文件結構、表頭等模塊,正為詮釋文本的基本必要欄位。
有了TEI模塊,使用者可以免去傷神一一選擇標籤的煩惱,直接選取適用自己文本的模塊,組合成一個完整的TEI schema(包含必備模塊與單位特別需求模塊),即為使用單位與機構之專用TEI語法,且此專用語法仍不失其國際、館際交換流通之標準特性。TEI的妙用正在於提供一套國際通用的標準規則,使用者可在大準則下自行制定修改細節,而不損壞其標準架構。
用Roma建立屬於自己的TEI Schema
TEI並非封閉,而是公開程式碼的免費標記語言,任何機構或是單位都可採用該標準詮釋他們的文獻資料,工程師、學者、研究者也可以針對TEI的指南、程式闕漏與刊誤,提出意見修正。目前有一線上系統Roma(圖一),提供全球所有人士免費登入,於其中創造、修正所需TEI模塊,並組合成一套TEI模組的服務;而此系統創始人並非文件符碼化協會相關人員,只是自願研發、設計TEI應用軟體的工程師。
圖一、Roma首頁
進入Roma(http://tei.oucs.ox.ac.uk/Roma/),可新增模塊或是選擇資料庫已有模塊。在選擇模塊介面上(圖二),左邊選單列出適合詮釋不同文本的模塊,例如drama(戲劇)、figures(圖表)、gaiji(缺字/外字)、corpus(語料)……等;右列為已選擇模塊。使用者所選模塊都會顯於右列,若要刪去,可點選romove(移除)字樣。為確保所有登入者創造之模組符合TEI標準結構,Roma系統將core、tei、header、teistructure四個主要模塊強制加入右列,使用者可對其小幅修改,但無法刪去。不論是必備模塊(核心的、結構的…)或是特殊模塊(適用語料、戲劇的…),登入者皆可直接點入進行屬性修訂(圖三)。
圖二、Roma Modules選擇介面
圖三、core module修改畫面
所需模塊全數修訂與選擇完成後,可點選schema(模組)與documentary(文件檔案)(圖四圈選處),產生獨立的TEI模組與TEI文件,前者為標記規格(規則),後者為說明定義的文件,兩者皆可轉換成德文、西班牙文或英文三種語言。
漢籍全文主題小組TEI Workshop講師馬德偉博士,在參加維習安博士的缺字專講與Roma教學之後,也將此兩項納入漢籍全文主題小組第四次與第五次工作坊的授課項目。
圖四、建立模組畫面
TEI在台推廣可能面臨的桎梏
課程最後一天,講師要求學員自行組團,循「附件1」的問題分組討論。
與其他學員互相交流討論才發現,原來技術研發分項計畫的後設資料工作小組許婉蓉小姐,曾經翻譯過TEI Guideline(TEI指南),且作業範圍和目前正從事TEI Lite與TEI P4編譯的馬德偉老師有所重疊,不過後設資料小組現已停工。
另外,許小姐也表示他們不了解漢籍全文主題小組舉辦的TEI Workshop,建議未來兩分項或可一同商討TEI開課事宜,技術分項可支援技術,加強兩分項合作聯繫的互動關係。
技術研發與內容發展皆為數位典藏國家型科技計畫之分項計畫,由於身負數位化工作的技術支援與標準匯整使命,兩分項學員約4人集合成一團體,合力討論如何在台灣推廣TEI,以及可能面臨的問題。
首先,推廣TEI必須先向受眾宣傳TEI的價值─使用TEI標記可利於文本分析、互換資料以及保存。然而,並非單向推廣就能達成效果,依照漢籍全文主題小組運作近一年狀況來看,我們自去年(94年底),已不斷向史語所漢籍電子文獻資料庫、柳立言老師帶領的台灣宋史研究網、語言所語料資料庫、國史館、國史館台灣文獻館等提倡TEI標記,漢籍電子文獻資料庫助理參加TEI Workshop後也曾表示TEI與他們現行的標記法相比,會是比較合宜的語法(目前使用的XML語法難於標記表格,TEI則有標格專用模塊);但礙於計畫的執行時間、經費、人力,甚至施行方法限制(去年漢籍電子文獻資料庫才將原有的自訂標記轉換成XML語法),要求數位化已久的計畫單位重新採用新的標記語言,即使可以電腦批次轉換,仍可能會對計畫單位施予更加沉重的負擔。撇下執行中計畫不談,就即將進行數位化單位而言,依舊有其施行困難,而此入門門檻為「語言能力」。
TEI由歐洲和北美的5所大學以及全球81所學術單位組成,預設語言是「世界共通」的英文,所有TEI介紹、指南、工具軟體(例如Roma),都以英語製作。對於處理漢籍全文數位化、慣於使用中文介面的工作者來說,即使具有基本語言能力,但以不熟悉語言學習新科技、新事物,恐怕還是一大難關。對此,講師皆認為TEI的中文化作業是刻不容緩的,解決進入障礙最好辦法即是將英文的TEI編譯成國內使用者慣用的介面與語言。若達成此舉,或可提高單位計畫採用TEI通用標準的興趣。
關於TEI中文化與區域化之推廣,已由中華佛學研究所圖書資訊館館長杜正民先生以及馬德偉博士向國科會申請計畫,規劃將之納入數位典藏二期計畫內,提升台灣漢籍全文數位化的國際競爭力。
TEI Tutorial vs. TEI Workshop
總計畫辦公室辦理的TEI Tutorial,講師皆為北美文件符碼化協會成員,故以全英語授課;或許是英文能力形成進入障礙,開放50個上課名額,實際僅召收約20位。相較之下,漢籍全文主題小組舉辦之TEI Workshop,講師馬德偉博士雖為德國人,但能以中文講解,採大家熟悉的中文授課,報名較為踴躍,且學員多表示能夠明瞭上課內容。
TEI Tutorial之巡迴目的在於推廣TEI、協助會員認識TEI相關議題,其功能較偏向概念的推展;TEI Workshop顧名思義為工作坊性質,旨在介紹推廣TEI,並且教導學員使用TEI,理論與實作並進。為減輕學員學習困難,馬德偉博士特別摘錄大家較為熟悉的中文文本,例如一般書信體、佛教篇章、或是魯迅《狂人日記》,全都可見於工作坊教材裡;TEI Tutorial則因教師學術文化背景,以及概念推展因素,採用英文的戲劇、小說、散文等文本為例。
此次總計辦的TEI Tutorial未設報名資格,參與學員除數位典藏計畫相關單位,還有一些民間的、退休的、業餘的個體參加;漢籍全文TEI Workshop本著訓練TEI標記好手的目標,首先開放數位典藏全文數位化相關單位人員參加,若名額有餘,則向外開放其他主題小組或是計畫單位、一般大眾。
兩課程最不同之處在於TEI Tutorial於最後一日頒發結業證書,為數典計畫背書之書面證明,TEI Workshop則未有此項認證手續;另,TEI Tutorial大量提供分組討論空間,較TEI Workshop的個人實作具互動學習效應,TEI Workshop業已習之將小組討論劃入課程,望提高學員課程參與感。詳細課程比較可見表2。
表2、TEI Tutorial與TEI Workshop比較表
|
總計畫辦公室 TEI Tutorial |
內容發展漢籍全文主題小組 TEI Workshop |
主辦單位 |
數位典藏‧總計畫辦公室 |
數位典藏‧內容發展分項計畫 |
講師 |
TEI協會主席法蘭德斯‧朱麗亞 TEI協會北美地區編輯席‧包曼 |
中華佛學研究所馬德偉 |
地點 |
家驛館研討室(需自備電腦) |
生命科學圖書館電腦教室 |
時間 |
2006.3/6-3/9(連續四個全天) |
2005.12/20、2006.1/16、4/18、5/15、6/13(五個半天、間隔約一個月) |
授課語言 |
英語 |
中文 |
應用範例 |
英文文本 |
中文文本 |
授課內容 |
介紹TEI、如何教授TEI |
介紹TEI、訓練標記好手 |
參加人數 |
20人 |
每堂20-30人 |
學員來源 |
史語所漢籍電子文獻資料庫 史語所柳立言老師計畫 語言所黃居仁教授計畫 近史所檔案館 台灣大學圖書館特藏組 資訊所 中華佛學研究所 數典計畫出版子計畫 技術研發分項計畫 後設資料工作小組 內容發展分項計畫 華僑銀行外匯交易員 |
史語所漢籍電子文獻資料庫 史語所柳立言老師計畫 語言所 國史館台灣文獻館 中華電子佛典協會 國史館 中華佛學研究所 數典計畫出版子計畫 史語所傅斯年圖書館 中研院民族所 內容發展分項計畫 民族所 |
結業證明 |
上滿兩天課程,授予結業證書 |
無 |
上課方式 |
教師授課與分組討論 |
教師授課與個人習作 |
活動紀實 |
錄影 |
拍照 |
課後回饋 |
發回饋單 |
Email詢問 |
未來TEI Workshop可改進之處
有鑑觀摩TEI Tutorial之經驗,日後舉辦類似工作坊,建議可:
1.若課程為一系列訓練內容,可排定連續數日之工作坊,加深學習記憶,避免間隔上課(隔週、隔月)容易遺忘前次上課內容。
2.工作坊除教師授課與個人習作,還可加入分組討論,要求學員自行分組(最好能以單位分組)。小組需將各別工作內容套入所學,並於課堂口頭報告,全班可互相熟悉工作項目,並提供可能協助與建議。
3.製作回饋單(或問卷),請學員於課後填寫並繳交。依據回饋單,能適度調整下次上課內容或授課方式。
4.全程錄影。不過拍攝教師授課部分必須徵詢其是否同意公佈之意願。
5.上完課程可授予結業證明,許能吸引更多相關人員參與。
【附件1】
Group Presentations:Questions for Discussion
For the final group exercise, we would like you to form into groups including 3-6 people. The colleagues from each institution or project ( Academia Sinica, NDAP, Chung-Hwa Institute, MATT, etc.) could each form a group. Anyone who is here alone without ant colleagues should join one of the other groups. Please see Julia or Professor Fu if you need help finding a group.
On Thursday morning, the groups will meet to discuss the application of TEI to their project’s work.
Please consider the following questions. Each group should prepare a short (10 minutes at most), informal presentation to share the results of your discussion with the rest of the class. There is no need for any slides or prepared materials.
‧ What are the goals of your project, and (if appropriate) the materials that are being included in your digital collection. What are the significant informational features that will need to be represented?
‧ Describe the primary audiences who will be using the digital collection: are they experts, academics, general readers, schoolchildren? What special needs will they have?
‧ Describe the functions you want to provide for your audience: what kinds of searching? What kinds of navigation? Do you need to provide support for multiple languages in the interface?
‧ What kind of text encoding will you need to support these functions? What kinds of metadata will you need?
‧ What areas of the TEI do you think will be necessary to this project, and what areas might fall outside the boundaries of the TEI? What kinds of customizations might be necessary to support the kind of encoding you propose?
‧ What kinds of training will you need to provide to those involved in digitizing these materials? What expertise or subject knowledge will they need?
〈2006 TEI Tutorial Group Presentations〉
20060306~0309TEI Tutorial訓練課程心得報告