1024x768 1280x800   Decrease font size for  - 拓展台灣數位典藏 - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 Reset to normal font size for  - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 - 拓展台灣數位典藏 Increase font size for  - 拓展台灣數位典藏
 


資料庫初體驗(4)

Tags: none 發表: 2008-06-13, 點閱: 5,526 , 加入收藏櫃 , 列印 列印 , 轉寄 轉寄

想加入的書籤: HemiDemi MyShare Baidu Google Bookmarks Yahoo! My Web Del.icio.us Digg technorati furl 加入此網頁到:YouPush . . 推到twitter 推到plurk 推到FACEBOOK

 書同文,編碼大不同
 
何謂編碼?
有哪些種類的編碼方式?
 
由於電腦並不像人腦,可以理解人的語言或文字,因此為了讓電腦接受到使用者輸入的訊息,所有的資料都會被轉換成0與1的數字後才進行處理,故有人說電腦是由0與1所組成的,而資料都會被轉換成0與1的過程,也就是所謂的編碼。在許多情況下,電腦編碼方式所能容納的字數是有限的,所以沒辦法涵蓋完整想要表示的字,例如:廣泛被使用的Big5編碼只是包含中文的常用字及符號而已,故以Big5編碼為主的電腦,僅能處理中文字所有集合(字集)中的一小部份。當然也有一個編碼包含許多字集的,例如Unicode的目標是包含所有字集。
 
英文系統內一樣有編碼。以一字節八位元(8 bits)排列,共可得256個組合,即0至255。但由於英文字母加上大小寫及常用的符號後,也不到128個,所以在早期的電腦系統內,只用了0至127(即十六進制的00至7F)。西文由於基本字符少,所以用2的8次冪就能包涵所有的字元。它的內碼集共0至255,名為ASCII。
 
現行的系統下,在同一種環境中,只能顯示一種編碼,所以只要這個編碼沒支援的字,就沒辦法顯示。目前常見之中文編碼有Big5(臺灣)、GB 2312(中國大陸)、國際標準Unicode等等,茲分別簡介如下:
 
     Big5
Big5編碼是使用繁體中文社群中最常用的電腦漢字字符集標準,共收錄13,053個漢字,其中有2字為重複編碼。是在1984年由中華民國財團法人資訊工業策進會為五大中文套裝軟體所設計的中文內碼,所以就稱為Big5中文內碼,雖然五大套裝軟體並沒有成功,但Big5編碼卻深遠地影響正體中文電腦內碼,直至今日。Big5後來被人按英文字序譯回中文,以致現在有『五大碼』和『大五碼』兩個中文名稱。
 
    GB 2312
GB 2312是一個簡體中文字符集的中國國家標準,全稱為《信息交換用漢字編碼字符集·基本集》,又稱為GB0,由中國國家標準總局發佈,1981年5月1日實施。GB 2312編碼通行於中國大陸,新加坡等地也採用此編碼,中國大陸幾乎所有的中文系統和國際化的軟體都支持GB 2312。GB 2312標準共收錄6,763個漢字,但是對於人名、古漢語等方面出現的罕用字,GB 2312不能處理,這導致了後來GBK及GB 18030漢字字符集的出現。
 
    Unicode
Unicode是一種在電腦上使用的字元編碼。它為每種語言中的每個字元設定了統一且唯一的二進位編碼,以滿足跨語言、跨平台進行文本轉換、處理的要求。隨著電腦工作能力的增強,Unicode也在面世以來的十多年裡得到普及。由於Unicode在其編碼中同時容納了全世界各種語言的字元和符號,因此已成為國際常用的交換碼標準。目前Unicode在漢字的支援方面已經定義超過七萬多個字元,收納的字遠多於Big5,且收納字的範圍還在繼續增補中,因此也的確解決了某些層次字形編碼不足的問題,並且在許多系統的支持下,在資訊交換上也的確有其便利性。
 

中文字編碼存在哪些問題?
 
電腦的編碼系統原本是採用一個字對一個碼,才能夠在電腦上顯示出來,人類雖然看得懂字形,但是電腦只能看懂編碼,且能夠被放到電腦的數量,受限於編碼空間的限制,必須挑選適當的文字或符號放到電腦,再將這些文字或符號加以編碼。其他沒有被收錄的文字,如果使用者需要在電腦上使用,將無法順利於電腦上表達出來,這些文字則稱為缺字。
 
由於數位典藏機構需要將大量的古代文獻數位化儲存,而古籍中又包含了大量的罕用文字,故經常發生缺字問題,所以缺字問題也成為漢字數位化過程中最急迫的問題之一。為了解決缺字問題,最常用的方法是利用使用者造字區內自行新增所需之缺字,但此方法在面對資料檢索或是交換時,因另一方可能沒有相同的造字檔,而遭遇資料錯誤、無法讀取或文字空白等問題,故並未徹底解決缺字問題,再加上當使用者造的字越來越多時,複雜的管理問題也隨之而來。
 
我們以『游錫堃』、『王建煊』這兩個姓名來舉例,『堃』、『煊』這兩個字在Big5編碼中是不存在的,而在Unicode編碼中是存在的。所以當我們所編輯的文件格式預設編碼為Big5時,這些未存在於Big5編碼中的文字會以問號顯示;而在HTML網頁原始碼的文件上,則會以該字的跳脫字元格式(Escapes)來表示,例如:『堃』會表示為『&#22531』、『煊』會表示為『&#29002』。若需要正確顯示這些文字,只需要將文件的編碼格式設定為包含該文字的編碼格式,例如:Unicode。
 
數位典藏機構所提供的解決方案?
 
數位典藏的古籍資料中有相當數量的缺字存在,所以在缺字的解決上必須有一個統一的架構,方便於使用上的資訊分享。基本上數位典藏是採用中央研究院資訊科學研究所文獻處理實驗室的技術來擴展,將其應用在更廣的層面,茲分別簡介如下:
 
    構字式
為了徹底解決現行漢字交換碼不足所造成的缺字問題,中研院資訊所文獻處理實驗室從漢字字形結構的拆分與分析中,利用有限的部件及字根的組合方式來表達任一漢字,此稱為構字式。例如『顥』,以構字式拆解的話,可拆分成『景』與『頁』兩個部件,其中為了表示部件與部件的連接關係,
故定義了三類共計十三個的『構字符號』,故『顥』的構字式為『 』。因此構字式是由部件和構字符號組成,且『構字符號』也是一般文字和缺字的辨識依據。
 
 
構字符號種類如表一、表二所示。利用簡單的連接符號為主來架構出中文字體,部分較複雜之字形則以起始符號、終止符號包夾來表示。
 
                                                                       表一

 
                                                                     表二

 
     漢字構形資料庫
利用構字式的方法,將所有的漢字收錄並集結成一個以Big5為編碼的系統,稱為『漢字構形資料庫』。目前漢字構形資料庫已收錄了楷體字形62,242個、小篆11,100個、金文3,781個,異體字12,809組,所以當各典藏單位面對數位化所遭遇到的缺字問題時,若使用漢字構形資料庫做為缺字的解決方案未嘗不是個成本較低、功能又較完備的好方法。且目前漢字構形資料庫仍然持續在資料量上擴充。
 
目前漢字構形資料庫是由甲骨文、金文、楚系文字、小篆及楷書構形資料庫組合而成,如圖一。從圖一可看到每個構形資料庫都有各自的字集、部件集、字根集、異體字表及電腦字型,各個字集間彼此也有銜接。簡單的說,漢字構形資料庫的主要特色如下:
 
1.    銜接古今文字以反映字形源流演變。
2.     收錄不同歷史時期的異體字表,以表達不同漢字在各個歷史層面的使用關係。
3.    記錄不同歷史時期的漢字結構,以呈現漢字因義構形的特點。
4.    使用構字式及風格碼來解決古今漢字的編碼問題。

 圖一
更多關於漢字構形資料庫的資訊可參考http://www.sinica.edu.tw/~cdp/
 
    網頁缺字應用
目前資訊科技與網際網路的快速發展,人們更常利用網際網路取得資訊內容,而且使用網際網路來推廣數位典藏的內容也是強而有效的方式之一,在利用網際網路推廣之前,則必須先解決缺字顯示於網頁上的問題。網頁顯示部份,須將資料中包含構字式內容轉換成圖片格式的缺字字形,當使用者開啟了含有缺字之網頁時,會啟動網頁中所包含的JavaScript程式對資料內容進行判斷,並將構字式轉換成HTML的圖片標籤(IMG TAG);而圖片的網址(URL)將連結到字形解譯引擎(Glyph Rendering Engine),同時傳入該字形相關參數,如字元編碼、大小及顏色等。最後在使用者端觀看到的網頁,即是以圖片顯示出的缺字資料,如下圖二。另外,也提供缺字檢索網頁,如下圖三,供一般使用者即使尚未安裝漢字構形資料庫也能夠查詢缺字,其功能包含了圖片複製、構字式複製、調整字形顏色、大小。

 
圖二 網頁缺字顯示畫面
 

圖三 缺字檢索頁面
 
 

        目前仍存在的缺字問題是古漢字的造字量、使用上的便利性以及各政府機關彼此系統的整合。古漢字的造字方面目前仍由中研院資訊所文獻處理實驗室持續進行中;然而漢字構形資料庫由於描邊字型的檔案太大,整個資料庫的下載壓縮檔約為80MB,再加上下載後的安裝問題,也會讓部分使用者卻步。其實對大多數人而言,缺字出現的機會並不多,於是在未來打算同時推出缺字圖片下載,方便大眾使用;在政府機關以及各機構所用的缺字解決方案不一,政府機關(如戶政、地政等機關)大多數使用全字庫(http://www.cns11643.gov.tw/),而數位典藏應用上則是以漢字構形資料庫為主,雖然彼此的解決方法各有其優缺點,且都已經在各單位實施一段時間,但是這之間的缺字資訊交流則是重要的一大課題,若不能及早整合資訊,也許在未來統整上會更加困難。

 

(全文完)

 










評分:

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

回應:


請輸入圖片中的文字
請按圖片取得圖片中文字的錄音檔
Click to hear an audio file of the anti-spam word