數位典藏觀察室 » 後設資料

文章分類 ‘後設資料’

語言、影音與新聞主題小組－數位化製作規格文件

星期一, 十月 20th, 2008

一、數位化規格：視訊檔

檔案目的	檔案格式
永久保存檔	檔案格式：MPEG 2 影像大小：720*480像素音效解碼為立體雙聲道資料傳輸率：8Mb/sec
視訊串流檔（網路瀏覽用）	檔案格式：WMV 影像大小：320*240像素資料傳輸率：150-300kbps 檔案時間：1-5分鐘或完整（具有代表性或主題畫面呈現）

二、數位化規格：聲音檔

檔案目的	檔案格式
永久保存檔	檔案格式：WAV 取樣率：44.1kHz / 16-24bit/sample 聲道：立體音
聲音串流檔（網路瀏覽用）	檔案格式：WMA或Mp3 取樣率：44.1 kHz / 16bit/sample 聲道：立體音頻寬：64Kbps-128 Kbps 檔案時間：聲音前端30秒至60秒間或完整

More attachment available as below

文章分類：後設資料, 觀察室歷史文章 | 回應：0人 »瀏覽:312人次

資料庫（Database）廣義來說，為一個具有相關隱含意義的資料集合，通常為了特殊目的而建置，因此會有預定的使用族群，而資料庫可大可小、可簡單亦可複雜。舉例來說，一個班級的通訊錄，可能僅僅只有數十筆記錄，每筆只紀錄簡單姓名、電話、住址…等文字結構；而以數位典藏聯合目錄而言，則涵蓋了上百萬筆數位典藏資訊，數位格式包含文字、聲音與影像，資料關係更是錯綜複雜。無論資料量如何，皆可歸納為資料管理的一種，必須能針對資料進行組織、分類與儲存，並盡量滿足使用者檢索、統計分析、維護…等等需求。

<目錄>
3. 資料庫初體驗
3.1 資料管理的好幫手：資料庫
 3.2 選擇適合的關聯式資料庫
3.3 資料庫設計DIY
3.4 書同文，編碼大不同

文/黃國倫

3. 資料庫初體驗
3.1 資料管理的好幫手：資料庫

什麼是資料庫？
什麼是關聯式資料庫？
關聯式資料庫可以幫我們解決什麼問題？

資料庫（Database）廣義來說，為一個具有相關隱含意義的資料集合，通常為了特殊目的而建置，因此會有預定的使用族群，而資料庫可大可小、可簡單亦可複雜。舉例來說，一個班級的通訊錄，可能僅僅只有數十筆記錄，每筆只紀錄簡單姓名、電話、住址…等文字結構；而以數位典藏聯合目錄而言，則涵蓋了上百萬筆數位典藏資訊，數位格式包含文字、聲音與影像，資料關係更是錯綜複雜。無論資料量如何，皆可歸納為資料管理的一種，必須能針對資料進行組織、分類與儲存，並盡量滿足使用者檢索、統計分析、維護…等等需求。

一般對於資料量需求不大、關係簡單之資料，是可以採用Word、Excel…等文件格式紀錄，這也算是廣義資料庫的一種；但若資料彼此間關係稍微複雜，就會有不少維護困難與著錄限制。以人名權威資料庫為例，若以Excel紀錄姓名與參考書目關係可以簡單表示如下：

表一
姓名	參考書目	編著者
文徵明	明人傳記資料	國立中央圖書館
蘇東坡	中國歷代人名大辭典	沈起煒
王錫爵	明人傳記資料	國立中央圖書館
王安石	中國歷代一百名人傳	沈起煒

以此表格資料為例，可以整理出欄位彼此關係如下︰

　

其中『姓名』與『參考書目』為多對一關係，如『文徵明』與『王錫爵』同時參考自『明人傳記資料』；『參考書目』與『編著者』也為多對一關係，如『中國歷代人名大辭典』與『中國歷代一百名人傳』皆為『沈起煒』所撰寫。

乍看之下很合理，但實際著錄時卻有可能會發生一些問題，如『姓名』與『參考書目』也有可能是一對多關係，如『文徵明』有可能同時參考自『明人傳記資料』與『中國歷代人名大辭典』，在關係圖中可以很簡單加入參考關係，而在表格之著錄也很直覺就會將『參考書目』改成如下，但問題來了，『編著者』要如何著錄，才能清楚區分此『編著者』屬於哪個『參考書目』呢？

表二
姓名	參考書目	編著者
文徵明	明人傳記資料、中國歷代人名大辭典	國立中央圖書館、？？？

而在資料維護上，同樣也會有一些困難，如發現資料著錄錯誤，要將所有『明人傳記資料』改為『明人傳記資料索引』，將所有『中國歷代人名大辭典』的『編著者』由『沈起煒』改為『張撝之、沈起煒、劉德重』，若要修改筆數有成千，甚至上萬筆時，那實在也只能說是一件苦差事了。

表三
姓名	參考書目	編著者
文徵明	明人傳記資料索引	國立中央圖書館
蘇東坡	中國歷代人名大辭典	張撝之、沈起煒、劉德重
王錫爵	明人傳記資料索引	國立中央圖書館
王安石	中國歷代一百名人傳	沈起煒
……	中國歷代人名大辭典	張撝之、沈起煒、劉德重
……	明人傳記資料索引	國立中央圖書館
……	……	……
……	……	……

所以有發現真正問題所在嗎？其實癥結點就在於『姓名與書目彼此間關係可能會有一對一、一對多、多對一、多對多的關係存在，若單純使用Excel這類電子文件著錄，試圖只用一個表格去表達姓名與書目，在很多情況下是無法適當呈現出資料彼此間之關係的』。所以應該重新考慮表一，將其拆成如下之表四、表五兩個表格，再加上表六去紀錄姓名與書目之間的關係。

表四
PEOPLE_ID	NAME
1	文徵明
2	蘇東坡
3	王錫爵
4	王安石

表五
BOOK_ID	BOOK	BOOK_AUTHOR
1	明人傳記資料	國立中央圖書館
2	中國歷代人名大辭典	沈起煒
3	中國歷代一百名人傳	沈起煒

此外，SQL依照用途可簡單區分為三大類：資料定義語言（Data Definition Language，簡稱DDL）、資料操作語言（Data Manipulation Language，簡稱DML）及資料控制語言（Data Control Language，簡稱DCL）。資料定義語言可以用來定義資料庫的資料結構，就像資料表名稱、欄位名稱、以及各欄位屬性等等；資料操作語言則是用來進行資料操作，例如：資料庫中新增、刪除、更新、與查詢資料的操作功能；而資料控制語言可以針對資料庫內部進行交易處理及系統效能維護。因此只要學會這三大類的SQL語言，幾乎就可以應付各種資料庫管理工作。但礙於篇幅關係，本章節並不詳細介紹SQL用法，有興趣者可參考SQL相關書籍。<目錄>　

3.2 選擇適合的關聯式資料庫

有哪些關聯式資料庫可供選擇？
優點為何？限制為何？

目前市面上常見之關聯式資料庫有Microsoft Office Access、Oracle Database、Microsoft SQL Database、MySQL、PostgreSQL，基本上都具備關聯式資料庫基本功能，茲分別簡介如下：

n Microsoft Access

MS Office Access適合資料量小，需求不大之使用者。其單一表格可支援2GB資料量、支援基本的交易鎖定（Transaction Lock）、支援與MS Office套件作一些功能上的結合，更重要的是也支援SQL結構化查詢語言。但只支援255個使用者同時上線，無法使用預存程序（Store Procedure）或觸發（Trigger）…等功能，只能執行於Microsoft Windows作業系統上，更多產品相關資訊可參考http://www.microsoft.com/access/。

n Oracle Database

商業資料庫，由專業資料庫廠商Oracle推出，一般常見功能皆具備，可說是目前市面上功能最齊全的資料庫。也因其功能眾多，其所提供之資料庫管理者介面相當複雜，甚至有些進階功能無法透過介面去管理，只能透過命令列（CommandLine）方式進行設定，價格昂貴。其除可與Java做緊密結合，亦可於Linux、FreeBSD、MSWindows、Solaris…等作業系統上執行。更多產品相關資訊可參考http://www.oracle.com/database/。

在選擇資料庫時，除了根據資料管理的需求外，也要考慮資料量規模、預算、作業系統平台、資料庫功能…等等實際專案需求；若以作業系統平台為考量，僅限制在Linux上運作，則MS Office Access、MS SQL Database就無法列入考慮；若非商業用途，而預算又不足時，就可以考慮MySQL或PostgreSQL，端看不同需求，而有不同資料庫選擇。在這裡提供幾個評估因素，讓各位在選擇資料庫產品時可以先進行自我需求分析，以了解資料庫應具備的特性：

評估因素	說明
資料複雜度	是否支援有多對多的關係？是否提供欄位格式限制？日期、數字、長文字？
資料量	最大的資料儲存筆數？
資料查詢需求	是否支援SQL查詢？是否提供AND、OR、部份符合、大於、小於條件查詢？
使用者數量	同一時間最多使用人數？
跨平台要求	是否能在Windows、Linux或其他平台運作？
商業用途	是否用於公司營利之目的？

…詳全文

文章分類：後設資料, 觀察室歷史文章 | 回應：0人 »瀏覽:1,791人次

書同文，編碼大不同

星期四, 十二月 6th, 2007

何謂編碼？

有哪些種類的編碼方式？

由於電腦並不像人腦，可以理解人的語言或文字，因此為了讓電腦接受到使用者輸入的訊息，所有的資料都會被轉換成０與１的數字後才進行處理，故有人說電腦是由０與１所組成的，而資料都會被轉換成０與１的過程，也就是所謂的編碼。在許多情況下，電腦編碼方式所能容納的字數是有限的，所以沒辦法涵蓋完整想要表示的字，例如：廣泛被使用的Big5編碼只是包含中文的常用字及符號而已，故以Big5編碼為主的電腦，僅能處理中文字所有集合（字集）中的一小部份。當然也有一個編碼包含許多字集的，例如Unicode的目標是包含所有字集。

英文系統內一樣有編碼。以一字節八位元（8 bits）排列，共可得256個組合，即0至255。但由於英文字母加上大小寫及常用的符號後，也不到128個，所以在早期的電腦系統內，只用了0至127（即十六進制的00至7F）。西文由於基本字符少，所以用2的8次冪就能包涵所有的字元。它的內碼集共0至255，名為ASCII。

現行的系統下，在同一種環境中，只能顯示一種編碼，所以只要這個編碼沒支援的字，就沒辦法顯示。目前常見之中文編碼有Big5（臺灣）、GB 2312（中國大陸）、國際標準Unicode等等，茲分別簡介如下：

Big5:編碼是使用繁體中文社群中最常用的電腦漢字字符集標準，共收錄13,053個漢字，其中有2字為重複編碼。是在1984年由中華民國財團法人資訊工業策進會為五大中文套裝軟體所設計的中文內碼，所以就稱為Big5中文內碼，雖然五大套裝軟體並沒有成功，但Big5編碼卻深遠地影響正體中文電腦內碼，直至今日。Big5後來被人按英文字序譯回中文，以致現在有『五大碼』和『大五碼』兩個中文名稱。
GB 2312:是一個簡體中文字符集的中國國家標準，全稱為《信息交換用漢字編碼字符集·基本集》，又稱為GB0，由中國國家標準總局發佈，1981年5月1日實施。GB 2312編碼通行於中國大陸，新加坡等地也採用此編碼，中國大陸幾乎所有的中文系統和國際化的軟體都支持GB 2312。GB 2312標準共收錄6,763個漢字，但是對於人名、古漢語等方面出現的罕用字，GB 2312不能處理，這導致了後來GBK及GB 18030漢字字符集的出現。
Unicode:是一種在電腦上使用的字元編碼。它為每種語言中的每個字元設定了統一且唯一的二進位編碼，以滿足跨語言、跨平台進行文本轉換、處理的要求。隨著電腦工作能力的增強，Unicode也在面世以來的十多年裡得到普及。由於Unicode在其編碼中同時容納了全世界各種語言的字元和符號，因此已成為國際常用的交換碼標準。目前Unicode在漢字的支援方面已經定義超過七萬多個字元，收納的字遠多於Big5，且收納字的範圍還在繼續增補中，因此也的確解決了某些層次字形編碼不足的問題，並且在許多系統的支持下，在資訊交換上也的確有其便利性。
…詳全文

文章分類：後設資料, 觀察室歷史文章 | 回應： 1人 »瀏覽:2,180人次

文章分類 ‘後設資料’

語言、影音與新聞主題小組－數位化製作規格文件

資料庫初體驗

書同文，編碼大不同

Loading...

Login

Register

Retrieve password