文章分類 一月, 2008

從Web2.0時代看Metadata新應用模式-Folksonomy

星期四, 一月 24th, 2008

內容發展分項計畫/高芷彤

網站介紹:www.Flickr.com
  
   當Web2.0時代來臨,使用者擁有網站內容架構的主導權時,傳統資訊分類方式是否仍適合使用者建構網站資料庫的內涵?以Flickr相片社群網站為例。

Web2.0時代


   「Blogger」一個新的名詞誕生,引爆網路世界的革命現況。Blogger顧名思義是指網誌作者,寫Blog的人,也稱作部落客、博客等解釋。繼九十年代網路泡沫化後,網站經營者開始重新思考過去的失敗並吸取成功者的構想以及經營模式,網站逐漸從傳統以銷售轉為提供服務建構平台為導向,網站釋出內容的主導權,用戶從被動瀏覽網路到主動參與網路架構內涵,使用者開始有了擁有權利以及姓名。此模式源於O’Reilly Media公司CEO Tim O’Reilly所提出的Web2.0概念,在此概念下網際網路從「靜態網頁集合」轉向「提供軟體服務」的演進概念,特別是一些支援自助出版或參與協作的服務。網站不再是靜態,而是能和使用者互動了解使用者的需求進而提供服務。以「無名小站」為例,國內交大大一學生成立創立於1999年,最初無名小站以BBS概念結合BLOG以及相簿,提供全台灣超過四十五萬的上網人口一個園地,網友透過網路相簿放上自己的相片show自己,透過網誌紀錄心情點滴,更成為出版業者發掘新書的重要來源,彎彎的《可不可以不要上班》、化名Lowes撰寫的《原來我不帥》等書便是如此。當時無名小站站如其名,2005年「無名小站」已是台灣上市公司,目前台灣使用人口更超過250萬人,從全球網站流量排名顯示擠入全球前100大網站。
  

      Tim O’Reilly和John Battelle舉出Blog、社區照片共用服務(以Flickr為代表)、集體編輯服務(Wikipedia為例)和社會性書籤服務(Delicious)等以使用者為中心的Web現象,促使資訊在網路的產生、共用以及擴散的傳統概念轉變,同時也影響軟體業者的開發。Yahoo!奇摩總經理鄒開蓮表示,「Web 2.0的精神是將原本單向的服務,轉變成由網友共同參與互動的網路溝通。而Yahoo!奇摩Widget工具正是Web 2.0精神的展現」。

資訊分類-Metadata的新面貌
   資訊分類是在期望能在大量的資訊中達到在混亂和有序之間的動態平衡。Metadata是關於資料的資料,為建構網站「Information」數據來源,用來描述、組織以及發現網際網路大量訊息,隨著Web2.0時代的來臨傳統依照學科對資料作分類的等級是分類法或依照不同屬性來查找資料的分面分類法是否仍適用?依照Tim O’Reilly以及Battelle在Web2.0會議中總結關鍵原則指出Web2.0是分享和參與的架構趨動的網路效應、是以Web作平台將數據變為「Intel Inside」等特色,降低分類技術門檻勢在必行,以提供使用者容易架構網站內容提高參與。Google專注於用戶需求以及發展核心技術,憑藉用戶鏈結網站-PageRank,而非資料的本身Metadata來判斷訊息的價值。2005年初,一種由用戶參與和主導的資料組織的方法-Folksnomy自由分類法,被廣泛關注,迅速在Technorati、Myspace等多個系統中推薦應用。自由分類法降低了應用門檻,用戶只需通過平面化的自由關鍵詞進行分類,再以網路共享的方式分享,同時影響傳統資訊組織,呈現另一種面貌。

Flickr vs. Folksonomy(自由分類法)

(圖表 1、資料來源:www.alexa.com。)

 
   Flickr.com是一個提供使用者擺放照片的相片社群網站,由加拿大魁北克Ludicorp公司所設計於2002年成立,提供一個能分享數位相片的平台網站,採用網際網路目錄機制,用戶可自行對自己感興趣的資料定義相片的關鍵下進行分類,並與他人共享標籤的過程以及結果。「資訊的民主化是該網站最有趣的部份」解答搜尋網站GuruNet執行長Bob Rosenschein表示。「他們不一定每次都很精準,但這都是網友所談論的真實主題,若數量夠龐大,也是有數字的可信度,這就是群眾的智慧」。此網站於2005年3月被美國Yahoo.com公司所併購。

 
   網際網路的多元化提供使用者不同服務,以目前備受注目的搜尋引擎Google為例,其專注於技術的研發,有別於Yahoo、微軟等大型入口網站以提供各種不同領域之服務為主,希望能留住使用者,Google提供一簡單的檢索框介面,協助使用者在大量的資訊中迅速搜尋到正確的訊息為主,專注使用者需求並提供專業技術則較似於網站出口,開創另一新局面。Flickr的相簿社群網站同樣專注於技術,Yahoo發言人Joanna Stevens表示,決定購買Flickr的主因不在於數位照片,更重要的看在Flickr的技術與其聰明的創始小組。「在那麼龐大的資料庫中尋找東西時,網友需要的不只是搜尋而已,而是需要更多面向來尋找資料。」Stevens表示,「Flickr的優點是能彌補Yahoo下一代服務的不足。」

 
    在Flickr的Hot Tags將文字大小與對應圖片的多少採用正比的方式呈現,圖像化地貼近使用者視覺感官。使用者可標識(Tag)感興趣的內容,提供一至多個Tags,無需了解傳統專業的DCMI或查詢杜威十進制分類法的分類原則,Flickr相對降低了資訊分類的門檻。當檢索者看到Tags不適合時可增加或修改,另外常用的Tags則會依字順形成圖表。也就是說在Flickr中標識(Tags)是隨用戶使用不同標識(Tags)而有內容動態的更新,Tags圖表中有些大有些淡出,用戶可隨時發現目前分類的趨勢。使用者經驗公司Adaptive Path創始人Peter Merholz表示,「Flickr這類網站的衍生效應是資訊的全球目錄化」。

 

   

  Tags的自由分類法滿足用戶的視覺偏好以及讀圖的心理,較搜尋引擎的輸入框更直接。雖自由分類較無傳統分類來的有等級結構且有較無法精確描述資訊,但從全球網站流量排名顯示,成長速度相當穩定,也許在現今網路成熟且逐漸開放式的環境下,Tag的自由分類法會更貼近使用者需求以及偏好,RSS技術繼Epinions創始人R.V. Guha表示,自由分類法理念在於,「我不強迫大家使用相同標籤,也因此整個系統會更豐富,呈現原創者所沒有想到的突出現象。」

臺灣原住民數位典藏國家型計畫資料庫之簡介與分析(一)

星期四, 一月 24th, 2008

內容發展分項計畫/陳美智95.04.24

一、 計畫簡介:

  「臺灣原住民數位典藏國家型計畫」為「數位典藏國家型科技計畫」中央研究院機構計畫下的計畫之一。主要目的在於典藏中央研究院民族學研究所博物館、圖書館以及研究人員所蒐集的臺灣原住民文物、文獻與影音資料,進行各類型藏品的數位化、典藏管理,並將這些完成數位化的藏品,建置資料庫及搜尋機制,以提供研究人員、教育人員以及社會大眾在研究、教學以及相關資訊交流方面的便利,除了將這些珍貴的資料典藏起來以外,更希望能藉此促進族群之間的相互了解與尊重,以及不同文化間的交流。

 
  「臺灣原住民數位典藏國家型計畫」依照中央研究院多媒體美術設計與資料處理小組的數位化技術規範將數位化後的數位影像檔分成以下三種格式做典藏與呈現。

超高品質格式 R.G.B 24bit(全彩)400~600dpi TIFF(非壓縮);相當於印刷品質的200 ~ 300 線(高解析度印刷);適用原稿種類 – 對品質的要求非常精細之原稿、物件;檔案大小 – 100 MB(A4)以上。
高品質格式 R.G.B 24bit(全彩)300dpi TIFF(非壓縮);相當於印刷品質的175線(圖片印刷品質);適用原稿種類 – 反射稿掃描、正、負底片掃描、物件拍攝、相片掃描;檔案大小 - 20MB(A4)以上。
網路瀏覽格式 R.G.B 24bit(全彩) 150dpi JPEG(壓縮50%),檔案大小 -230kb(A4) ;GLAYSCALE(灰階256)8bit 150dpi JPEG(壓縮50%)檔案大小-200kb(A4);B&W 300dpi,檔案大小 - 60kb(A4)。

二:計畫成果:
   「臺灣原住民數位典藏國家型計畫」的數位化成果頗豐,迄今已累計:
1. 文物部分,91年整理平埔族文物,92年整理布農族、鄒族與邵族文物,93年整理排灣族、卑南族與魯凱族文物,共累積資料2110筆以上。

 
2. 表格部分,從91年度至今,已包含平埔族、布農族、邵族、鄒族、排灣族、魯凱族、卑南族等諸族,未來將繼續建置更完備的相關資訊。

 
3. 契約部分,共典藏1818筆契約數位資料,分別存放成典藏級(600dpi的tiff檔)與瀏覽級(150dpi的jpg檔)兩種數位格式加以典藏。內容方面契約分成開墾、典租貸借、買賣找洗、鬮分合約等四大類。

 
4. 地圖部分,包含泰雅族、排灣族、魯凱族、卑南族、布農族、阿美族、邵族、鄒族、平埔族等諸族,未來將繼續建置更完備的相關資訊。

 
5. 影像部分,目前收錄的族群包括平埔族群、布農族、鄒族、邵族、魯凱族、排灣族及卑南族,其餘各族資料也正陸續按進度數位化典藏收錄中。

 
6. 口述訪談部分,是以中央研究院民族學研究所博物館與平埔工作室典藏之研究人員的訪談錄音為主,迄今為止,已收錄共有一千五百筆數位化資料,包含泰雅族、排灣族、魯凱族、 卑南族、布農族、阿美族、邵族、鄒族、平埔族(凱達格蘭、噶瑪蘭、道卡斯、巴則海、西拉雅、大武壟、馬卡道)等諸族,未來將繼續新增其他民族並建置更完備 的相關資訊。

 
7. 音樂資料部分,已收錄共有八百七十八筆數位化資料,已包含泰雅族、排灣族、魯凱族、卑南族、布農族、阿美族、邵族、鄒族、平埔族(噶瑪蘭、道卡斯、西拉雅)等諸族,未來將繼續新增其他族社並建置更完備的相關資訊。

 
8. 影音資料部分,已收錄共有一千零七十三筆數位化資料,已包含泰雅族、排灣族、魯凱族、卑南族、布農族、阿美族、邵族、鄒族、平埔族(凱達格蘭、噶瑪蘭、道卡斯、巴則海、西拉雅、大武壟、馬卡道)等諸族,未來將繼續新增其他民族並建置更完備的相關資訊。

 
9. 人口資料部分,(布農族、鄒族、邵族)和(魯凱族、排灣族、卑南族),共8000多筆。

 
10. 聚落資料部分,(布農族、鄒族、邵族)和(魯凱族、排灣族、卑南族),共250筆。

 
11. 人名權威檔部分,人名權威檔主要是支援各典藏計畫對於人名資料儲存的需求而產生的目前已著錄4460筆。

國外數位典藏網站探索報導——京都大學電子圖書館「貴重資料畫像」

星期四, 一月 24th, 2008

內容發展分項計畫/溫淳雅2005/12/5

     京都大學電子圖書館(圖一)始自於1998年,主要的數位化內容有「貴重資料畫像」、「數位化文本」、「博士學位論文資料庫」、「校內研究成果」等部分。本文主要介紹其中的「貴重資料畫像」(圖二)。

 

                                                                              圖一

                                                                          圖二
    
     京大「貴重資料畫像」所公開的內容,包括「京都大學附屬圖書館所藏古地圖」、「維新資料畫像資料庫」、「繪卷物、奈良繪本收藏」、國寶「今昔物語集」、「國女歌舞妓繪詞」、「伽草子」等日本重要的史籍文獻,如國寶「今昔物語集」,便是日本故事文學的代表作,被考據為傳世的抄本中最原始的版本,為日本指定的重要國寶。此外也有部分如「中國清代民國公私文書收藏」、「法國建築、地誌收藏」、「伊斯蘭學貴重資料」等他國資料。
    
     在介面方面,主要可分為「瀏覽」與「檢索」兩個部分。由於京都大學在設定上是呈現貴重資料的「畫像」,也就是說,以數位化影像為主要呈現內容,在數位化的內容上也有絕大部分屬於繪卷、照片等圖象式的資料;因此一進入該網站,便可見到以各資料庫的代表性圖象所組成的頁面(圖三),使用者可以很自在的藉由圖象式的印象,去搜尋有興趣的內容觀看。

 

圖三

    
     在影像方面,書冊與照片類型的藏品,大致上提供了單邊長500像素大小與單邊長1000像素大小以上的兩種尺寸圖檔,解析度為72dpi,以網路瀏覽而言已十分清晰可觀。另外在地圖、繪卷等類型的藏品,除了上述兩種尺寸的圖檔外,還提供單邊長1000像素大小以上的「局部放大」圖(圖四)。整體而言,京大電子圖書館「貴重畫像資料」所提供的數位化內容都非常精彩,有利於教育、研究方向的使用。

 

圖四、局部放大示意圖

    
     不過或許是因為歷年建置情況不一,在不同的主題畫像的瀏覽介面上,雖有大同卻也有小異。如有些以滑鼠點選500像素瀏覽圖,會呈現1000像素大圖,有些則是點選後呈現局部放大圖、整體大圖需另外點選畫面以外的按鈕。但基本上而言功能單純,不至於令使用者感到迷惑。
    
     此外值得稱道的是,各方面主題的資料,或多或少提供了詳細的解說,包括該主題資料的詳細歷史、京大所藏版本源由、延伸的人物與歷史介紹等等(圖五)。

圖五

    
     檢索介面大量利用下拉式選單(圖六),其實是文字化的瀏覽介面,令使用者可迅速進入所欲瀏覽的重要書冊內容,做圖象的閱覽,可惜進入後並沒有單獨針對該書冊的檢索介面。真正的檢索則分成簡單檢索與進階檢索(圖七),並有「檢索具圖象的資料」之功能,如無特別選取該功能,則檢索結果會將具有圖象者優先排列,但可惜在檢索結果列表上沒有特別表示這一點,使用者可能在點選進入觀看內容後,才會清楚是否具有圖象。檢索後的單筆結果欄位單純,最主要是題名與描述(圖八)。

圖六

圖七

圖八

    
     除了具有資料庫的功能外,京大「貴重資料畫像」也在展示上也做了許多嘗試。例如英文網頁部分,提供了四種內容的全英文化介紹(圖九),包括「伽草子」、「法國建築、地誌收藏」、「國女歌舞妓繪詞」、「博物學的時代」。以大量英譯介紹文的方式(圖十),將京大所收藏的重要文物介紹給全世界,在推廣效果上應有很大的助益。

 

圖九

圖十

    
     而在介面上花心思的以達到展示目的的,以下舉兩個例子進行說明。其中之一為國寶「今昔物語集」的呈現方式。由於今昔物語集為日本重要的故事文學代表作,雖然京大所藏版本的重要性無可取代,但坊間要找到當中的內容十分容易。因此京大電子圖書館做了展示上的功能開發,提供了三種抄本影像與文本內容並列的方式,分別是:
1.「標準版」——jpeg圖象與html並列的方式,優點是文本可任意的複製,圖象亦可以大圖顯示,缺點則是以大圖顯示時,需要花費力氣不斷去拉選網頁捲軸,可視畫面亦較小(圖十一)。

圖十一

2.「文本影像連動版」——以JavaScript方式,令使用者在捲動影像或文本任一視窗的捲軸時,另一方可以同步移動;此方式也有提供瀏覽圖或詳細大圖兩種閱覽方式,文本皆可同步移動,但同樣有可視畫面較小的缺點,文本的複製則需額外點選「翻刻」功能方可選取(圖十二)。

圖十二

 

3.為最新的「透視重疊版」——以flash方式製作,滑鼠在影像上瀏覽時,可同步出現相對應的正楷文本,就如同放置一塊玻璃版在典藏品上即時顯示,對照性最高,可視畫面也最大,介面清晰流暢。文本的複製則如同前一版,點選「翻刻」功能進行選取(圖十三)。

圖十三

    
     其二要介紹本網站最近推出的典藏「太平洋戰爭期間泰國新聞典藏」。此典藏包括了「Krungdeb Varasab Daily News」、「The Siam Rashdra Daily News」、「Lak Mueang」等三種報紙的內容,並提供了iPallet/Lime JPEG與JPEG兩種方式呈現。前者可以直接縮放大圖(圖十四、十五),可在主畫面上隨意拖曳,也有導覽小圖(圖十六),同時也提供列印功能。後者則提供大小兩種尺寸圖檔。小圖約為350*500像素以上,大圖約為1800*2650像素以上。兩種方式都可開放圖檔單張下載。

圖十四

圖十五

圖十六

    
     最後,在版權宣告方面,京都大學同意以教育、研究為目的之列印與下載,其他方面的利用需先行通知,印刷出版則需付費使用。
1 http://ddb.libnet.kulib.kyoto-u.ac.jp/minds.html
2 http://ddb.libnet.kulib.kyoto-u.ac.jp/exhibit/index.html
3 內容以圍繞著田地、房屋、魚池的典賣、租佃、所有權、稅契、借貸、遺囑等相關文書為主。
4 為京都大學附屬圖書館自法國教育部所接手有關巴黎周邊王宮、教堂、道路、廣場、名勝、景觀等圖象與地誌資料,以木版畫、銅版畫與藍圖為主,記錄了法國近代建築史、文化史、技術史等。

「Official Information System of?the Český Krumlov?Region」介紹

星期三, 一月 23rd, 2008

                           內容發展分項計畫助理  林彥宏

一、Český Krumlov文化歷史簡介
  
  Český  Krumlov座落於捷克南部的伏爾塔瓦(Vltava)河深谷中,並於1992年被列入世界文化遺產,對於喜愛旅遊的人而言,Český Krumlov更是歐洲旅遊的必經之地,當地的彩繪塔幾乎成了捷克共和國旅遊的標誌性建築。
  伏爾塔瓦河的流動在這區域很早就是一個自然的運輸入口。根據傳說,Krumlov來自德語「Krumme Aue」,被翻譯為「彎曲的草地」,名字來自鎮的自然地形,特別是指蜿蜒的伏爾塔瓦河所形成的大彎曲。
 

(圖片來源:本篇文章中之照片,皆轉載自OIS)

…詳全文

【Machine Translation】

星期三, 一月 23rd, 2008

內容發展分項計畫/李佩瑛

      Machine Translation機器翻譯(簡稱MT)為一種電腦應用系統,可以將文章由一種自然語言翻譯成另一種自然語言。MT並非新興技術,其構想起於40年代末期,由於科學家、工程學家、經濟學者、企業家…等人有閱讀大量文件或使用非母語溝通的需要,如遇此種情形,具有翻譯能力的人往往供不應求,而機器翻譯正好可以紓解這樣的供需。再者,學者專家一向有去除語言障礙能促進國際之間的合作與和平的理想,機器翻譯於焉誕生。

  在這樣的構想還頗為模糊的時期,Warren Weaver(1894–1978)可謂機器翻譯的先驅,他於1947年寄給電腦控制學家Norbert Wiener的信件,以及與英國放射結晶學家Andrew Booth的對話中首先提出機器翻譯的構想,並在兩年之後撰寫了闡述相關理念的備忘錄「Translation」,並成為日後的The Weaver memorandum(1949),堪稱當時較為具體兼具代表性的文章。

  機器翻譯雖然是由簡單的概念而來,但其背後的運作方式卻是相對的複雜,需透過文法、語義學、語法、片語…等分析,經拆解成符號後再重新組合。這種類型的機器翻譯需要龐大的辭彙,包含形態學、語法規則與語義資訊,但單一的機器翻譯形式並不能完全滿足需要,於是逐漸產生因應各式需求的機器翻譯形式。

  1954年由美國喬治城大學與IBM合作的實驗,成功的將超過60句俄文翻譯成英文,雖然只簡單使用六種文法規則與250種字彙,無疑這也展現了機器翻譯的可行性,同時啟發了全球對於機器翻譯的興趣,尤其是當時的蘇聯。

  後續的十年有許多不同的政府機構與學術團體致力於MT的研究與開發,如IBM替美國空軍完成的俄翻英系統。其他的學術團體如麻省理工、哈佛大學、柏克萊大學…等則致力於理論研究,也開發出早期的人工國際語言與轉換系統(e.g. MIT與Cambridge Language Research Unit, CLRU)。

  但1964年由美國政府贊助的機構ALPAC(Automatic Language Processing Advisory Committee)卻於1966年撰寫的一份報告中扼殺了MT的發展,報告中指出MT並未能正確有效的翻譯,與人工翻譯相較之下成本為其二倍,並沒有迫切發展的需要。自此之後MT於美國發展趨緩,而加拿大、歐洲等地則因當地的語系較繁雜逐漸產生需要,與當初美國針對俄文與技術層面的發展不盡相同。

  後期的MT則逐漸全球化,在80年代左右則有跨國合作的商用MT系統出現,如Systran這樣的電腦翻譯軟體也廣泛的被國際組織與企業採用。在80年這樣的市場熱潮領導了人們對於MT的一些省思與注意,無論是結合人工智慧與新的語言學理論,MT的前景令人期待,但最終都是希望能提供人際溝通之間便利的工具,與文化之間的融合了解。

參考連結:
1.Machine Translation: past, present, future
http://ourworld.compuserve.com/homepages/WJHutchins/PPF-TOC.htm
2. Machine translation - Wikipedia, the free encyclopedia
http://en.wikipedia.org/wiki/Machine_translation
3. INFOAM?RICA > El portal de la Comunicaci?n > O Portal
http://www.infoamerica.org/
4. Warren Weaver memorandum, July 1949
http://ourworld.compuserve.com/homepages/WJHutchins/Weaver49.htm
5. EAMT(European Association for Machine Translation)
http://www.eamt.org/
6. Machine translation and computer-based translation - publications by John Hutchins
http://ourworld.compuserve.com/homepages/wjhutchins/
7. SYSTRAN Language Translation Technology
http://www.systransoft.com/index.html

  • Loading...


    Loading...

    Login






    註冊 | 忘記密碼

    Register





    A password will be mailed to you.
    登入 | 忘記密碼

    Retrieve password





    A confirmation mail will be sent to your e-mail address.
    登入 | Register