文章分類 ‘觀察室歷史文章’

善用聯合目錄,發揮網站效益

星期二, 五月 27th, 2008

內容發展分項計畫/陳柏伸941020

前言

  當各典藏單位在建置專屬計畫網站的同時,對成本的評估往往著重在網站規劃與網頁設計的部份;對效益的評估則偏向網站所帶來的價值與好處。而各典藏單位建構網站的目的,不外乎是運用當今網路的便利性及傳播性,透過網站來吸引廣泛的使用者族群,達到符合經濟效益的方式。

  不過,若未妥善規劃未來的走向與定位,正式上線後的網站,在實用性、時效性、發展性上有待考驗,因此在「數位典藏國家型科技計畫」第一階段執行結束前,網站的經營之道是各典藏單位關心的話題之一,換句話說:「網站要如何永續經營?」

  「應用服務分項計畫」有輔導典藏單位如何加值與應用,各典藏單位在規劃網站前,也應有一套專門的營運模式,然而,若無建立完善的通路市場,或者無品牌的建立,網站帶來的效益有其侷限。

  在網頁瀏覽器未發達前,全球網站的數量不超過60個,不過到了2005年的今天,全球網站的數量就超過70,000,000個,因此要讓無通路、無品牌的網站?穎而出是極大的挑戰。

網站的侷限

  古人有云:「工欲善其事,必先利其器。」搜尋引擎對網站的曝光度而言是最好的宣傳工具,因為它適合各種類型的網站,例如電子商務、入口網站,除建置花費不高外,該網路工具更易於打通國際市場。

  搜索引擎的歷史始於1990年初,由美國明尼蘇達大學率先開發的Gopher,乃至採用FTP傳輸協定的Archie,最後全球通用的WWW,這三種傳輸協定是奠定搜索引擎發展的基礎,隨著1993年的Mosaic瀏覽器大放異彩,各類型加值服務的網站紛紛出爐,而搜尋引擎也逐漸演變成單一檢索的資訊頁面,也就是大眾耳熟能響的入口網站,例如Yahoo、Google。

  入口網站的具備條件是擁有多元化的資訊內容及組織網站資訊的特性,因此入口網站往往是以集中的方式呈現各種不同的資訊,以利使用者減少搜尋資料的時間。現今有不少典藏計畫的網站提供搜尋引擎的服務,不過各計畫網站發揮該網路工具有其侷限,因為各計畫網站的搜尋引擎只限計畫內的資訊檢索和瀏覽。一般的使用者也只有從浩瀚的網際網路中,發現各計畫網站的存在,特別是利用Yahoo、Google的搜尋引擎查詢資料,查詢出來的資料太過零亂及不精確,相較於擁有組織(歸類)好的入口網站,這對需求直接的使用者而言,過於浪費檢索的時間。

  而入口網站的檢索功能,倘若連結路徑分類過深,一般的使用者往往會迷失在「不知身處何處,不知該往何處去」的地步,況且過多層級式的分類,一般的使用者在瀏覽時會失去耐性,進而減低計畫網站的使用率(點閱率)。

聯合目錄的應用

  為屏除搜尋引擎的侷限,聯合目錄在這般環境下成立,彙整各典藏單位的資料庫為主要目標。聯合目錄是全球少數擁有跨單位與內容主題的網站,除整合各典藏計畫的數位化資料外,亦搭起產學研各界的橋樑,進而發揮資源整合的最大效益。

  相較單一內容主題的計畫網站,聯合目錄的內容資訊廣泛,且收錄的數位化媒材總數龐大,透過單一窗口的檢索特性,更易與業界銜接發展,例如聯合目錄計畫在95年度與Yahoo!奇摩合作,故競爭力較各別的計畫網站強。

  況且,現今入口網站的服務,已逐漸由傳統的營運模式,轉型成以使用者為導向的服務,而一些專業的搜尋引擎正被許多使用者熟悉地運用起來,我們可以從Yahoo!奇摩的工作及購物、Google推出的Google Earth、Google Map、Google Video、Google Scholar檢索服務中,便可略知時下的入口網站已不敷使用者的需求。聯合目錄將來有機會像精品店的營運模式下突破侷限,除原有的專業搜尋迎合專業使用者需求外,同樣亦能迎合一般使用者的需求,達到雙贏的局面。

結論

  當作業系統、應用軟體不足以解決各界當前的問題時,唯一剩下的解決方式就是資訊整合,以知識平台擷取的概念,達到快速、即時和準確的知識應用,進而創新知識與永續經營為目標。

  聯合目錄既是一個系統平台;亦是一個以知識為本體的網站,因此各典藏單位若能善用聯合目錄之服務,將有助於提升雙方之效益。

數位典藏立法規劃協調會會議摘要

星期二, 五月 27th, 2008

內容發展分項計畫/林淑惠 94.9

  1. 數位典藏沿用科技基本法,毋須再建立新法。(國科會、數典計畫立場)
  2. 如以科技計畫補助經費進行數位化工作,則適用於科技基本法。
  3. 如藏品委託其他單位技術進行數位化,而該數位化檔案之copy right 由典藏單位和技術單位自行協商訂定。
  4. 如要設立統一投權機關,授權的程度為何?應列為考量要點。如成立是要以授權機關的名義還是數位典藏名義授權?
  5. 國圖有一批文物並非擁有所有的著作權,如借由數位典藏公開在網路上,恐會引起部份著作權人之異議,所以目前採用無償授權方式。建議可以整合統一授權窗口或機制,以協助各單位解決。
  6. 若在合理使用範圍內(如非商業使用等)不需授權金,則合理使用範圍為何?
  7. 文建會現執行之國家文化資料庫與國科會的數位典藏分別建立在二種不同的法津上,在日後執行上可能會造成困擾。
  8. 授權標準建議由主管機關訂定原則性規範,由各單位視各自情況自行訂定相關內容,並請主管機關核備或備查即可,以增加彈性作業。
  9. 民間單位在數位典藏單位進行應用合作時,建議由典藏單位先行取得授權,避免讓業界在合作時產生更多後遺症。
  10. 有關專屬授權與非專屬授權主要視典藏品內容之價值性為主,若典藏品本身價值性夠高,而採取高授權金之專屬授權,對於尋求對外廠商合作應不會造成太大問題。
  11. 應將授權資訊完全公開,才使得民間有管道得知合作消息,以利推廣數位典藏。
  12. 聯合目錄應建置在屬於官方支持,但不代表官方的網站,將文建會和數位典藏共同建構在同一個基礎上,有利於日後在對國外推廣時,有一整體的行銷。

OCR技術分析

星期二, 五月 27th, 2008

內容發展分項計畫/程婉如

  OCR在技術研發方面以文件分析與光學文字辨識研究為主,其中文件分析包括彩色背景的去除、文件區塊(文字、影像、表格)的分離、直橫排的偵測、閱讀順序的決定等;而光學文字辨識則包括文字切割、手寫或印刷字之判斷、印刷字體的偵測、手寫及印刷中文和英數字的辨認核心等。OCR的處理過程除了本身的辨識引擎之外,還可針對辨識前的影像圖檔或辨識後的結果做進一步的處理與分析。以下略為描述前處理、辨識引擎及後處理等步驟。

一、前處理

  期刊報紙等物件經由掃描成為影像檔至進入辨識引擎之前,這期間的處理過程均屬於前處理範圍。此步驟又可分為影像處理、版面分析與字元切割等三部分。

(一)、影像處理

  本文曾說明物件本身的文字與底色反差明顯者較宜進行OCR,亦即直接以黑白文件且清楚而無雜點者進行掃描較佳,然而,為避免因掃描品質不佳而使得黑白文件影像檔中的字元產生破碎或模糊不清,如今OCR辨識系統已能允許彩色或灰階的文件影像輸入,並利用影像處理技術求得較佳的黑白影像檔,以提高辨識率的準確性。

(二)、版面分析

  由於OCR辨識引擎通常只辨認單一字元,因此文件影像需先經過版面分析,而版面分析原理及使用技術敘述如下:

1.版面分析原理

  將文件區分為影像、表格與文字三種區塊,其中影像區塊是不可辨認者,可經過壓縮予以儲存;表格區塊則經過格線抽取、交點偵測、欄位抽取等,將表格的格線與欄位分離,而表格的欄位和文字區塊,則需經過文字行的抽取與字元的切割,將每個字元抽取出來後再進入辨識引擎做辨認處理。

2.版面分析使用技術

(1).區塊分割

  在一般文件影像中,每個區塊均會以空白行(大小不定)做區隔,因此可以利用「遞迴投影法」(Recursive projection analysis) 或「相連元件偵測法」(Connected component detection)來做區塊切割。上述兩種方法在理想情況下,可將每一文字行切出,甚至切出每個字元,然而面對版面傾斜的文件,「遞迴投影法」則較無法獲得準確的切割位置。

(2).區塊型態判斷

  上述區塊分割之後,通常會以下列三種區塊特性進行區塊的型態判斷:

A.黑白點比例

  首先,先計算區塊內的黑白點比例,若黑點遠多於白點,則可能為影像區塊。

B.線段的存在

  若區塊內可找到數段直線,則可能是表格區塊。

C.相連元件的平均大小與間隔

  區塊內相連元件的大小與間隔分佈平均,且找不到直線,則應為文字區塊。

(3).傾斜校正

  一般而言,OCR通常可進行些微傾斜字元的辨識(傾斜角度在正負0.5度以內),但若傾斜角度過大,將會影響版面分析與文字辨識率,因此在版面分析階段,通常會先做傾斜角度的偵測與校正。而目前新技術「地理性校正」已能克服不僅是頁面甚或內容文字傾斜時進行曲度修正,並盡量將影像頁面調整至水平以利後續OCR辨識作業。

(三)、字元切割

  當版面分析將每行或段落文字切出後,在進行辨識之前,尚須將每一文字元切割清楚。在此可利用一些文字特性,來決定哪些是正確的切割位置。例如,中文字乃方正字,若採用某切割位置,則可能導致切出太狹長的字元而無法採用。但若辨識文件為中英文夾雜者,可將切出的非方正字先進行英文辨識,如果辨識結果符合原字元,則此切割位置方法將可採用。當辨識文件中的每行字元間距夠明顯,即可提高字元切割的效率與速度。

二、辨識引擎

  當字元切割完成後,即可將每個字元影像以辨識引擎進行辨認。最基本的辨認方式,即將字元影像與資料庫中每個中文字的影像比對,並計算相對位置的顏色是否相同,找出差異最小者即為辨識結果。辨識引擎的內部技術有特徵抽取、特徵比對與加速技術。

三、後處理

  一般而言,在文件本身的影像品質不佳的情況下,辨識率其實不易達到令人滿意的效果,然而在後處理的技術方面,加強OCR系統學習功能是有可能微幅提高辨識率的。此部份可採取字典查詢或者前後文相關方法來進行:

(一)、字典查詢法

  針對辨識內容特定的需求與用途(例如名片辨識、新聞字幕等),可事先內建辭典以提供候選字做更正的步驟。以名片辨識而言,通常會有一欄位為「電話:」,而其後緊接的字元就可限制為阿拉伯數字及特定字(如#、轉、分機等),如此便能降低辨識系統誤認的情況。

(二)、前後文相關法

  蒐集大量辨識字元,並統計每個字元前後相關聯字出現最頻繁者,讓OCR系統具備自動學習關聯字之功能,待完成辨識結果後,即可以本身字元的候選字加上前後文來判斷最有可能的辨識結果。

真知道你數位化了什麼嗎?(一)

星期二, 五月 27th, 2008

內容發展分項計畫/溫敏宇

  94年9月30日至10月2日「2005自然物標本與生物多樣性資料庫整合國際研討會暨Species 2000亞太地區論壇」一連進行三天,兩天中的會議討論了動物、植物、地質等多樣性自然物,10月1日邀請了國際知名生物多樣性之負責人或專家學者介紹其資料庫與資訊網,舉凡各國如何數位化、各國的重點著重何處等等..多項議題,他們花了數十年的專業做了幾十年,只將世界不到0.02%的生物變成可應用的數位資訊。兩天會議下來,雖有許多窒礙難行之處,我的感想是:一群人貢獻畢生寶貴的年歲和經驗正在「創造需求」。

  中央大學認知科學研究所所長洪蘭在「創造力神經機制」一文指出:在科學上,「發現」、「發明」與「創造」的層次是不一樣的。「發現」是東西原本就存在,他是第一個發現的人,比如哥倫布發現新大陸;「發明」在原創性的層次比發現高,他是東西不存在,因為這個人而使東西出現,比如愛迪生發明了燈泡、弗萊明「發現」了黴菌,「發明」了用途;「創造」帶有濃厚的個人色彩,沒有這個人就沒有這各東西,比如沒有畢卡索就不可能有畢卡索的畫,在科學的創造力叫發明,在藝術方面的創造叫創作;許多人在追尋自己人生的意義的同時,這群人在問自己:這些資產對「人類」有何意義!

  其實ㄧ個人真正的人生目的往往不是賺得一棟房子、成為億萬富翁、環遊世界,而是一個有意義的意涵,好像:成為一個解決問題的人、做一個有愛心的人…;世界首富微軟總裁比爾蓋茲體認到解決人類問題才能創造人生最大意義,所以放棄了哈佛大學開創微軟成為世界首富,不管他的財富有多少,他想的,是實現「解決一群人」的問題。

  我們所擁有的東西數位化的價值在哪裡?數位化之後提高了多少價值?使數位化物件成為有意義的意涵是值得我們思考的問題,這次的「2005自然物標本與生物多樣性資料庫整合國際研討會」正是為此而來,原本動植物就有界、門、綱、目、科、屬、種的分類,一個新動物或植物被發現時在生物學上是很容易界定的,那麼,其他種類的數位化物件是否有此需要?

  資訊社會帶領人類社會到達一個知識新領域,資訊變成垂手可得的濫觴,這些數位化成果現在看來也許是海底撈針般徒勞無功,也許在有生之年未臻完全,卻是許多學者與工作人員研究的心血結晶,愛迪生發明電燈改變人類日出而作日入而息的習慣;貝爾發明電話改變人類的通訊方式;萊特兄弟發明飛機縮短了人類距離與時空差距;我們建構數位化文件是否改變了人們對知識渴求或只是典藏了大量數位化物件?廣告創造了人們消費慾望,數位化是否創造人們知識渴求的慾望?

「兩兆雙星」的迷思

星期二, 五月 27th, 2008

內容發展分項計畫/陳柏伸940926

 

  受到全球經濟不景氣的影響,台灣的經濟首度在2001年出現負成長率,在經濟稍復甦後,緊接著失業率攀升到近年來的高峰,又因顧及兩岸的政策下,政府的壓力可見一般。前幾天有一則新聞報導:「台灣最後一條筆記型電腦生產線已關閉。」,我們可以從這裡看出倪端,台灣的企業現今與中國大陸已產生密不可分的趨勢,特別是台灣的製造產業。除此而外,台灣整體的就業環境也受影響而變遷,資金、人力外流的情形亦是不爭的事實,當政府在推動「挑戰2008:國家發展重點計畫」的同時,是否已準備好下一波的政策,使台灣百姓安然渡過民生的問題?兩兆雙星的「產業高質化計畫」已邁入第三年,在未來的幾年裡,兩兆雙星的政策是否能達成預期的目標?我想這不是你我能評估的,畢竟環境的影響因素很大,反而是我們可以從中檢討過去的缺點,進而再造(Reengineering)此政策的相關作業流程。不過我們也看得出兩兆雙星的政策還是脫離不了過去已實施的政策,只是計畫的名稱不同而已(隨後說明)。

 

  台灣近年來的資訊科技業歷經多年的代工經驗,已累積不少相關生產、研發及行銷技術,逐步地走向推廣自我品牌的營運模式,無一不想與國際大廠一較長才,以提升台灣的產品在全球的競爭力。「家家戶戶有電腦」乃至「網路寬頻時代的來臨」,雖然這是業者在推銷產品的廣告詞,但無一不彰顯人類的通信方式已由類比轉至數位信號的處理,隨著資訊傳遞的品質提高,一般的大眾媒體,如報紙、書刊、電視、廣播等舊媒體傳播事業,現今已隨資訊高速公路(Information Highway)的發達走向新媒體時代。除此之外,人文與科技的結合方式,亦隨著近二十年的資訊革命,不斷帶給我們驚喜,如Nokia手機有名的廣告台詞:「科技始終來至人性」就是一個例子。從這裡我們可以察覺到3C產品(通訊、電腦、消費電子)已融入我們的生活,這也是過去政府大力推行「國家建設六年計畫」的結果,使台灣成為電子製造業王國,在政府嘗到甜頭後,於2002年啟動「產業高質化計畫-兩兆雙星」的發展計畫,期許台灣的國際競爭力能更上一層樓。

 

  「產業高質化計畫-兩兆雙星」是政府參考英、美、日、韓等國家發展所提出的政策,原因是政府想提升國內的經濟成長力,然而也因為「兩兆」產業是我國引以為傲的電子資訊產業帶領下,要達到預期的目標是指日可待,相較於兩兆產業,「雙星」產業則是被賦予台灣未來具有發展潛力的明星產業。不過兩兆雙星的發展計畫與過去的資訊、化學工業的格局差異性不大,例如雙星產業之一的生物科技計畫早在二十年前就已實行,且至今的應用層次還是健康食品及美容用品為大宗,高層次的藥物產品就顯得欲欲不振,原因在於新藥研發的時間過長,且與國際合作的技術模式需大量人力的投入,因此投資報酬率相對較低。另一個數位內容發展計畫,則較重視產業方面的發展卻忽略內容上的開發,且政府投資在數位內容計畫的比例似乎不平衡,特別是文化創意及出版典藏方面較低。至於兩兆雙星人才培育方面,雖然政府成立半導體學院及數位內容學院,但至今似乎成效不彰,原因在於投入數位內容產業的人才需長期性的栽培,而不是短期的學習即可開花結果。然而,兩兆雙星的政策解讀似乎有待釐清,如數位內容的定義已造成相關業者的反彈,因為數位內容產業涵蓋電腦遊戲、電影動畫、數位電視、數位學習、數位典藏及應用軟體業者,涉足的行業有軟硬體產業,因此已超出「內容」方面的規範。

 

  就我的觀點,兩兆雙星的政策只是過去發展計畫延伸的一部分,雖然兩兆雙星的政策或許在一時間,使政府暫時擺脫經濟負成長的陰影,但為了強調此政策是提升台灣經濟成長的不二法則,政府在規劃相關政策時,需三思而後行,歷經長時的審查與評估,爾後提出完善(具前瞻性)的政策與計畫也不遲。

  • Loading...


    Loading...

    Login






    註冊 | 忘記密碼

    Register





    A password will be mailed to you.
    登入 | 忘記密碼

    Retrieve password





    A confirmation mail will be sent to your e-mail address.
    登入 | Register