淺談知識網技術運用相關範例

當規劃知識庫時,如何建構一個兼顧系統與人際使用的知識管理架構,和基本內容範圍的規劃蒐集一樣重要,因為這關係著能否讓知識庫中典藏的數位內容經由系統性的精確處理,提供人與資訊系統之間有利的互動模式,讓知識庫更有可用性。這涉及到許多資料處理的概念與技術,本文的討論主題不會放在各個運用技術的專業分析上,而是想初步地談談目前發展中的知識庫例子,以及其運用技術,可以當作我們發展自己的中文知識庫時的參考......

◎文/郭東益

當規劃知識庫時,如何建構一個兼顧系統與人際使用的知識管理架構,和基本內容範圍的規劃蒐集一樣重要,因為這關係著能否讓知識庫中典藏的數位內容經由系統性的精確處理,提供人與資訊系統之間有利的互動模式,讓知識庫更有可用性。這涉及到許多資料處理的概念與技術,本文的討論主題不會放在各個運用技術的專業分析上,而是想初步地談談目前發展中的知識庫例子,以及其運用技術,可以當作我們發展自己的中文知識庫時的參考。本文也參考了六月八號在台北教育大學舉辦的數位典藏綜論講習內容。

國內典藏知識庫系統一例:X-System

在知識庫的運用層次方面,本文先以師範大學圖書資訊所發展的「X-system」為例。這個屬於典藏庫內容與檢索管理的物件導向系統,提供了內容管理層級的使用者(不包括一般查詢使用者)在建立典藏系統時,自行建構知識架構的彈性。在六月八號的課程中,該計畫系統研發者趙奕翔在「典藏管理系統」講習課程中,向學員介紹了這個系統:X-system設計的目的在於讓博物館、圖書館的館員、學校教師等不具程式設計能力的人員透過這個系統建立自己的典藏資料庫。設計者透過了XML、Schema、DTD等技術的運用,典藏工作者將可以透過自定元素、欄位,甚至經由索引檔建立共同檢索點、以代碼檔定義權威分類等方式,發展出多樣性操作後設資料的能力。其工作流程用簡明的方式來說,就是先經由內容發展使用者先以自己定義的方式編輯DTD、定義詮釋資料格式,之後再建立詮釋資料,上傳數位物件檔案到資料庫中。
X-system

透過各個提供內容的典藏單位在合作參與過程中,對典藏內容建制初步知識架構,X-System提供它們一個更具彈性的內容運用可能,例如他們所合作的計畫:國立歷史博物館的「渡海三家」數位學習系統、行政院的「行政知識分類架構系統」、還有數位典藏國家型科技計畫本身的「數位加值資源整合系統」,這些例子展示了X-System在發揮知識架構建構的功能下,能夠在教育(內容設計)、檢索、瀏覽,甚至是一般使用者本身知識管理與運用...等方面的便利性。
不過X-System這樣的處理機制所運用的還是一種「半自動」的知識管理程序。在物件的基本分類之外,一些有關檢索、主題檢索、過濾資料,或是同時提供使用者初步知識架構等的資料探勘(Data-mining)的方式與線索,還是要各個典藏機關由無到有地從頭建構起。師大圖資所所長陳昭珍教授在講習課程中提到,檢索架構中的「分類瀏覽功能(clustering)」可以改進因為資料對象可能太專業,導致使用者往往一時間無法自行決定檢索關鍵字的「近入性問題」,也就是說,當該系統要運用十分重要的分類瀏覽功能時,怎麼分類?分哪幾類?類型之間定義的依據是什麼?...這些屬於知識管理層面的知識本體論(ontology)建立的問題,往往是提供內容檢索功能的知識庫在建置時,影響到典藏內容的知識管理以及提供進一步功能發展(例如使用者參與)程度的指標。
從這一點來看X-System,其採取的「半自動」處理方式或許可以達到典藏範圍領域本身知識架構的可靠性,但是在領域間的全體性、連結彈性、以及使用者(這裡除了一般使用者之外,還包括了之後接續管理的典藏經營者)在運用分享等方面某種程度的受限:X-System架構下的內容檢索從一般物件的檢索,到主題檢索以及各資料庫的分別檢索,並沒有其他層次之外的發展,例如語意關聯的處理連結,此外,管理等級使用者定義的分類關係,很少能做到具有分層與過濾等具有延伸性的關係建立(不過上面提到的行政院「行政知識分類架構系統」在這方面的問題可能會比較小,這要看政府對於機構功能的定義會不會有所變化),這些潛在性的問題在這樣「半自動」化的整合系統中並不是不能解決,只是屆時對於提供知識架構的典藏機關來說,會變成難度越來越高的負擔,這些問題也可能會在未來資料一直增加的過程中越來越被突顯出來。從典藏內容建置者在知識管理立場的便利性來說,尋求具有資料比對、語意關聯檢索、處理主題地圖等功能性「自動化」的系統架構會是一個蠻理想的方向,不過陳教授也提到,中文環境下真正做的自動分類與歸屬群聚的系統,還沒有成熟的例子(不過國內威知資訊發展出的WebGenie 知識分類系統,採用「關鍵詞自動擷取方法」為技術核心,可達到以「概念」為主的知識搜尋,取代典型的「關鍵字彙」的資訊搜尋,但是似乎仍無法將其資料探勘能力將各個學識領域的知識本體架構結合進行搜索)。

相關範例:從「搜尋」談起

要尋找一個利用資訊處理技術結合知識本體與關鍵概念搜尋的機構,Vivísimo公司成立的「clusty」搜尋引擎或許可以當作一個切入的例子。這間公司採用自己開發的「極速平台」The Velocity Platform資訊搜尋技術,以叢集性的呈現方式來處理廣大網路內容的大量資訊搜索。這個技術結合了三大功能:

•Velocity Search Engine 搜尋引擎
•Velocity Content Integrator 內容積算器
•Velocity Clustering Engine 群集引擎

透過三大功能的結合,極速平台能在一個搜尋動作中執行文件的尋找、處理(extract)、與分目(index),管理者有權力管控內容分目的方式以及比重,可隨領域與使用對象調整,且可搜尋多種形式檔的文件,更特別的是,第三方可以透過提供與訂閱加入極速引擎的執行,這個採用網路介面的平台,讓管理者可以提供使用者一個理想的搜尋介面。

整合且具知識本體建構性的資料格式

搜索架構是系統建置與管理者和使用者之間功能性互動的重要介面與橋樑,在完整且具彈性的檢索系統外,知識形成的重要元素-資訊-如何加以有效處理,進而成為我們規劃架構下知識內容可供系統性檢索,這也是一個重要的環節。這和語意網核心技術:「知識本體」的類型、語法,與應用有關。其中,語法的應用十分重要,因為除了建立知識本體架構語彙及關係外,知識本體還需要標準的語法以表達該知識的本體架構。目前已經有許多學識領域為了知識處理、共享與檢索的發展,已經規劃基於其知識領域本體架構整理出的知識整理工具,例如美國國家醫學圖書館的「統一醫學語言系統(Unified Medical Language System,UMLS)」或是普林斯頓大學發展的WordNet
。不過同樣是管理工具,這些例子有著各自的組織層次,例如UMLS是可供醫學領域各單位知識庫發展時利用的語法系統,而WordNet則是運用自然語言處理技術專注於文字句法分析,藉此建立知識本體架構的語意網(Semanitc Web),其架構甚至可以幫助建立電腦科學感知技術的知識本體。這些例子各有裡面都需要語法工具的建立來系統性詮釋處理輸入的資料。
統一醫學語言系統首頁

在XML環境中,已經有一些用來表達知識本體架構的標準:如以表達主題地圖(topic map)的XTM語法,和由標準機構W3C所推動的網路本體性語言Web Ontology Language (OWL)等等。以OWL為例,它結合了從XML、XML Schema、RDF、RDF Schema一路發展以來對語意網架構的功能性整合,OWL新增了更多描述屬性與關係的辭彙 ,同時又可以套用既有如RDF元件加以發展。另一個由W3C發展的簡易知識組織系統(Simple Knowledge Organization System,SKOS)也是一個和OWL有著管理知識架構的功能,是一個用來知識組織系統使用的規範與標準。
在這裡在舉一個用OWL建構知識庫的例子:Wine Agent。這是一個用來處理酒類與相關食品資料的計畫,而這個計畫在內容上的發展起點,來自一個專門提供酒類相關訊息的入口網站Wine-Portal.com,這類網站成立之初和很多資訊提供網站一樣,提供一些相關主題與資訊的集合為目標概念,不過這些網站在內容建構過程中組織出的知識本體架構,卻不容易顯現出來。
Wine-Portal.com

Wine-Portal.com作的便是很多入口網站發展的那類搜尋功能,而他們為了組織與查詢所建立的類型分目,其實便可以代表其建立的知識本體架構,只是當這個架構需要更跨平台、跨領域的分享時,就需要在原始資料(如原始碼)上提供明顯的知識架構,這便是Wine Agent想要發展的:它們應用了一個叫做JTP 的物件導向模組推論系統(Object-Oriented Modular Reasoning System)以及OWL架構出的知識本體,這個還在建構中的計畫,目標是提供該領域的知識本體諮詢(consulting the ontology)、發揮查詢功能(performing queries),以及結果呈現(outputting results)。相信當這個計畫建構成熟時,再回饋到像"Wine-Portal.com"這樣的入口網站時,可以發揮更大的特定領域知識管理與運用的功效。

小結

藉由知識本體架構來規劃知識網這樣的線上知識管理組織,在今天網路資訊流量破表的態勢之下,不論對資訊搜尋、使用者與資訊提供管理者都是十分重要的,對使用者來說,知識架構在一般性搜尋的輔助性或許並沒有這麼這麼明顯,但是當需要較為進階的資料搜尋與處理,甚至基於某些教育性出發點的知識管理規劃時,對於知識本體的依賴與有效應用的需求便十分突顯了。
正因為領域各有發展,需求也各有不同,一個以跨領域、跨計畫、跨內容為目標的知識網架構,在資料質量多元的支持外,也需要高度彈性的技術架構來處理管理方和使用者的問題,相對地,怎麼定義這個知識網的「管理方」和「使用方」同樣也是知識庫建置時應該要考慮的問題,尤其是管理方,如何兼具人文領域數位資料的質量並經營計畫知識本體的擴展彈性,這也是一件跨領域的不簡單任務,本文提到的知識本體管理的「自動化」與「半自動化」,就是知識網規劃時值得考慮的問題。
在研習活動中,談論知識網的原理時,陳教授便提到了一個有趣的問題,她談到,台灣今日由於中文資料與策劃者需求等等的問題,確實還沒有一個成熟的自動化資訊群組處理架構,不過同樣的回顧到需求性問題時我們也不禁要問:我們為什麼要做到典藏內容知識網站的知識本體自動化呢?這個問題在今日國內技術成熟度與數位典藏計畫機構的核心能力定義之外,或許還要加上目標使用者(包括知識架構建置者和一單使用者)、甚至是預計處理的內容範圍(例如大量且離散分佈的網路內容,還是有系統增加數量的單位典藏內容)的定義分析才可以作正確的回答。

【參考資料】
陳昭珍、陳立原、鍾季倫,<知識本體的發展與其在知識組織系統之運用>,《檔案季刊》5卷2期(民95年)頁79~88。

阮明淑、溫達茂,<Ontology應用於知識組織之初探>,《佛教圖書館館訊》第32期(民91年)頁6~17。

電子報文章(勿由此編輯)|2007-08-23| |數位典藏國家型科技計畫內容發展分項計畫|人氣 :