知識庫分析報告
內容發展分項計畫/曾鈺絜
一、 前言
數位典藏在過去五年的不斷努力之下,已累積許多寶貴的經驗與豐富的數位內容,如何將這些片段資訊串連成更具結構的知識,是第二期數位典藏的首要任務,預計會以「主題式知識庫」來表現台灣特色,並嘗試加入Web 2.0的共建、共享精神,使其數位內容更加完整。
然而在現今資訊爆炸的網路時代,經由網際網路找尋知識已相當普及,只是在這訊息的銀河,何謂知識庫?不外乎是將內容經過篩選過濾,然後匯集而成。知識庫並不限定任何領域,皆能擁有其專有的知識庫,小至一般的FAQ1,大至整個電子圖書館藏,主要功能就是協助解決問題,讓以往前人的經驗能夠繼續傳承。
二、 資料庫與知識庫
資料?知識?看似相同,但實質卻相異的不同個體,這之間的差異有待更精確的探討。
1. 資料庫
定義:針對某一主題將其相關的資料,以特定的方式有系統地將這些大量、複雜且多樣的資料加以收集、整理、儲存,以提供使用者作查詢。資料庫能在最短的時間以極快的速度作資料的檢索,並選擇出使用者所需之資料。資料庫所蒐錄的資料範圍相當廣泛,但相對來說容易造成檢索結果雜亂。
2. 知識庫
定義:知識庫系統的主要工作搜集人類的知識,有系統地表達或模組化,使電腦可以進行推論、解決問題。知識庫中包含兩種型態:一是知識本身,即對物質及概念作實體的分析,並確認彼此之間的關係;而另一則是人類專家所特有的經驗法則、判斷力與直覺。
知識庫與傳統資料庫在資訊的組織、併入、執行等步驟與方法均有所不同,概括來說,知識庫所包含的是可做決策的「知識」,而傳統資料庫的內容則是未經處理過的「資料」,必須經由檢索、解釋等過程才能實際被應用。知識庫包含人類在特定應用領域內的經驗和過去解決問題的方法,著重於資訊之間的整合,能有效並迅速找尋到適切的答案。
三、 知識庫代表類型
知識庫大致上包含兩種型態:一是知識本身,二是專家所持有的經驗法則,目前在現今網路上有以下幾個代表類型。
1. 知識藏百科全書網 (http://www.wordpedia.com/)
此網站主要宗旨在於「學習如何學習」;資訊是否為可靠的知識內容?是否建立在完整的知識結構上?是否有博學的專家解說導引?為了解決這些問題,出版社的編輯人必須再度扮演知識把關的媒介者角色,透過最新的數位科技,供應優質的內容給讀者。擁有二十七年出版歷史的遠流出版公司,在2000年成立了智慧藏學習科技公司,建立了《遠流字典通》之遠流英漢字詞知識庫,並轉化為線上字典及PDA字典;並且和光華雜誌合作,把光華雜誌25年的300期雜誌圖文轉化為《光華雜誌智慧藏》知識庫光碟版及intranet版;也與北京的「中國大百科全書出版社」合作,把74鉅冊的《中國大百科全書》轉化為《中國大百科全書智慧藏》知識庫光碟版、intranet版及internet版;目前在陽明大學廣場成立了BookSquare智慧藏書店,提供消費者實體書店的服務。
2. 維基百科 (http://www.wikipedia.org)
維基百科以Web為基礎的超文件應用系統,支援社群導向的協同寫作方式。其具有使用方便及開放的特點,可以幫助人們在一個社群內共用某領域的知識,因而被視為一種自由、免費、內容開放的百科全書協作計劃,不需要學習艱深的程式語言,任何人都可以利用網路來編輯和使用其中的任何文章及條目,2002年1月,維基百科開始在PHP wiki軟體上運行,並使用MySQL資料庫,目前所用軟體稱作MediaWiki。
3. 聯合知識庫 (http://udndata.com/)
聯合知識庫為聯合線上公司於2000年4月籌備,2001年2月19日正式成立的新媒體。聯合報系所發行的聯合報、經濟日報、民生報(民生報資料至2006/11/30止)、聯合晚報及星報(星報資料至2006/10/31止)等五大報在過去五十年來共發行了一百三十萬個報紙版面、一千多萬則新聞、七十餘億個字。這些新聞資產正是台灣民眾過去五十年生活的共同記憶,它不止是文字資料,而是歷史的軌跡與驗證。聯合知識庫的成立不僅提供了新聞資料的檢索更衍生了數位典藏歷史的社會責任,活化報系五十年的新聞資料,完整而翔實地呈現台灣近代珍貴史料,累積社會事實,傳遞文化變遷的軌跡,成為新世紀知識的庫藏中心,並提供完善的知識管理工具,落實打造知識社會的基礎工程。聯合知識庫除了擁有聯合報系五十年的新聞資料外更要提供各種先進的技術來活化這些資料,讓使用者能夠很方便的詮釋資料、擷取知識。為了成為完美的知識管理工具,聯合知識庫供應以下五大主要功能與服務。A.全文檢索 B.專卷查詢 C.我的剪報 D.影像圖庫 E.自動剪報系統
4. 天下雜誌知識庫 (http://www.cwk.com.tw)
天下知識庫是天下雜誌於2004年8月正式成立的線上資料庫查詢服務,包含天下雜誌自1981年創刊至今,共25年355期,前瞻、專業、深度的國內、外財經報導,完整記錄台灣經濟起飛、企業崛起的故事、見證社會變遷、文化發展的歷史。並且曾被紐約時報譽為「台灣經濟發展的縮影」的天下雜誌,是台灣中、高階領導人最重視的雜誌,也是台灣最具積極影響力的媒體。目前最具特色的產出為「知識專題」,根據人物、事件、產業等特性,由專業編輯,整合相關報導與圖表,製作獨具特色的「知識專題」,滿足使用者對資訊整合的需求。
5. 全球華文行銷知識網 (http://www.cyberone.com.tw)
中時網路科技股份有限公司除了透過經營中時電子報等網站以提供客戶刊登廣告外,也積極協助客戶進行行銷規劃的工作,在過程中逐漸發現,行銷這件事情非常複雜,且影響成敗的變數也非常多,透過長久經營媒體的經驗為使用者搜羅與行銷相關的各項重要知識與市場訊息,讓使用者提升行銷執行力與個人競爭力。全球華文行銷知識庫主要宗旨是為了方便行銷人吸收市場新知而設立的資訊平台,並為使用者過濾整理最新、最好以及最有效率的好內容,以方便強化競爭力。
綜觀現今各類型的知識庫,所使用的資訊技術並無太大的突破,大致上還是以網頁程式語言配合資料庫系統軟體為主,或是套裝應用程式為輔。
四、 知識庫概括功能簡介
看了上列數個知識庫網站,不難發現知識庫主要的功能,不外乎是將散亂不整合的資訊有系統的結構化,參考知識藏大英百科全書網,以此案為例歸納出知識庫有那些重要功能。
知識的內容呈現包含四大項目:1.標題、2.內文、3.圖片、4.延伸閱讀;其中的延伸閱讀依照這些內容的屬性分成人、時、地、物等項目。
依照照檢索方式有以下十種:1.分類檢索、2.注音檢索、3.英文檢索、4.筆劃檢索、5.漢語拼音檢索、6.通用拼音檢索、7.年表檢索、8.地圖檢索、9.照片檢索、10.快速查詢等。
除了知識藏大英百科全書網之外,另一種受人關注的維基百科,加入Web 2.0 共建共享之精神,劃開了百科全書知識庫另一新紀元。
五、 Web 2.0 與知識庫
以維基百科為例,它成功的將Web 2.0之精神運用在百科全書網,展現出另一種形式的知識庫,其實在國內較為人知的其他知識庫網站,像是聯合知識庫、天下雜誌知識庫等皆有其Web 2.0的影子,不外乎是「參與取代接收」、「分享取代控制」、「資源分散取代資源集中」,以下針對Web 2.0與知識庫做個簡單的分析。
參與取代接收 | 分享取代控制 | 資源分散取代資源集中 | |
知識藏 百科全書網 |
● | ● | |
維基百科 | ● | ● | ● |
聯合知識庫 | ● | ● | |
天下雜誌 知識庫 |
● | ● | |
全球華文 行銷知識庫 |
● | ● |
表一、知識庫與Web 2.0運用分析
由上表可以明顯的看出,目前只有維基百科利用共建知識的概念打造百科全書,而其他知識庫因涉及到商業行為,以至於共建此一目標並不容易實行,並且在分享取代控制這方面,也僅開放試用或是部份分享。
六、 知識庫常用技術
想要建置知識庫可從專家系統著手,利用資訊技術的開發,達到建置知識庫的目的。
專家系統
定義:專家系統係由知識庫、推論引擎及介面為基礎而組成的電腦化系統其目的在對於某一特定領域的問題作判斷、解釋及認知。由於專家系統能夠提供智慧型的決策與輔助、解決問題、並對求解的過程做某種程度的解釋,因而也可以稱為「智慧型知識庫系統」 (Intelligent Knowledge-Based System, IKBS)。
專家系統的開發小組通常是由一群學科領域專家、程式設計師知識工程師(Knowledge Engineering)所組成,其中知識工程師在專家系統的建立中通常扮演著中樞的角色,經由訪問專家及其他方法,以決定系統內之決策法則與知識,並不斷測試、修正,以開發出一個有效的專家系統。許多專家皆指出,撰寫專家系統的最困難的部分就在於知識工程的層面,包括知識取得(knowledge acquisition)及知識表示(knowledge representation)。目前市面上已有現成的套裝軟體供使用者選擇,協助組織建置適宜的知識庫,向來備受注目的維基百科,也自行發展相關套件提供組織使用。
建立詞條與完整的分類架構
完整知識庫架構首要必須建立清楚的詞條,以利使用者用快速便捷的找尋知識。針對詞條撰寫必須包含條目、內容、輔助圖片、撰稿人、資料出處、參照詞條等,其中的條目包含與該類相關之人、事、地、物,名稱以廣為通用或當時官方文書所載完整全文為主。
這些散亂的知識如何整理?英國著名的心理學家東尼‧博贊(Tony Buzan)先生在1960年代末期發明了心智學習能力的觀念,利用樹狀分支圖幫助分析、學習、記憶的高效能工具,心智圖法讓分類知識更加容易。
七、 數位典藏第二期計畫知識庫建議採用方式
由於過去五年的不斷努力,使得數位典藏有了初步的成果,此計畫結合國立故宮博物院、國家圖書館、國立歷史博物館、國史館、國史館台灣文獻館、國立自然科學博物館、國立台灣大學與中央研究院等機構,並建立國家級的數位典藏品,截至目前為止資料庫已存放超過189 TB數位內容,數位典藏聯合目錄也累積140萬筆以上的資料。第二期的數位典藏延續第一期計畫的成果,希望能夠呈現臺灣文化與自然多樣性,建置各種主題知識庫,拓展全民對於數位典藏的參與。
數位典藏第二期計畫預計會以「主題式知識庫」的方式來表現台灣特色,並將原本十六個主題小組縮減為生物與自然組、生活與文化組、語言與影音組、藝術與圖像組、器物與建築組、地圖與影像組及文獻與檔案組等共七個區塊,並加入「Web 2.0」的共建、共享精神,其中有四項特性:1.參與取代接收、2.分享取代控制、3.資源分散取代資源集中、免費取代收費;下列是針對Web 2.0運用在數位典藏做一個簡單的SHOT分析,我們將可以更清楚知其優缺。
Web 2.0 運用於數位典藏 SWOT 分析
優勢(Strength) | 劣勢(Weakness) |
1. 原本分散的資訊透過知識庫將其知識集中。 2. 全民分享豐富且多元的重要典藏資料學術價值高。 3. 數位島嶼平台提供非機構計畫之知識交流,除了接收知識更是增加參與感。 4. 此知識庫為全民所共有的資產,免費提供知識回饋全民。 |
1. 目前數位典藏內容及媒材多樣性略顯不足。 2. 社會大眾容易對典藏內容感到無趣。 3. 為顧及網站資訊安全,Web 2.0特有之互動模式不易呈現。 |
機會(Opportunity) | 威脅(Threat) |
1. 藉由數位典藏公開徵選計畫,可獲得更深入的專題報導。 2. 結合電子報,可提供最新的知識訊息。 3. 利用數位島嶼平台發揮Web 2.0之互動精神,鼓勵全民參與,提升知識水平。 |
1. 政府單位網站太過自由與開放所帶來的資訊安全問題。 2. Web 2.0所帶來的互動性也帶來龐大的工作量,人力成本不容小覷。 |
由上表可知,利用Web 2.0建置知識庫並不能只有空談,也許應該要開始思考如何進行。然而數位典藏畢竟是政府機關單位,如果要建置類似維基百科的共建系統,所面臨到的安全性問題將不可忽視,當有人群彙集的地方,秩序要如何界定就會顯得格外重要,人多意味著問題複雜度會相對提高,開放與封閉之間權衡的藝術,需要花費更多的構思,網站安全機制以及管理問題正在考驗著我們團隊的智慧。
針對知識庫知識擷取實行的階段可分為三個部份:Case.1.工作人員自行撰寫、Case 2.機構計畫單位或是利用數位島嶼平台自行負責、Case 3.合作協同方式共同撰寫。
Case 1. | 優點:1.溝通容易,較有效率。 缺點:1.增加內部工作人員之業務量,須耗費較多人力成本。 2.內部工作人員非專家,內容正確性有待探討。 |
Case 2. | 優點:1.知識內容取自專家之筆,較無爭議。 2.減少內部工作人員之業務量,減少人力成本。 缺點:1.溝通不易,徵件容易拖稿。 |
Case 3. | 優點:1.透過內部工作人員輔導機構計畫撰寫,徵件較有效率並且內容經過專家參與,較無爭議。 2.可適度減輕內部工作人員業務量,減少部份人力成本。 缺點:1.雖然會減少徵件拖稿情形,但也容易有溝通問題。 |
現今資訊科技成長迅速,再難的技術都可以透過委外(outsourcing)而順利進行;唯獨建立計畫執行者的觀念卻較為辛苦,僅管目前已有第一期計畫的豐碩成果,但在資料上略顯雜亂,須進一步整合各種資料之間的「關係」,才能成為知識庫的基礎(知識源)。訓練內部人員做好個人負責的主題小組知識加級,對外部使用者則鼓勵參與共同建置並分享其知識及經驗,進而構建各類型主題知識庫,以新型態的「內容」呈現方式,將資料進化為知識產出(knowledge output)。
八、 參考文獻
1. 知識藏百科全書網 (http://www.wordpedia.com/)
2. 維基百科 (http://www.wikipedia.org/)
3. 聯合知識庫 (http://udndata.com/)
4. 天下雜誌知識庫 (http://www.cwk.com.tw/)
5. 全球華文行銷知識網 (http://www.cyberone.com.tw/)
6. 劉常勇,知識管理, http://www.cme.org.tw/know/
7. 專家系統, http://lips.lis.ntu.edu.tw/ytchiang/study/others/expert/expert2.htm
8. 台灣大百科全書, http://taipedia.cca.gov.tw/index.aspx
9. 數位典藏國家型科技計畫 拓展臺灣數位典藏分項計畫 科技發展中程綱要計畫書
10. 知識藏大英簡明百科,網域版操作手冊(1.8版)
1 Frequently Asked Questions 經常被提到或是問到的問題。