語意網的崛起與數位典藏的無限可能

文/江沛航、褚如君

在溝通的表達上,我們主要是靠語言、表情、手勢,甚或是一種感覺的傳遞,然而各種不同的方式難免會產生誤解。小時候學英文,Apple算是最早學的單字,長大後,Apple更是有致命的吸引力,倒不是因為「An Apple a Day Keeps the Doctor Away」,此Apple非彼Apple,而是數位時代的頂尖品牌之一。

同一個詞,在不同領域、不同時代引伸出不同的用法,甚至是不同的意義。所以你可能有經驗,在電腦上以關鍵字搜尋時,出現的不一定是你要的那筆當前最HOT、排行在最前面的資料。電腦能看懂我們的語意中最正確的層次嗎?電腦能解讀一篇文章中,除了篇名、關鍵字外,更包含文章中真正的內容嗎?

單純的文字連結,常常無法搜尋到最符合使用者需求的資訊。因此,運用資源描述架構來描述網頁裡的資源內容,找到因應不同人的內容需求,組織一個樹狀的知識結構,似乎是解決之道。如此,「語意網」的構想開始興起,在這個世界裡,靠知識語意溝通而非靠單純的文字溝通,讓比較特定細節的概念包含在一般廣泛的概念字底下,或是經由一個事情的各種屬性放射狀投射到其他頁面,根據意義來連結整理。在追求快速有效率的網路時代裡,語意網及知識本體的建構在未來是勢不可缺的(Lee, Hendler &Lassila, 2001)。

讓電腦也能看懂的語意網

由於「語意網」涵蓋內容甚廣,從不同角度來看語意網也往往會產生不同的解讀方式。不過基本概念就如其名,「語意」(Semantic)指的是語言的意義,語意網則指當資料成為機器可理解的訊息後,電腦便能瞭解網頁資料所代表的意義,進而運用網頁相互提供的自動化處理機制,對語意網上的資料進行瀏覽、搜尋、推理等作業,也因此能為人們提供更多的服務與應用(黃居仁,2003)

另外,語言意義理論屬於語言哲學的範疇,主要關心語言如何表達「意義」。如Ricoeur(1979)的界定:「語言學研究具體的語言,而語言哲學則研究語言運用的方式。尤其關注語意關係,包括指稱、意義、真理的性質問題,以及一個系統如何獲得意義質等問題。」若從語言學的角度來看,語意網最終目標是要達到使機器能夠辨識自然語言,其與形式語言的差別主要體現在語意解釋層面,形式語言的語義解釋是確定的、無歧異的;自然語言的語義解釋則是不確定的、含糊的,有時候解釋法則是靈活地依賴於被解釋對象的。

因此,自然語言充滿歧異性、雙關語、隱喻、潛臺詞、含糊性等難以掌握的特質,然而正是這些豐富的語言現像,才使自然語言能夠在人類思想和情感交流中應付自如,包括能夠表達「言外之意」。Ricoeur指出:「天然語言表達的許多含混性還具有積極價值,這種含混性與這類表達可進入無限多語境的能力有關,因而就是與語言的創造性有關。這樣,這種意義的不確定性,對語境的敏感性,從符號邏輯觀點來看是嚴重的缺欠,而對於日常語言理論來說卻表明具有重要的功用」。

對自然語言的真正理解必須根據給定的情景,區分一般編碼的意義與當下表達的意思。對電腦計算來說,如何根據情景,從語言的編碼意義來獲得正確具體的意思,則是機器實現自然語言理解的極大挑戰,因為機器除了面臨一般語言理解的困境外,還需要建構一個百科全書式的本體知識庫(Ontology)作為關鍵詞的邏輯推理[1]。但要構建一個合理、一致、有效的語言意義知識庫是非常困難的,例如獨角獸是虛構的,「虛構的」說明對象,對象必須是存在的,但「虛構的」本身又指名對象不存在,這其中便產生矛盾(周昌樂,2009)。

現行的語意網概念應用

雖然目前的技術難以做到讓電腦完全了解我們所說的意思,但隨著要貼近使用者需求的技術服務開發,許多網站亦採用語意網概念在網頁內容加註詮釋標記(Metadata),讓電腦透過詮釋標記來瞭解網頁的含意,並互相溝通或進行自動化處理。語意網入口網站提供給使用者的服務功能,如查詢、瀏覽、服務合成等,也都是建立在這後設資料層之上。如下圖1,最下層全球網提供資源給使用者,包括HTML文件、圖片或動畫等。中間的後設資料層在概念上則是描述資源的組織架構,並用附加標籤的有方向性的連線表示相互關係(葉慶隆,2005),是語意網裡最為重要的「本體知識庫」。

本體知識(ontology)為用來描述與定義各種知識的語言,以便達到知識分享共用的目的。為了讓電腦看懂本體知識語言的文件敘述,了解其語意內涵,可擴充標記語言XML(eXtensible Markup Language)是目前被語意網應用在詮釋標記的基本語言之一(蘇豐文、傅怡婷、陳書磊等,2003),其提供共通的基礎架構標記文件的內容。

現行的語意網概念則採用資源描述架構 (Resource Description Framework, RDF)描述語言對網頁內容的意義作描述。RDF也是詮釋標記的一種,但是其表達方式則提升到以知識導向為主,讓電腦能依據RDF對網頁的描述進行自動化的處理和自動的邏輯推演(婁德權、左豪官、吳嘉龍等,2009),如下圖2所示。「山月」便為主語(subject),「為」是述語(predicate),「簾鉤」為補語(object)。若以RDF文件來表示,將如下圖3所示,而複雜的觀念描述則如圖1的後設資料層形成一個多重多向的語意網路(semantic network)。

圖2:RDF概念示意圖,資料來源:蘇豐文、傅怡婷、陳書磊等(2003)

圖2:RDF概念示意圖,資料來源:蘇豐文、傅怡婷、陳書磊等(2003)

圖3:RDF的文件範例,資料來源:蘇豐文、傅怡婷、陳書磊 等(2003)

圖3:RDF的文件範例,資料來源:蘇豐文、傅怡婷、陳書磊 等(2003)

數位典藏應用語意網技術的無限可能

做為擁有為數龐大可觀的知識之國家型科技計畫,數位典藏在語意網技術應用上也展現了各種可能性。整合性的數位典藏成果呈現方面,包括聯合目錄或台灣多樣性知識網等網站,若能結合語意網的概念提供服務,將可帶來更高的效益。因為網站使用者往往並非專業研究領域的人員,若能在自然語言下搜尋到所需要查找的資料,將對知識傳遞與資訊流通有莫大助益。

在本體知識的建構上,以「數位典藏中文漢字處理技術-語言座標」計畫而言,其建構中文、中英雙語通用型及特定本體知識之輔助工具平台;以精確詞義區分研究建立中文詞彙知識系統與中英雙語詞網,同時開發雙語領域詞彙庫之建構工具與系統維護介面;建立漢字意符本體知識;參與開發Word Sketch Engine系統並進行中文內容的導入等,都將是未來網路對中文進行內容知識處理與交換時不可或缺的基本骨幹。

從上述計畫延伸,各計畫若能以通用格式串連RDF文件,透過本體知識系統性的建構,未來使用者在查詢資料時不只能節省大部分時間,也能夠透過關聯的知識資源發現有用或是感興趣的資訊。試想,串連起整體數位典藏與數位學習國家型科技計畫超過五百萬筆的成果資料,將是多麼豐富可觀的知識網絡。因此,我們可以這麼說,若Web3.0語意網是廿一世紀的網路基礎,那麼廿一世紀初的現下,採用語意網概念之數位典藏網站,將能替未來五十年的知識流通創造另一波高潮。

 

參考文獻

周昌樂(2009)。意義的轉譯:漢語隱喻的計算釋義。北京:東方出版社。

黃居仁(2003)。語意網、詞網與知識本體:淺談未來網路上的知識運籌,佛教圖書館館訊。33:6-21。

婁德權、左豪官、吳嘉龍等(2009)。語意網及其應用,資通安全專論。T97018:1-20。

蘇豐文、傅怡婷、陳書磊等(2003)。漢語詩的本體知識與語意檢索,第一屆文學與資訊科技國際會議

葉慶隆(2005)。課程摘要,語意網與知識管理http://www.cse.ttu.edu.tw/chingyeh/courses/swkm/index2005Spring.htm。2010/11/11瀏覽。

Lee, T., Hendler, T. J., & Lassila, O. (2001). The Semantic Web. Scientific American. http://kill.devc.at/system/files/scientific-american_0.pdf. 2010/11/17瀏覽。

Ricoeur, P. (1979). Main trends in philosophy. New York: Holmes & Meier.

 


[1]此處所指ONTOLOGY為資訊學中知識、訊息的基底架構,與哲學中本體論的原定義不同。

加入書籤
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • Hemidemi
  • MyShare
  • Live
  • Technorati
  • TwitThis
  • RSS
  • Funp
  • Haohao
  • MySpace
  • plunk

回應

*
請輸入圖片中的文字
按下圖片中的文字取得錄音檔

Click to hear an audio file of the anti-spam word

  • Loading...


    Loading...

    Login






    註冊 | 忘記密碼

    Register





    A password will be mailed to you.
    登入 | 忘記密碼

    Retrieve password





    A confirmation mail will be sent to your e-mail address.
    登入 | Register