「達悟語線上詞典」的故事
文/何德華
國立中正大學語言學研究所教授
文/楊孟蒨
靜宜大學資訊傳播學系副教授
《達悟語線上詞典》是具備中文語言背景者、學習達悟語言不可或缺的網站。本網站的建立是緣自1994年達悟族人董瑪女老師邀請何德華教授共同研究達悟語以來,以二人小組不曾間斷的合作、所累積之研究成果為基礎,繼續透過近年來資訊學者的協助,終於發展出臺灣原住民族語中、首創之中英文對照線上詞典。
2004年,何德華教授在靜宜大學『眾裡尋他千百度』,物色資訊人材協助將達悟語成品從黑白變成彩色。驀然回首,竟然發現楊孟蒨教授就在同校的資訊傳播學系服務。當楊教授允諾加入達悟語研究團隊以後,開始運用資訊科技將達悟語的紙本內容轉化成多媒體的呈現方式,頓時把平面變成了立體,開啟了達悟語數位典藏資訊時代新紀元。自2005~2007年,何德華與楊孟蒨二人共同執行了倫敦大學亞非學院瀕危語言計劃,建立了邁向國際的達悟語數位典藏和數位學習網站。
2007年行政院原住民委員會委託靜宜大學研究團隊執行達悟語詞典編纂計劃(2007年7月1日~2009年6月30日),可謂促成達悟語線上詞典建構所需之臨門一腳。該詞典計劃由何德華和董瑪女擔任主持人和協同主持人,蘭嶼達悟語顧問為謝永泉、曾喜悅,靜宜大學資訊團隊成員為楊孟蒨、張惠環、與郭惠梋、戴印聲、和曾佳瑩。第一年完成了《達悟語學習詞典》,第二年完成了《達悟語文化詞典》。
我們執行計劃的合作模式均先由達悟族語老師或蘭嶼當地族人協助蒐集語料,經由董瑪女記音,再由何德華做語言分析,最後由楊孟蒨將分析的成果放入網站內供公開研究。所典藏的語料均使用OLAC格式的詮釋資料做語料註解及標記。研究所產生的文化詞典及學習詞典都是使用實地採集的語料研發而成。
《達悟語線上詞典網站》具備三種線上版本:
(一)《達悟語學習詞典》Lexique Pro軟體版本
共有1,786個詞項,其中包含780個詞根和1006個衍生詞。總計有2204個包含例句的詞條。內容係根據以下七大來源之詞彙和例句製成達悟語資料庫,經過增修,建立起新的「達悟語學習詞典檔」﹕
九十六學年度(2007)原住民學生升學優待取得文化及語言能力證明考試之雅美語基本詞彙、生活百句、模擬試題及練習題
何德華、董瑪女(2006)合著之《達悟語:語料、參考語法、及詞彙》
九十五學年度(2007)達悟族語師資培訓字母篇
達悟語書寫符號例句(2006)
原民會委託計劃《達悟語料彙編》第二年報告(1999)之500個例句
靜宜大學團隊於1996年蒐集之雅美(達悟)語常用的200個詞彙
達悟語數位典藏語料(2005~2007)
該版本並附有以漢語拼音排列的索引,方便中文讀者反查。 此外並有包含漁人、朗島、野銀三種發音的單機版。
(二)原住民語言線上詞典資料庫
此為靜宜大學楊孟蒨教授指導、張培才、周信達同學協助開發之資料庫,網頁版由郭惠梋協助製作。除了擁有完整的達悟語詞典資料以外,並提供四十多種其他原住民語言的詞典輸入平台。是台灣原住民振興族語、讓族人透過網路參與提供族語詞彙的最佳管道。只要上網註冊,即可利用此類似維基百科的豐富資源。但目前開放瀏覽權限僅限於族語老師實際從事線上詞典製作之用。
(三)《達悟語文化詞典》
共有詞項6,022個,其中包含3,902個詞根和2,120個衍生詞。總計有6,450個包含例句的詞條。每一詞條之詞彙和例句均由三位達悟族語專家錄音,囊括朗島、野銀、漁人三個部落的口音、凡屬蘭嶼達悟文化特殊事物,則搭配拍攝相關圖像檔。本詞典由兩位蘭嶼顧問全年拍攝採集島上發生之重要活動,經過記音、中英翻譯及剪輯處理後,將44篇精選影音資料放入新建立的《達悟語詞典編纂網》之語料庫。利用Toolbox搭配Lexique Pro軟體,將語料中之詞彙逐一輸入資料庫中建檔。完成《達悟語學習詞典》語料庫建置後,我們繼續增加達悟語數位教材、數位典藏計劃語料、達悟族植物及海洋生物詞彙專書、中央研究院民族所集刊有關織布和大船的資料、民族所資料彙編有關昆蟲之詞彙、以及蘭嶼夏曼‧藍波安、周宗經、董森永等人之達悟文化著作,以涵蓋豐富的文化詞彙、撰寫適合的例句,經過多次修訂校對,終於完成此一《達悟語文化詞典》。此項研究成果已經由董瑪女、何德華、和張惠環重新編寫成《達悟語詞典》,內容分為中文版和英文版兩部分。將於2012年由臺灣大學出版社正式出版。
達悟語線上詞典的製作過程完全搭配著紙本詞典的編纂。首先,我們以兩年的時間完成達悟語詞典編纂的主要工作,第一年完成《達悟語學習詞典》,第二年完成《達悟語文化詞典》。使用同一資料庫,依照詞彙之難易深淺,以兩種方式呈現。高詞頻和多義詞彙列為學習詞典內容,而完整語料所提供之各領域詞彙以及達悟族文化習俗介紹則列為文化詞典的內容。本詞典所呈現之視覺效果以可近性與可讀性為依歸。資料庫的建立是以《蘭嶼達悟語口語資料典藏網》和《蘭嶼達悟語線上學習網》所搜集之語料為基礎,涵蓋傳說故事、日常生活、祭典、傳統文化、政治、婦女等類別。
編纂詞典計劃開始執行後,我們持續拍攝採集蘭嶼當地之風俗民情,由兩位蘭嶼島上資深達悟族顧問以全年發生之重要活動為拍攝重點,徵得被拍攝者同意後,每人每月繳交兩段拍攝影片,每段約20分鐘。所繳交之影片由董瑪女審查、並選出適合者,從事記音和中文翻譯工作,在過程中若遇到困難之詞彙,則請教兩位達悟族語言文化顧問協助釋疑。接著由何德華審查、修正語料內容、並配上英文翻譯後定稿,然後送交資訊人員從事剪輯處理後,將影音資料上傳至楊孟蒨所指導設計之網站。如果要查詢文化詞典中的達悟語詞彙,直接進入http://yamibow.cs.pu.edu.tw/index_TAO.htm即可,如果希望從中文查詢達悟語,只要點選『詞典查詢』下面的『Lexique Pro文化詞典』,然後再點選『中文-達悟語』就能通過漢語拼音方案查到你要的單字,例如,ni (zhuge)你(主格)ka。
我們的資訊人員利用Toolbox搭配Lexique Pro軟體和靜宜大學自行開發之原住民語言線上詞典資料庫,將語料中之詞彙逐一輸入資料庫中建檔。資料庫第一版完成後,由董瑪女負責撰寫詞條之內容、例句和中文翻譯,並由何德華依照達悟語之詞彙語意學和語法關係,審查修訂內容及搭配英文翻譯。接著根據每月所增加之語料,闊增資料庫的詞彙內容,並持續修正。文字檔內容定稿後,工作團隊為每一詞條增加聲音檔及相關圖像檔,並製成中英對照紙本和線上查閱兩種詞典版本。除了日常生活常用之基本詞彙以外,並包含達悟族傳統文化習俗、及現代生活實況之詞彙(含借詞)。
詞典初稿內容產出後,即列印草稿,展開三次校對工作﹕第一次由董瑪女和何德華初校,接著由兩位達悟族語言文化顧問二校,第三次再度由董瑪女和何德華總校,並同時製作索引,撰寫詞典之簡介、使用方法等前言。最後,我們的成果除了在《達悟語線上詞典》網頁上呈現外,並列印出紙本,包括具有聲音和圖像的有聲詞典CD,贈送給蘭嶼鄉親做為振興族語的資源教材。
我們希望所開發與設計的語言典藏網站不但能與其他族群做族語的資源共享。未來也希望協助各族群使用此一模式來建置本族的族語資料庫並製作族語詞典。我們目前正在討論如何設計達悟語線上語意網及知識本體,這部分的研究成果可以進入http://yamionto.cs.pu.edt.tw/在研究達悟語數位典藏的這段時間,我們也獲得國科會數位典藏國家型計畫的補助來資助技術研發及網站規劃。
延伸介紹
《達悟語線上詞典》網站:http://yamibow.cs.pu.edu.tw
蘭嶼達悟語口語資料典藏網站:http://yamiproject.cs.pu.edu.tw/yami/
原住民語言線上詞典資料庫:http://dicts.cs.pu.edu.tw/ada/