1024x768 1280x800   Decrease font size for  - 拓展台灣數位典藏 - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 Reset to normal font size for  - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 - 拓展台灣數位典藏 Increase font size for  - 拓展台灣數位典藏
 


現代漢語平衡語料庫數位化工作流程簡介

發表日期: 2008-08-08, 點閱數: 3,054 , 加入收藏櫃 , 加入書籤

 

 

計畫單位:中央研究院語言學研究所

 

計畫名稱:語言典藏計畫

 

計畫簡介

 

語料庫為本(corpus-based )的研究是近年來語言學及計算語言研究的一個重要發展〔Svartvik 1992, Church and Mercer 1993, 陳克健 1994, 黃居仁 1995 〕,其影響更遠及文學及社會學的計算研究。在語言研究的前提下,語料庫為理論語言學或自然語言處理研究所擔負的功能是在無窮衍生的語言事實中抽出一個具代表性的樣本來。這個樣本不能太大,否則易失去了抽樣的意義與優點;又不能太小,否則無法提供足夠的訊息,也無法提供大量素材進行統計研究或作為測試語料。因此語料庫構建的第一個大問題是如何在有限的語料中代表複雜的當代語言全貌。

 

「中央研究院現代漢語平衡語料庫」簡稱「研究院平衡語料庫」(Sinica Corpus ),是世界上第一個有完整詞類標記的漢語平衡語料庫。由於加詞類標記的漢語語料庫是史無前例的嚐試,這個語料庫是由中央研究院資訊所、語言所共同指導的詞庫小組完成的。該小組由陳克健(資訊所)、黃居仁 (語言所) 兩位研究員主持,自1990年前後便開始致力於中文語料庫的收集(Huang & Chen 1992),至1994年止已收集有近二千萬字之現代漢語語料及超過五百萬字之古代漢語語料(Huang 1994)。由於有了處理中文語料庫的經驗,及大量處理電子詞庫中詞條的經驗(陳克健等1991, Chen 1994),中央研究院詞知識庫小組覺得有足夠的實質與人力條件來進行耗時費力的漢語平衡語料庫建構。

 

因此,在1994年分別得到了中央研究院「中文資訊」跨所研究群之專案計畫及國科會計畫補助,乃開始著手進行現代漢語平衡語料庫的建構。為兼顧理想與實用性,初步目標定為兩百萬詞,為傳統小規模平衡語料庫之兩倍,1996年經計算中心設計規劃完成 WWW版,開放供各界使用,1997年開放的研究院語料庫3.0版已達到五百萬目詞的預計規模。2001年國家型數位典藏科技計畫展開,詞庫小組認為應持續收集近年之語料,使語料樣本能完整呈現二十世紀臺灣使用漢語的全貌,因此以新五百萬詞為目標進行知識典藏工作,目前介面已升級至4.0版,提供更完整的語料條件檢索功能。

 

(more…)

台灣手語影像辭典數位化工作流程簡介

發表日期: 2008-08-08, 點閱數: 3,978 , 加入收藏櫃 , 加入書籤

 

 

計畫單位:國立中正大學語言學研究所

 

計畫名稱:台灣手語之研究-音韻、構詞、句法與影像辭典

 

計畫簡介

 

該計畫的目標是對台灣手語做一個最完整的描述及分析,包括編纂一部有學術與實用價值的參考語法書,以及製作一部架設在網際網路上的數位影像辭典。計畫執行期間為民國90年8月1日至94年12月31日。

 

該計畫是由戴浩一教授負責統籌、規劃、執行和督導。蔡素娟教授和麥傑教授負責計畫中音韻、構詞與心理語言學實驗的部分,戴浩一教授和張榮興教授負責詞彙與句法的部分,蔡素娟教授負責數位影像辭典的編纂,而電機所陳自強教授則負責數位影像辭典的網站架設。

 

本數位化工作流程主要介紹數位影像辭典之編纂與網站架設相關流程。本數位影像辭典目前約收錄有4500個詞項(包括中文及英文兩個版本),辭典內容會陸續擴增。

 

(more…)

語言分佈GIS系統建置數位化工作流程簡介

發表日期: 2008-08-08, 點閱數: 6,370 , 加入收藏櫃 , 加入書籤

 

 

計畫單位:中央研究院語言學研究所

 

計畫名稱:語言典藏計畫

 

計畫簡介

 

閩南語和客家話是漢語的主要方言,是重要的語言資產,主要分佈於福建南部、廣東、台灣與東南亞,但受到學校教育、媒體大量使用國語(普通話)的影響,這二種語言能使用的人口有越來越少的傾向,成為相對的弱勢語言,亟待研究與保存。然而目前學界尚未有詳細標記的閩客語文獻語料庫,致使研究上,往往事倍功半。

 

臺灣人口流通量大而頻繁,語言接觸日益密切,語言生態丕變,方言中的「地區變體」與「社會變體」之消長分合,變化快速。近年方有學者開始積極調查繪製臺灣地區語言地圖,然電子語言地圖的繪製還在起步階段,展現語言分佈情況的語言地圖更付之闕如。  
  

 

該計畫為中央研究院「語言典藏」分項計畫「漢語典藏與典藏架構」的五個子計畫之一,擬以大眾文學之劇本、歌仔冊二種文體為範圍,建立閩南語、客家語語料庫。並以閩客雜居的新竹縣新豐鄉為對象,調查居民用語,研究閩客用語交互之影響。從歷史語言與語言分佈兩點切入,結合文獻語言與生活語言,進行語言標誌,建置閩客語語料庫、詞彙庫與語言分布地理資訊系統,為學界提供有力的研究工具。    

 

由於新竹縣新豐鄉是閩客雜居的鄉鎮,所以該計畫以新竹新豐鄉為範圍,進行語言分佈的調查研究,發展語言分佈地理資訊系統。    

 

(more…)

【轉載】新港文書與臺灣史上的族群互動(包括研究成果問與答)

發表日期: 2008-06-27, 點閱數: 4,706 , 加入收藏櫃 , 加入書籤

原文章出處:臺灣歷史檔案資源網 專題展示
文/ 中央研究院臺灣史研究所 詹素娟副研究員

 

十七世紀中葉,築城據領臺灣三十八年的荷蘭人,曾經以舊荷蘭文記錄當時發生在美麗島上的各種事情,熱蘭遮城內的臺灣長官與巴達維亞城總督、阿姆斯特丹總公司之間,更是魚雁往還、從不間斷。這些珍貴的文獻,如今已經成為我們認識那個時代的主要憑藉。

 

隨同荷蘭東印度公司前來臺灣的基督教牧師,為了對臺南地區的原住民宣揚教義,首先選擇與荷蘭人關係較為良好的新港社(今臺南縣新市鄉)展開傳教工作。為了便於傳教,宣教師用羅馬字母教導新港社人拼寫自己的語言,這就是一般所謂的「新港語」,正是臺南地區西拉雅族各社的母語。荷蘭人後來雖然離開了,但西拉雅族和他們的後代仍繼續使用羅馬字母來書寫自己的語言、拼寫自己的姓氏、記錄帳目如米粉一斤多少錢的物價表,以及原住民的村社公約、百家姓等。當西拉雅人彼此之間或和漢人發生土地租借、買賣、金錢借貸等關係而必須訂立契約時,也會使用新港語來記錄或書寫。這些目前存留的語言文獻,我們稱為「新港文書」;目前知道且採集到的數量,總共只有187件。

 

新港文書中,有全部以新港文書寫的,稱為「單語新港文書」;也有用新港語、漢語雙語對照寫成的,稱為「雙語新港文書」。由於它是西拉雅族人的母語,所以要研究「新港文書」,可是比解讀「達文西密碼」還要困難呢!歷史學家首先要掌握荷蘭人編纂的「新港語典」、方志如《諸羅縣志》收集的「方言」、牧師宣教用的《新港語馬太福音》等基本資料,將新港語原意一字一字比對出來;再應用「雙語新港文書」中的漢字,逐一與新港語對照研讀,才能推想文書的內容。不只如此,還要對南島民族的社會文化、語言特色揣摩再三,才能約略了解文書當中正在進行的社會經濟活動。當我們把一張一張文書的內容都解讀出來後,新港語的特殊語法、荷蘭人對原住民的衝擊與影響、新港人怎樣逐筆失去村社的土地、新港人和漢人之間錯綜複雜的關係等,就一一浮現在我們眼前了。

  (more…)

秀才不出門能「學」天下事—談學習者語料庫

發表日期: 2008-06-23, 點閱數: 15,426 , 加入收藏櫃 , 加入書籤

拓展台灣數位典藏計畫 / 李佩瑛

 

  從農業社會經過工業革命到現今的科學昌明,以往古人要學習新知,不外乎私塾或是聘請教師,現在則不同,拜網際網路之賜,不分男女老幼都可以接觸到新的知識。在古代,「秀才不出門能知天下事」已經代表對於資訊流通的掌握,但是在未來,不用出門就可以「學」到天下事則是新的趨勢。
 
  最早的學習者語料庫是八O年代末期所建立的朗曼學習者語料庫(Longman Learners’ Corpus)。九O年代中期,比利時魯汶大學 Centre for English Corpus LinguisticsSylvaine Granger建立了國際學習者英語語料庫(International Corpus of Learner English, ICLE),該語料庫是一廣泛國際合作的計畫,現存有超過二百萬詞,存有十四種不同母語背景的英文學習者語料,此外,香港科技大學也建置了類似的學習者語料庫 The HKUST(Hong Kong University of Science and Technology) Corpus of Learner English 。現代學習者語料庫常與學習者中間語(inter language)分析連結並做比對,將學習者語言看成是一種規則系統並普遍存在於學習者之間。

 

 

(more…)

語料庫數位化工作流程指南

發表日期: 2008-01-09, 點閱數: 16,774 , 加入收藏櫃 , 加入書籤

      

語言是人類表達與溝通的重要媒介之一,試想若是缺少語言這樣的工具,世界會變得如何?如果各位使用過Google的語言選項就可以知道,將近117種的語言洋洋灑灑的呈現在網頁上任君選用,何等便利。目前世界上現存語言已知的有三千多種,在新的語言如世界語誕生的同時,也有許多的語言凋零當中。如何保存這些凋零或是發展中的語言,語料庫就是一個很好的選擇,也是現今語言學研究結合資訊科技的結晶。談到語料庫,一般人或許感到納悶與陌生,簡單來說,語料庫在語言學上指大量的文本,經整理與格式標記,由數位的方式處理與保存,再加以應用。


 
     語料庫的類型逐漸多元,從以往的單語語料庫,到現今的多語語料庫,甚至結合影像以影像辭典的類型呈現,不僅在研究分析上給予很大的助益,在語言學習上也有極大的貢獻。本指南參照國科會「數位典藏國家型科技計畫」內語言主題小組建置之語料庫為基礎,包含說明語料庫建構技術,並與國外相關語料庫比較其差異;另以計劃實際執行經驗值,探討建置語料庫時面臨的挑戰以及發展,供目前或未來想進行語言典藏的人員參考。除此之外,也期望藉此能夠建立大眾對語言典藏的暸解,進而一同加入典藏工作,擴大並豐富目前語料庫的典藏量。  (more…)