1024x768 1280x800   Decrease font size for  - 拓展台灣數位典藏 - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 Reset to normal font size for  - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 - 拓展台灣數位典藏 Increase font size for  - 拓展台灣數位典藏
 


語料庫建置入門工作流程指南

Tags: , , , , , , 發表: 2010-06-01, 點閱: 78,332 , 加入收藏櫃 , 列印 列印 , 轉寄 轉寄

想加入的書籤: HemiDemi MyShare Baidu Google Bookmarks Yahoo! My Web Del.icio.us Digg technorati furl 加入此網頁到:YouPush . . 推到twitter 推到plurk 推到FACEBOOK

肆、語料庫與數位學習

 

最早的學習者語料庫是八O年代末期所建立的朗曼學習者語料庫(Longman Learners’ Corpus)。九O年代中期,比利時魯汶大學 Centre for English Corpus Linguistics 的Sylvaine Granger建立了國際學習者英語語料庫(International Corpus of Learner English, ICLE),該語料庫是一廣泛國際合作的計畫,目前收錄超過二百萬詞、十四種不同母語背景的英文學習者語料。

 

將語料庫應用於學習有越來越多的趨勢,以下以中央研究院語言學研究所的「全球華語文數位教與學資源中心」以及國立成功大學外國語文學系的「成鷹計畫」為例,說明語料庫學術資源如何加值應用於教學之上。

一、全球華語文數位教與學資源中心

 

「全球華語文數位教與學資源中心」是數位學習國家型科技計畫「兼具教學與研究功能的全球華語文數位教與學資源中心」之計畫成果,由中央研究院語言學研究所鄭錦全院士主持。

 

中央研究院執行數位典藏計畫已有多年,在語料庫方面累積了豐碩的成果,但這些資源多著眼於學術研究需求,一般華語文教師與學生使用較為困難。「全球華語文數位教與學資源中心」建置之目的即為整合這些語料庫以及延伸資源,提供易於使用的學習工具與教學資源,建構一個兼具教學與研究功能的數位教與學資源中心。

 

圖4-1、全球華語文數位教與學資源中心首頁

 

這項計畫有兩個主要目標,一是以「一詞泛讀」的理論為基礎,幫助學生加快學習詞語的用法;二是提供華語文教師編寫教材所需要的語言信息理據。

 

「一詞泛讀」的學習模式是「全球華語文數位教與學資源中心」的核心理念,藉由龐大資料庫,使用者搜尋一個詞語時,就能獲得這個詞語出現的相關句子,瞭解該詞出現的語言環境以及與不同詞語的搭配組合,因而更能掌握該詞的用法,進而加快學習語言的速度,這種「針對一個詞語廣泛閱讀」的方法對於成人外語學習者尤其有效。

 

「全球華語文數位教與學資源中心」使用的語料庫包括中央研究院語言學研究所的「上古漢語語料庫」、「近代漢語語料庫」、「現代漢語平衡語料庫」等三個語料庫,再加上「國立編譯館國小國語課本語料庫」,以及與元智大學合作建置的「唐詩三百首語料庫」等;此外,中央研究院有英國國家語料庫(British Nation Corpus) 的使用授權,因而「一詞泛讀」的學習模式也能提供給英文學習者檢閱英文詞語的用法。

 

這些語料庫的內容如下:

 

(一)「上古漢語語料庫」:《論語》、《孟子》、《大學》、《莊子》、《老子》等古籍。

 

(二)「近代漢語語料庫」:《紅樓夢》、《西遊記》、《水滸傳》、《儒林外史》等章回小說。

 

(三)「現代漢語平衡語料庫」:各類題材的現代漢語,500萬詞(20多萬句,約14萬筆詞條)。

 

(四)「國立編譯館國小國語課本語料庫」:5萬多詞。

 

(五)「唐詩三百首語料庫」:約7千筆詞條。

 

(六)「英國國家語料庫」:英文一億詞標記語料庫。

 

該網站的所有頁面都提供中英文對照連結,便於外國語言學習者使用,並區分「語言學習區」與「語言教學資源區」兩大區塊。「語言學習區」提供學習者線上中、英文「一詞泛讀」的學習;「語言教學資源區」則方便教師搜尋所需的素材。

 

為了提供利於學習的模式,該計畫在「語言學習區」中依照句子長短、詞頻高低和詞語語意類別等因素計算出句子的難易度,並在查詢結果中提供「由簡入繁的閱讀模式」,將查詢結果依難易度排列,方便學習者自由選擇閱讀的難易度。另外亦提供「隨機提取」模式,由系統隨機提取查詢結果,難易不一;「近義詞」模式的內容則是取自《同義詞詞林》,可將意義相近的詞語依照近似層級高低排列。

 

圖4-2、一詞泛讀查詢頁面

 

「語言教學資源區」提供現代漢語、近代漢語及上古漢語語料庫、唐詩三百首、宋詞三百首等語料庫的詞頻統計以及文本標記閱讀。使用者可查閱個別語料庫的詞頻排序、個別詞的頻率、個別頻率的詞、累積詞頻等信息,教師可依據詞頻統計提供的訊息得知詞語的數量與頻率,從而決定詞語學習的先後安排,而文本標記閱讀則提供詞語的詞類標記。

 

圖4-3、語言教學資源查詢頁面

 

「全球華語文數位教與學資源中心」網站整合豐富的語料庫資源,基於學習理論提供使用者界面幫助學習者有效掌握詞語的用法,並可依照難易程度循序閱讀,也將客觀的統計數據提供給從事華語文教學的教育者參考,對於學習者或是教育者雙方都是利多。

二、國立成功大學成鷹計畫與CANDLE前瞻性英文學習中心

 

「國立成功大學提升全校英語能力計畫(簡稱成鷹計畫)」由成功大學教務處委託外文系規劃執行,從2006年起為提升成大學生的英語能力,購買英語教學網路平台、建立網路英語能力檢測系統、並建立網路多媒體互動英語學習課程。此計畫希望能鼓勵英語教師提昇本身應用資訊科技的能力,並以該能力運用在線上英語教學教材,讓學生在上課時能同時增進外語能力及電腦科技應用知能。

 

計畫內容包括:

 

(一)線上英語能力檢測系統

 

1. 建立網路測驗系統軟硬體設備。

 

2. 完成編寫英語能力檢驗題庫及分級。

 

3. 測試線上英語能力檢測系統並評估及改良。

 

4. 開放檢測供全校學生(免費)及社會人士(可收費)修習使用。

 

(二)多功能英語資源教室

 

1. 規劃教室之功能及購置軟硬體視聽設備。

 

2. 完成教室之設置並啟用以服務學生。

 

3. 規劃資源教室與課程之整合。

 

4. 全系教師視聽媒體教學專業成長。

 

(三)線上英語課程

 

1. 規劃線上語文課程內容及實施方式,完成軟硬體設備建置。

 

2. 提供學生可選擇之線上課程,讓學生不受時空的限制,進行線上學習。

 

3. 線上課程實施評量及修訂,學生可依評量的結果,選擇適當的課程學習。

 

4. 增加課程供全校學生(免費)及社會人士(可收費)修習使用。

 

5. 課程內容融合聽、說、讀、寫四種語言技能的訓練,題材取自與日常生活相關的食、衣、住、行、育、樂六大主題。更可加入當下流行的元素及話題,提供豐富多元的課程內容讓學生能夠藉由學習語言連結比較中西文化。

 

6. 因應政府擬定95學年欲實施之政策,線上學習之課程承認其學分數,更可獲得學位,經由網路學習來獲得學分和學位已成為時代的趨勢。

 

其中屬數位英語教材之CANDLE(Corpus and NLP for Digital Learning of English)系統乃由國立清華大學劉顯親教授「前瞻性數位英文學習中心」研發團隊從2003年至2006年國科會數位學習國家型計劃推動下所製作之數位英語學習教材。

 

圖4-4、CANDLE首頁頁面

 

該計劃利用先進之語料庫及自然語言處理工具來建立網路電腦系統內之學習支援,並建立一學習中心CANDLE以協助英語學習。根據學生英文程度,提供合宜之聽、說、讀、寫、文化、翻譯之教材,以及合適的練習題目以精練其英語技能。除一般英文語料庫,CANDLE尚包括大量運用中英雙語之「光華雜誌」語料庫,其內容主要報導現代台灣之各方面資訊;雙語語料庫在計算機學界是極具前瞻性之研究議題,系統中採用雙語語料庫,讓成大學生在學習系統中善用學習者之母語長處及原有之本國背景知識學英文,這是學生心理及系統上之「電腦化」學習支援。現階段CANDLE系統提供了學生聽、說、讀、寫的練習以及全文翻譯與檢索的功能。

 

「成鷹計畫」雖然不是以全語料庫應用的教學網站,但是將語料庫與教學計畫做結合,整合資源後進行教學利用,也是語料庫學術資源的加值利用方式之一,依舊值得借鏡參考。

 


<返回目錄









Download: 全文下載  全文下載 (32.3 MB, 2,478 hits)



評分:

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

回應:


請輸入圖片中的文字
請按圖片取得圖片中文字的錄音檔
Click to hear an audio file of the anti-spam word