1024x768 1280x800   Decrease font size for  - 拓展台灣數位典藏 - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 Reset to normal font size for  - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 - 拓展台灣數位典藏 Increase font size for  - 拓展台灣數位典藏
 


語料庫建置入門工作流程指南

Tags: , , , , , , 發表: 2010-06-01, 點閱: 78,330 , 加入收藏櫃 , 列印 列印 , 轉寄 轉寄

想加入的書籤: HemiDemi MyShare Baidu Google Bookmarks Yahoo! My Web Del.icio.us Digg technorati furl 加入此網頁到:YouPush . . 推到twitter 推到plurk 推到FACEBOOK

參、語料庫建置實例

 

語言是語料庫收藏的主要內容,但是語言的呈現擁有多種形式,例如文字、手語與一般口語等,針對這些不同的呈現方式,在進行數位典藏計畫時就必須以不同的數位化媒介與工作流程來對應。

 

文字化的語言通常出現在文獻或是器物之上,數位化典藏時可能要進行文獻的翻拍、掃描、文字輸入等手續,有些文本可能已經有電子版本,口語則是採用錄音的方式來記錄,接著進行語音轉寫、標記等過程,至於手語則必須依賴影像來傳達,語料加工的方式也與前兩者大相逕庭。

 

本章分別收錄文本、口語、影像與語言分布等幾個語料庫類型的建置實例,希望藉由這些計畫的經驗分享,使讀者更瞭解各式語料庫的製作流程,參考運用。

 

文本方面收錄「中央研究院現代漢語平衡語料庫」以及「中文詞彙網路」等中文詞彙知識檢索系統的建置實例。前者介紹世界上第一個有完整詞類標記的漢語平衡語料庫,後者包含詞網、漢字知識本體、詞頻分布等幾個以詞語為主要內容的語料庫檢索系統之簡介。

 

口語方面收錄三個實例。「語言分布GIS地理資訊系統」除了一般辭彙的田野調查之外,還結合地理資訊系統來研究語言分布的情形。「台灣兒童語料庫–閩南語兒童語料庫」定期錄音以追蹤兒童語言的發展,而「台灣國語口音之社會分布典藏」則以街頭問卷訪談的方式收錄口語。

 

在影像方面,「台灣手語影像辭典」利用錄影的方式建立出手語的教學、查詢與釋義的檢索網站,在內容的建置流程上就與文本、口語有所差異。國內外也有一些口語語料庫除了聲音以外,還收錄影像,這類影音口語語料庫除了標記聲音外,還可能標記手勢、表情等非口語訊息。中央研究院語言學研究所曾淑娟副研究員的「新世紀語料庫-多媒體的語言呈現與典藏」,即屬於此類,但限於時間匆促,本書未能收錄該計畫建置的流程,有興趣的讀者可以自行參考該計畫網站。[19]此外,一般影音口語資料庫由於授權與隱私問題,通常不釋出影像檔,而只釋出標記檔,但荷蘭的 IFA 對話影音語料庫(IFA Dialog Video Corpus)[20] 致力於建置公開的影音語料資源,釋出所有影像、聲音、標記檔與相關文件,讀者也可參考。

 

希望這些實例能讓讀者更清楚不同類型語料庫的建置流程,供有意參與語料庫建置的機構與計畫參考。

 

一、中央研究院現代漢語平衡語料庫數位化工作流程簡介

製作日期:2005/10/13

更新日期:2010/01/25

 

語料庫為本(Corpus-Based )的研究是近年語言學及計算語言研究的一個重要發展,其影響更遠及文學及社會學的計算研究。以理論語言學或自然語言處理研究來說,語料庫所擔負的功能是在無窮衍生的語言事實中抽出一個具有代表性的樣本。這個樣本不能太大,否則便失去了抽樣的意義與優點;又不能太小,否則即無法提供足夠的訊息,也無法提供大量素材進行統計研究或作為測試語料。因此,語料庫構建的第一個大問題是:如何以有限的語料代表複雜的當代語言全貌?[21]

 

「中央研究院現代漢語平衡語料庫」簡稱「研究院平衡語料庫」(Sinica Corpus),是世界上第一個有完整詞類標記的漢語平衡語料庫。這個語料庫由中央研究院資訊科學研究所陳克健研究員與語言學研究所黃居仁研究員共同帶領的「中央研究院詞知識庫小組」完成。該小組自1990年前後便開始致力於中文語料庫的收集,[22]至1994年止已收集有近二千萬字之現代漢語語料及超過五百萬字之古代漢語語料。[23]有了這些處理中文語料庫及大量處理電子詞庫詞條的經驗為基礎,在1994年分別得到了中央研究院「中文資訊」跨所研究群之專案計畫及國科會計畫補助,乃開始著手進行現代漢語平衡語料庫的建構。為兼顧理想與實用性,初步目標定為兩百萬詞,為傳統小規模平衡語料庫之兩倍,最終目標定為五百萬詞。1996年開放供各界使用,1997年開放的研究院語料庫3.0版已達到五百萬詞的預計規模。2001年國家型數位典藏科技計畫展開,詞庫小組認為應持續收集近年之語料,使語料樣本能完整呈現二十世紀臺灣使用漢語的全貌,因此以新五百萬詞為目標進行知識典藏工作,目前介面已升級至4.0版,提供更完整的語料條件檢索功能。

 

數位化工作流程說明:

 

該計畫的數位化作業,大致依照下列六項步驟進行,依序分別為:一、詞類分析、定義及確定;二、選擇語料文本來源;三、程式抓取電子語料;四、程式自動分合詞及詞類標記;五、人工詞類檢查;六、匯入語料庫。茲分別介紹如次。

 

圖3-1-1、現代漢語平衡語料庫工作流程圖

圖片提供者:中央研究院語言學研究所 盧秋蓉小姐

 

(一)詞類分析、定義及確定

 

分詞規範的研擬分為兩種方式進行,一方面是邀請台灣知名的學者專家召開討論會,就其專業領域的角度,對分詞規範的大方針進行討論;另一方面則是中央研究院詞庫小組根據分詞規範,實際從事語料分析,從上百萬的語料中,整理出分詞標準的細節規定。然後,於1998年舉行分詞規範公聽會,1999年中文分詞原則正式通過為國家標準,編號CNS14366。[24]中央研究院詞庫小組再依此規範進行詞類分析、定義及確定之工作。

 

《資訊處理用中文分詞規範》有下列兩個突破:(1)提出分級的觀念及確立信、達、雅三級的標準。最容易達到的「信級」訂為基本資料交換的標準;以技術上較難,但自動分詞程式仍可達到的「達級」作自動翻譯、資訊檢索等自然語言處理的標準;至於最需要人工分詞才能達到的「雅級」則視為電腦處理、理解中文之最高目標。(2)把分詞規範分成不變核心(分詞單位定義及基本原則),以及可變準則(輔助原則)。在確定分詞規範架構後,只要定時更新基本詞庫或特殊領域的專門詞庫,便可維持分詞規範的不變性。[25]

 

(二)選擇語料文本來源

 

平衡語料之抽取以自中央研究院詞庫小組現有之語料(近二千萬字之現代漢語語料)中取得為優先,但也同時透過不同管道取得不同文體、內容之語料。以下依來源之不同種類大致列舉。

 

1. 交換取得之語料:此項包括經由合作計畫交換取得的,如中國時報,洪建全基金會,師大國語中心。或是由計算語言學會內部之語料作共同體(Consortium)間交換語料而得,如由致遠科技及台大取得。

 

2. 直接向版權所有單位取得:慷慨提供該計畫版權語料做學術研究用的有:天下雜誌社,國語日報社,資訊傳真雜誌社,「女人女人」製作單位,「伴我成長」製作單位,「我們一家都是人」製作單位以及許多中研院內的單位等。另有舊金山州立大學畢永峨,清大郭賽華,交大劉美君,輔大楊承淑等多位教授提供他們轉寫(Transcribe)的口語資料。

 

3. 由公共區域取得的公共資料:大部份由聯合新聞網、中時電子報及電子佈告欄(BBS)或蕃薯藤等萬維網中取得。

 

(三)程式抓取電子語料

 

使用程式CKIP Corpus&Spider1.4.6a抓取線上電子語料。助理使用電子語料抓取程式,需先選擇語料來源,再選取欲匯入語料庫之文章。由於語料來源媒體之分類並不一致,而現代漢語平衡語料庫分類為六類:文學、哲學、藝術、科學、社會、生活,故需將文章重新分類,以便匯入(圖3-1-2至圖3-1-6)。

 

目前,以主題為準,訂出平衡語料庫的內容比例為:文學20%、哲學10%、藝術5%、科學10%、社會35%、生活20%,根據此參考值為基準選取語料。

 

圖3-1-2、抓取電子語料工作畫面。(示範者:邱智銘)

 

圖3-1-3、語料收集畫面

圖3-1-4、確認需匯入之語料庫位置

 

圖3-1-5、目前語料庫收集文章情形

 

圖3-1-6、語料修改重新分類的畫面

 

(四)程式自動分合詞及詞類標記

 

語料選取完畢,接下來的工作是標記詞類,但是在這之前,還要先為語料做斷詞工作,唯有每個詞區隔非常明確之後,才能標記詞類。目前機器自動斷詞的正確性約達95%。

 

基本上,自動斷詞的步驟是以中研院辭典中的八萬目詞為基礎,切分為一個一個獨立的詞。未列在辭典中的成分,則以字為單位,一一切分開。然後佐以構詞律對衍生性強的詞綴及數字組合成分進行結合詞彙的工作。而目前分詞的原則是採用中央標準局委託中華民國計算語言學學會研擬的《中文資訊處理分詞規範》國家標準草案的原則切分。

 

機器自動斷詞是使用CKIP Tag Tool V1.8a系統,該程式即是一個協助詞類標記檢查的輔助工具,輸入欲執行自動斷詞之語料的文本編號,執行自動斷詞後,程式會將斷詞後之語料顯現於語料本文下方欄位(圖3-1-7、圖3-1-8)。

 

圖3-1-7、選取欲執行自動斷詞之語料

 

圖3-1-8、自動斷詞執行完畢

 

(五)人工詞類檢查

 

使用程式自動斷詞及詞類標記後,由於斷詞會因文章內容而導致詞彙不同的切斷方式,故為避免斷詞與文義不符,再由助理以人工方式作詞類檢查。

 

在進行人工確認時,會利用中文斷詞編輯介面。系統進行人工確認,每次以一句為單位,並列出上下句供參考。確認無誤後,再以上下鍵移動繼續進行人工詞類檢查之工作(圖3-1-9)。

 

若發現斷詞不恰當,於需修改的詞彙上點選,即可進行重新修改(圖3-1-10至圖3-1-12)。

 

圖3-1-9、中文斷詞編輯系統

 

圖3-1-10、修正斷詞畫面

圖3-1-11、輸入欲修正之詞彙及斷詞方式

 

圖3-1-12、斷詞修正完畢

 

(六)匯入語料庫

 

人工詞類檢查進行完畢後,再將完成詞類斷詞和標記之語料,以網路傳送至中央研究院計算中心,再由該單位匯入現代漢語標記語料庫。

 

圖3-1-13、現代漢語平衡語料庫網頁

 

圖3-1-14、現代漢語平衡語料庫搜尋網頁

 

製作單位:數位典藏國家型科技計畫 內容發展分項計畫

 

中央研究院語言學研究所 語言典藏計畫

 

文字撰寫:數位典藏國家型科技計畫 內容發展分項計畫

 

語言主題小組助理 賴佳旻

 

中央研究院語言學研究所語言典藏計畫助理 盧秋蓉、邱智銘

 

圖片拍攝:數位典藏國家型科技計畫 內容發展分項計畫

 

語言主題小組助理 賴佳旻、林淑惠

 

圖文編輯:數位典藏國家型科技計畫 內容發展分項計畫

 

語言主題小組助理 賴佳旻、陳秀華

 

致謝:

 

感謝中央研究院語言學研究所「語言典藏」之計畫主持人 鄭錦全院士與共同主持人 黃居仁老師及 陳克健老師和助理盧秋蓉小姐、邱智銘先生撥冗指教及協助拍攝與提供資料,特別致謝。

 

二、中文詞彙知識檢索系統之建置流程

製作日期:2010/01/25

 

中央研究院語言學研究所的中文詞彙網路小組(Chinese Wordnet Group),結合分析詳盡的中文詞彙詞義資料與網路科技的技術,初步開發了中文詞彙網路(Chinese Wordnet),以利於提供中文詞彙詞義的相關訊息,便於從事中文詞彙詞義的研究所需。

 

我們嘗試以中央研究院中文詞彙網路小組所分析完成之詞義資料為語料,運用系統結構化分析與設計方法建構符合需求的中文詞彙網路,也由於在實際應用上,詞彙知識庫屬於語言處理研究基本之參考資料,因此本資料庫可預期成為中文語言處理與知識工程不可或缺的基底架構。

 

一般全文檢索系統,只能以所檢索的標的文件所含有的文字資訊進行檢索,無法就其字詞義或周邊相關資訊進行檢索,這種檢索功能顯然不能滿足語言研究的需求。由過去相關研究中可以整理出語言學研究所需要考量的各項詞彙資訊,因此我們以中文詞彙為研究對象,經過嚴謹的分析研究後,對每一個中文詞彙呈現出詞目、詞義、領域、釋義、語義關係、英文對譯、例句、附註等內容。經過嚴謹分析的詞彙資訊,除可有系統性地保存詞彙知識外,更可滿足多元的語言學相關研究使用。

 

圖3-2-1、中文詞彙條目內容範例

 

中文詞彙網路小組的研究成果,從2003年初起,至2009年6月止,累積的成果共有9,362個詞形,25,173個詞義。中文詞彙知識檢索系統之開發則將上述累積之工作成果依照結構化系統分析與設計方法在網際網路上建構一工作平台提供相關研究人員查詢使用,除了研究成果共享之目的外,更希望藉此作為中文詞彙知識網路研究之基礎架構。

 

中文詞彙知識檢索系統之系統分析與設計可分為功能模組分析及資料模組分析兩個主題進行探討。

 

(一)功能模組分析:

 

依照研究目的,中文詞彙知識檢索系統透過網際網路提供方便的環境讓使用者進行詞彙知識的檢索,系統包含了儲存詞彙資料的詞彙資料庫以及網路使用者介面,在網路使用者介面上的主要功能模組分為詞彙查詢及詞彙索引兩部份,詞彙查詢功能提供使用者以輸入關鍵字的方式進行詞彙知識查詢,考量詞彙查詢上的彈性,本系統加入模糊查詢模組,當使用者輸入的關鍵字查詢條件無法對應到精確的詞彙資料時,系統便自動呼叫調整機制,轉換查詢條件使其對應至相關的詞彙資料,如此可大大增加查詢上的彈性,提供使用者更方便的使用環境。其次,在索引詞類方面,本系統提供了44種精確的詞性分類供使用者點選索引。系統中的資料傳遞可由資料流程圖(圖3-2-2)表示:

 

圖3-2-2、中文詞彙知識檢索系統資料流程圖

 

(二)資料模組分析:

 

在詞彙資料庫中包含了9,362筆精確分析的中文詞彙資料,這些資料可以透過不同的查詢條件進行展示,圖3-2-3為查詢功能之實體關係模型資料模組分析,圖中包含了查詢條件、詞彙資料與調整條件等三個實體類型,以及查詢處理一個關係。透過實體關係圖可以了解查詢條件與詞彙資料之間多對多的對應關係,代表查詢條件可以同時查詢多筆詞彙資料,而每筆詞彙資料也可被多個查詢條件所呼叫,因此查詢條件與詞彙資料兩個實體之間存在多對多的關係。然而在查詢條件無法搜尋到精確符合的詞彙資料時系統將自動調整查詢條件,因此圖中呈現出查詢條件進行模糊比對時調整條件實體所依據的屬性項目。

 

圖3-2-3、中文詞彙知識檢索系統實體關係圖

 

中文詞彙知識檢索系統之設計簡述如下:

 

中文詞彙知識檢索系統因應網路使用環境特性選以Microsoft Windows Server搭配Access資料庫以及Active Server Page程式為開發系統之作業環境,具有使用方便且相容性高的優點,因此不但可以使整個系統開發過程更為順暢,同時亦兼顧了後續維護的可行性。

 

中文詞彙知識檢索系統在設計階段參酌使用者角度與系統功能發展角度共同建立起系統架構與操作流程,詳細描述系統範圍內相關之資料結構以及操作步驟,特別是設計一套整合式即時查詢的方式,提供系統使用者一個整合查詢介面快速查詢以及瀏覽有興趣的各個詞義資訊如圖3-2-4所示。系統提供的查詢範圍,有:中文詞彙、釋義內文、英文對譯、中文詞彙模糊查詢、注音、漢語拼音等,使用者可依不同訊息或不同需求來選擇查詢的方式。主要的出發點是能對詞彙與語義相關連的內容,做廣泛而有效的檢索,也是藉著檢索的比對,來確保釋義語言及語義區分的一致性及強健性。在查詢結果之呈現上,以詞彙編號為主鍵由資料庫中提取出詞目、詞義、領域、釋義、語義關係、英文對譯、例句及附註等項目依序排列,透過瀏覽器可清楚呈現給使用者。

 

圖3-2-4、中文詞彙網路查詢介面

圖3-2-5、詞彙查詢結果畫面

 

上述依照結構化系統分析與設計方式所開發之中文詞彙知識檢索系統可有效作為相關研究之詞彙知識來源。以「比得上」為例做說明,若選擇「中文詞彙」為查詢範圍,則詞彙查詢結果如圖3-2-5所示,會將查詢詞彙的相關訊息表示在介面上;相同地,若以「比得上」當關鍵詞,選擇「釋義內文」為查詢範圍,則資料庫內所有詞彙釋義內文有「比得上」的詞彙將會顯示在介面上,同理可運用在其他查詢功能。

 

在圖3-2-5中,查詢的詞彙「比得上」,提供了漢語拼音、國語注音、釋義、語義關係、英文對譯、例句等訊息,其中,「語義關係」的部份,除了標示兩詞彙的關係,如:同義詞,尚可做進一步的連結,以讀取「比」的訊息;「英文對譯」的部份,則可以連結至SinicaBOW的網頁(http://bow.sinica.edu.tw/),以讀取「比得上(Compare)」的相關訊息。此外,介面上提供的例句,則是取自中研院平衡語料庫裡,最具代表的實際語料。

 

在查詢過程中,若精確的關鍵字條件找不到相符資料時,系統將對使用者輸入之關鍵字查詢條件自動轉換成模糊條件查詢並且在結果畫面上顯示「你查詢的詞彙,目前尚未分析其詞義,以下以模糊查詢給予參考」的字樣,提醒使用者可點選查詢相關詞彙資料。如圖3-2-6以查詢「一點鐘」為例。

 

圖3-2-6、模糊查詢結果畫面

 

在經過上述階段完成系統開發後,為永續經營中文詞彙網路系統並持續提供詳盡的中文詞彙知識,未來著眼於資料內容的更新管理,在系統與資料來源間制訂一套定期的資料存取、使用者互動交流、更新與同步化之機制。進行自然語言處理研究經常需要對詞彙語義進行深入探討,分析詳盡的詞彙資料除了本身所包含的知識價值之外,更可提供相關應用研究最精緻之素材。本研究以中央研究院語言學研究所中文詞彙網路研究小組近年來豐厚之詞彙分析研究成果為基礎,將9,362筆深入分析之Synset資料建構於中文詞彙網路上,以人性化整合查詢介面透過網際網路呈現,除了提供相關研究人員以及有興趣的使用者查詢檢索外,更希望藉此系統作為進階中文詞彙知識研究之系統化實作參考基礎,進而達到研究成果共享與學術交流之目的。

 

除了上述的中文詞彙網路之外,詞彙網路小組多年來致力於各種詞彙網路的研究,與架構多種以詞彙資料為基礎、使不同時空的典藏知識內容可以轉換成互通訊息的知識本體資料庫。近年來陸續建構的資料庫如下:

 

1. 中文詞彙網路(Chinese Wordnet):

 

中文詞彙網路為一詞彙知識庫系統,提供完整的中文詞義(Sense)區分資料。收錄的詞條以現代漢語通用語詞為範圍,提供各詞目完整正確的訊息。在詞義理論與認知研究方面,本詞彙網路的詞彙知識庫系統可成為基本參考資料;在實際的應用上,這個資料庫則可望成為中文語言處理與知識工程不可或缺的基底架構。

 

(網址:http://cwn.ling.sinica.edu.tw/,免費開放使用)

(對內版:http://140.109.150.20/

 

2. 中英雙語知識本體詞網(Sinica BOW):

 

本資料庫為全世界第一個知識本體詞網;以Princeton WordNet架構為基礎,並以以台灣地區的語言使用為經驗基礎。提供的訊息包含中英雙語跨語言資訊轉換、語言資訊與概念架構(知識本體)的連結、詞義的區分與詞義關係的連結以及使用領域,在使用語言與詞彙資料的基礎上,提供了知識運籌的基本架構(Infrastructure)。讓不同來源的典藏知識內容,可以轉換成互通的 (Inter-Operable) 訊息。

 

(網址:http://bow.sinica.edu.tw/,免費開放使用)

 

3. 中文詞彙特性速描系統(Chinese Word Sketch):

 

本系統是一個結合了鉅量語料庫的語法知識產生系統。除了一般的關鍵詞及語境查詢外,更提供了詞彙特性速描(Word Sketches) 、語法關係以及同近義詞分析等自動產生的語法知識。「中文詞彙特性速描系統」與十四億字的LDC Chinese Gigaword語料庫結合後,提供了絕大部分中文詞彙實際使用的規則性描述,可應用於辭典編撰、華語文教學、語言學研究與自然語言處理。

 

(網址:http://bow.sinica.edu.tw/ 免費開放使用,需先申請使用帳號)

 

4. 漢字知識本體(Hantology):

 

中文的漢字書寫系統跨越三千年,其所隱含的知識表達系統可說是最穩定、表達知識也最豐富的知識本體。漢語知識本體中表達的知識包括字形結構、意符、聲符、古音、中古音、現代音、字義、異體字關係以及詞彙衍生,並包括不同時期形、音、義的變化和關係,透過漢字知識本體的建構可系統性的表達漢字知識。

 

(網址:http://hantology.sinica.edu.tw/,目前尚未開放使用)

 

5. 遷台後歷屆總統元旦及國慶文告資料庫(Taiwan Presidential Corpus):

 

本語料庫蒐集了1955至2007年間四位總統在國慶日及元旦的演說文告。語料庫中每個句子都做了斷詞的處理與詞類的標記,以方便使用者分析。本語料庫是特別為中文政治語言分析所設計而成的,可作為臺灣政治語言的一個代表性樣本。

 

(網址:http://140.109.19.114/president/,目前僅供院內IP使用)

 

6. 中文詞彙詞頻分布系統:

 

本系統以中文十億詞語料庫(Chinese GigaWord)為基礎,可提供查詢各詞詞頻差異,用於探討詞彙的使用情形,亦可做為兩岸及其他華語地區的詞彙對比研究工具。

 

(網址:http://140.109.150.156/sinica/cwordfreq/,目前僅供院內IP使用)

 

文字撰寫:中央研究院語言學研究所中文詞彙網路小組

 

三、語言分布GIS地理資訊系統建置數位化工作流程簡介

製作日期:2005/12/05

更新日期:2010/01/25

 

本節介紹中央研究院語言學研究所語言典藏第一期子計畫「 閩南語典藏-歷史語言與分布變遷資料庫」在語言分布地理資訊系統的建置流程。

 

閩南語和客家話是漢語的主要方言,是重要的語言資產,主要分布於福建南部、廣東、台灣與東南亞,但受到學校教育、媒體大量使用國語(普通話)的影響,這二種語言能使用的人口有越來越少的傾向,成為相對的弱勢語言,亟待研究與保存。

 

臺灣人口流通量大而頻繁,語言接觸日益密切,語言生態丕變,方言中的「地區變體」與「社會變體」之消長分合,變化快速。近年方有學者開始積極調查繪製臺灣地區語言地圖,然電子語言地圖的繪製還在起步階段,展現語言分布變遷情況的語言地圖更付之闕如。

 

該計畫為中央研究院「語言典藏」分項計畫「漢語典藏與典藏架構」的五個子計畫之一,以大眾文學之劇本、歌仔冊二種文體為範圍,建立閩南語、客家語語料庫。並以閩客雜居的新竹縣新豐鄉為對象,調查居民用語,研究閩客用語交互之影響。從歷史語言與語言分布兩點切入,結合文獻語言與生活語言,進行語言標誌,建置閩客語語料庫、詞彙庫與語言分布地理資訊系統,為學界提供有力的研究工具。

 

由於新竹縣新豐鄉是閩客雜居的鄉鎮,所以該計畫以新竹新豐鄉為範圍,進行語言分布的調查研究,發展語言分布地理資訊系統。

  

數位化工作流程說明:

 

該計畫的數位化作業,大致依照下列六項步驟進行,依序分別為:(一)訪談及錄音;(二)街路定位及數位化地圖;(三)問卷輸入;(四)錄音備份;(五)圖層製作;(六)匯入資料庫。茲分別介紹如次。

 

(一)訪談及錄音

 

以新竹縣新豐鄉為範圍,進行語言分布的調查研究,調查以訪談的方式進行,藉由問卷記錄訪談者平日對談所使用的語言,並且製作圖卡及字卡,請受訪者依照圖卡及字卡發音並錄音。但因在訪談過程中,受訪者不易同意訪談,故先拜訪鄰長,再由鄰長陪同前往,取得受訪者信任,進行訪談與錄音(圖3-3-1至圖3-3-4)。

 

圖3-3-1、訪談及錄音之情形(示範者:呂奇蓉、鄭月霞、郭彧岑)

 

圖3-3-2、訪談所使用之圖卡範例(攝影:蕭素英)

 

 

圖3-3-3、訪談使用之閩南語字卡範例

 

 

圖3-3-4、訪談使用之客家語字卡範例

 

在問卷設計上細分為受訪者對不同對象所使用之語言,例如與長輩及晚輩談話的語言或有不同,問卷調查以「一戶家庭」為語言分布調查的單位,以家庭最常使用的語言作為該家庭的語言(圖3-3-5及圖3-3-6)。

 

圖3-3-5、使用之問卷範本-第一頁(問卷設計:蕭素英)

圖3-3-6、使用之問卷範本-第二頁(問卷設計:蕭素英)

 

(二)街路定位及數位化地圖

 

因為在地理資訊系統上製作語言分布圖,需要每個訪談地點的地理座標,因此將資料整理為地理資訊系統所需之檔案,有以下二種方法。

 

第一種方法為採用衛星自動定位,衛星定位儀器曾經採用GARMIN eTrex Vista,由於誤差值較大,現在採用更先進設備Trimble ProXH,精準度在一公尺以內,該儀器是在現場取得X及Y座標,以無線藍芽傳輸該地點的地理座標至筆記型電腦,電腦藉由程式直接寫到該家戶的通訊地址。但此方法在建築物密集的地方,難取得衛星訊息(圖3-3-7及圖3-3-8)。

 

圖3-3-7、使用之衛星定位儀器(左為現在使用之儀器)

 

圖3-3-8、現場實地進行定位(示範者:鄭錦全、張智傑;拍攝者:黃菊芳)

 

第二種方法為利用已經向量化之航照地圖來尋找坐標,其工作是由二位助理擔任,一位助理使用ArcView軟體開啟已向量化之航照圖,於航照圖上找出受訪者住家位置,點選取得該位置X及Y座標。然後將該地點之X及Y座標唸給另一位助理聽,再由該助理負責將其資訊輸入另一電腦(圖3-3-9及圖3-3-10)。

 

第二台電腦所顯示的是從戶政機關取得的受訪者通訊錄所製作成的Microsoft Excel檔案,藉由航照圖定位,將X、Y座標輸入。之後Microsoft Excel檔案再轉成DBF檔案,以ArcView軟體開啟,以便製作語言分布之空間資訊系統(圖3-3-11)。

 

圖3-3-9、確認受訪者門牌地址及地理位置(示範者:林千慧、郭彧岑;拍攝者:黃菊芳)

 

圖3-3-10、使用ArcView軟體開啟之航照圖

圖3-3-11、輸入之Microsoft Excel檔案部分信息

 

(三)問卷輸入

 

將問卷輸入電腦,並建置檔案,便於使用者在使用語言分布空間資訊系統時,藉由點選資料,能更了解新竹新豐鄉語言分布之情況(圖3-3-12及圖3-3-13)。

 

圖3-3-12、問卷輸入之工作狀況(示範者:黃菊芳)

 

圖3-3-13、語言分布空間資訊系統之問卷資料點選(WebGIS 格式)

 

(四)錄音備份

 

將第一階段請受訪者依照圖卡及字卡朗讀所產生之錄音檔案儲存備份,方便於日後可隨時轉為使用所需之格式。未來會呈現於語言分布空間資訊系統,讓使用者能更了解新竹縣新豐鄉客家及閩南語的腔調及口音之獨特性。

 

(五)圖層製作

 

將第二階段搜集整理後的Microsoft Excel檔案匯入ArcView軟體,再利用ArcView軟體製作成各種圖層,以供研究使用。

 

圖3-3-14、將Microsoft Excel檔案匯入ArcView軟體(部分私人信息省略)

 

將語言分布狀況製作成點狀圖,可分為客家語-四縣腔、客家語-海陸腔、閩南語及其他語言,分別以不同符號作為標示;再與其他相關資料分別製作成圖層,其他相關資料包含:已調查地點、建物、道路、河流、土地利用、鄉鎮界及航照影像等資料。分別製作圖層目的是為了讓不同的使用者,能依據自身的使用需求,選擇點選所需的圖層介面。使用者可以藉由下載免費的ArcRead,加以使用已製作好的語言分布的情況(圖3-3-15、圖3-3-16)。

 

圖3-3-15、使用ArcView製作圖層

(藍色表閩南語、紅色表客家語-海陸腔、綠色表其他)

 

圖3-3-16、以道路交通圖呈現語言分布

  

此外,將第二階段街路訂位及數位化地圖和第三階段問卷輸入所搜集整理後的數位化地圖及問卷資料電子檔之Microsoft Excel資料,交由中央研究院計算中心製作圖層並轉檔。轉檔為WebGIS,讓使用者能連結至WebGIS上的語言調查之空間資訊系統(圖3-3-17)。

 

圖3-3-17、語言分布空間資訊系統之網路使用介面

 

(六)匯入資料庫

 

最後,將中央研究院語言學研究所的「閩南語典藏-歷史語言與分布資料庫」與中央研究院計算中心的WebGIS-「語言分布空間資訊系統」加以連結,讓使用者瀏覽「閩南語典藏-歷史語言與分布資料庫」時,能直接連結至語言分布空間資訊系統使用。

 

製作單位:數位典藏國家型科技計畫 內容發展分項計畫

 

中央研究院語言學研究所 語言典藏計畫

 

文字撰寫:數位典藏國家型科技計畫 內容發展分項計畫

 

語言主題小組助理 賴佳旻

 

中央研究院語言學研究所

 

語言典藏計畫助理 盧秋蓉、黃菊芳、郭彧岑

 

圖片拍攝:數位典藏國家型科技計畫 內容發展分項計畫

 

語言主題小組助理 賴佳旻、林淑惠

 

圖文編輯:數位典藏國家型科技計畫 內容發展分項計畫

 

語言主題小組助理 賴佳旻、陳秀華

 

致謝:

 

中央研究院語言學研究所「語言典藏」之計畫主持人 鄭錦全院士與助理盧秋蓉小姐、黃菊芳小姐、郭彧岑小姐撥冗指教及協助拍攝與提供資料,特別致謝。

四、台灣手語線上影像辭典數位化工作流程簡介

製作日期:2005/11/16

更新日期:2009/12/03

 

國立中正大學語言學研究所「台灣手語之研究—音韻、構詞、句法與影像辭典」計畫的目標是對台灣手語做一個最完整的描述及分析,包括編纂一部有學術與實用價值的參考語法書,以及製作一部架設在網際網路上的數位影像辭典。此國科會支持之專題計畫執行期間為民國九十年八月一日至九十四年十二月三十一日。

 

該計畫是由戴浩一教授負責統籌、規劃、執行和督導。參考語法中詞彙與句法的部分由戴浩一教授和張榮興教授負責,音韻、構詞的部分由蔡素娟教授和麥傑教授負責。辭典的編纂由蔡素娟教授負責,台灣手語線上辭典第一版於民國九十七年七月正式上網出刊,由電機系陳自強教授則督導研究生呂嘉雄進行數位影像辭典的網站架設;第二版於民國九十八年九月出刊,由語言所研究生余瓊怡進行網站維護。

 

本影像辭典目前約收錄3,000個詞項(包括中文及英文兩個搜尋介面及解說),辭典內容會陸續擴增。以下數位化工作流程主要介紹數位影像辭典之編纂與網站架設相關流程。

 

數位化工作流程說明

 

台灣手語數位影像辭典的數位化作業,大致依照下列八項步驟進行,依序分別為:(一)收集手語詞彙;(二)準備錄影材料;(三)錄影;(四)影像轉檔;(五)影像剪輯;(六)詞彙影像之文字描述;(七)資料庫建置;(八)網站架設。茲分別介紹如次。

 

(一)收集手語詞彙

 

收集《台北市勞工局手語翻譯培訓教材第一冊》、《手能生橋》一、二冊、及《台灣手語參考語法》(國立中正大學語言所編纂)中的手語詞彙,包括單詞和複合詞,作為拍攝影像辭典之詞彙清單(圖3-4-1)。

 

圖3-4-1、手語詞彙參考教材及語料採集圖片

 

(二)準備錄影材料及設備

 

將所收集的手語詞彙輸入成Microsoft Word檔,加入各詞之英文翻譯,建立中英文對照之詞彙清單,並加註手語動作之描述 (圖3-4-2)。

 

隨後將詞彙清單轉檔製作成Microsoft PowerPoint簡報檔。每個詞項做成一張簡報,以便擔任示範的手語顧問可以依照所列詞項,依序錄影。為使手語顧問在錄影時易於辨認,故檔案須為黑底白字,一目瞭然(圖3-4-3)。

 

圖3-4-2、手語詞彙表

圖3-4-3、詞彙之簡報檔

 

(三)錄影

 

首先,將存有詞彙簡報檔的電腦準備就緒,然後架設錄影器材 (註:前期錄影所使用的器材主要為DV攝影機,隨著數位科技發展,現已改由數位攝影機攝錄影像)。錄影方式以固定之黑色布幔為背景,手語顧問之服裝為紅色上衣,以使影像色彩對比明顯。錄影前助理與手語顧問討論拍攝內容,以確認欲拍攝之詞彙 (圖3-4-4、圖3-4-5)。

 

圖3-4-4、錄影背景及手語顧問之服裝 (示範者:顧玉山)

 

圖3-4-5、工作人員與手語顧問討論拍攝內容。(示範者:蘇秀芬、顧玉山)

 

由於每個詞彙,可能會有多種手語形式,研究助理會與手語顧問討論各種形式之差異(例如,該形式屬於台灣北部方言、南部方言、或僅是近義詞等)。原則上,一個詞彙如有多種形式都會全部錄製。

 

拍攝過程通常需要兩位工作人員、一位手語顧問及一位手語翻譯員。一位工作人員執行簡報詞彙清單的播放,決定拍攝的進度;另一位工作人員比對手語詞彙之正確性,以及控制影像錄製的品質。錄製過程中由手語翻譯員協助溝通。由於對於影像品質及清晰度有相當高的要求,而且不時需要與手語顧問確認,因此同一個詞往往一再重錄,以求詞彙的正確性及最佳影像品質 (圖3-4-6、圖3-4-7)。

 

圖3-4-6、實際拍攝現場 (示範者:左起蘇秀芬、顧玉山、吳佩蘭)

 

圖3-4-7、手語翻譯員協助工作人員與手語顧問討論

(示範者:左起顧蕭月霞、顧玉山、蘇秀芬)

 

(四)影像轉檔

 

使用CyberLink PowerVCR影音捕手軟體將DV帶上的影像轉檔成MPEG檔,再用Quick Time Player將MPEG檔另存成檔案格式較小的MOV檔儲存於電腦伺服器中,以減少上線後使用者瀏覽影片等待的時間(圖3-4-8)。

 

圖3-4-8、轉檔之電腦畫面

  

(五)影像剪輯

 

利用CyberLink PowerVCR影音捕手軟體內之「剪輯功能」把影像檔中的單詞或複合詞逐一切割出來。由於錄製過程中無法達到百分百的時間控制,在剪輯過程中常會發現兩個詞的影像相連,無法完整的切割出來,此時必須重新錄製。另外,為求最佳影像品質,因此切割影像時需要反覆檢視,而一個詞項的影像長度也需多次修改,以求最適宜長度。因為影像長度太短,則不能完整呈現;長度太長,檔案容量較大,不但佔用較多硬碟空間,影片顯現的等待時間也會加長。(圖3-4-9)。

 

圖3-4-9、影像剪輯 (示範者:蘇秀芬)

 

(六)詞彙影像之文字說明

 

每一個手語詞彙都有文字說明,以描述其動作。手語詞彙的中文說明也都翻譯為英文,並將中、英文說明以Microsoft Excel列表(圖3-4-10、圖3-4-11) 。

 

撰寫手語詞彙的文字描述時,需要不同的工作人員再進行比對,必要時與計畫主持人、共同主持人及研究助理進行討論後,才確認最適合的文字說明。英文版詞項文字描述則由計畫共同主持人或英文專家再度確認。

 

每個詞彙除了手形的描述外,還有方位或接觸身體的位置、方向性、擺動方式、臉部表情等描述。此外,該手語形式屬於台灣北部用法或南部用法,或其形成動機也會在必要時加以描述。

 

圖3-4-10、詞彙之中文說明

 

圖3-4-11、詞彙之英文說明

 

(七)資料庫之建置

 

透過PhpMyAdmin介面管理線上辭典資料庫,將步驟六所製作完成之中文版詞彙表中的詞項加注漢語拼音、中文筆劃數等資料。每個詞項都包含影像檔、中文解說和英文解說,並完成所有詞彙的影像檔、文字說明,及每個詞項的影像與文字的連結,資料庫版面如下圖(圖3-4-12、圖3-4-13)。

 

圖3-4-12、中文版資料庫

 

圖3-4-13、英文版資料庫

  

(八)網站架設

 

所有詞彙的影像檔、文字說明,及每個詞項的影像與文字的連結,都在上述步驟七完成,同時以此網站中文筆劃數順序、英文A-Z字母順序逐一確認資料的正確性。

 

本辭典檔共有「台灣手語-中文」和「台灣手語-英文」兩個介面(圖3-4-14)。中文版之搜尋功能可以用中文字首之筆劃數 (一至十九劃)、漢語拼音或關鍵字輸入。英文版則以A-Z字母順序或關鍵字搜尋(圖3-4-15)。

 

圖3-4-14、台灣手語線上影像辭典首頁

 

圖3-4-15、中文版之搜尋功能網頁

 

以詞項「交通」為例,「交通」之「交」字為六劃,在六劃之類別下,點選「交通」此詞項,得出網頁左方詞項「交通」之台灣手語形式,及右方之中文描述(圖3-4-16)。

 

圖3-4-16、台灣手語線上影像辭典中「交通」之搜尋結果

 

而進入英文版介面,可以輸入詞項「TRAFFIC」(註:英文輸入不分大小寫),得出網頁左方詞項「TRAFFIC」之台灣手語形式,及右方之英文描述(圖3-4-17)。

 

 

圖3-4-17、台灣手語線上影像辭典中「TRAFFIC」之搜尋結果

 

台灣手語影像辭典數位化的流程基本上是一環扣一環,每一個步驟都影響著成果的好壞,因此在制定流程時,必須經過縝密的思考,並且將實際執行的結果透過無數次的討論進行修正與改進。自台灣手語線上辭典第一版於民國九十七年七月正式上網出刊以來,感謝來自各方的建議與回饋,給予本團隊相當多的鼓勵,也感謝各研究成員長期的努力與付出,更要感謝國科會長期的大力支持與協助,才能讓「台灣手語線上辭典」有今日豐碩的成果。未來我們會在台灣手語線上辭典的拓展上持續深耕、與時俱進,希冀台灣手語研究在語言學這個領域裡受到國際重視,也期盼能對台灣的聽障教學提供實質幫助。

 

製作單位:數位典藏國家型科技計畫 內容發展分項計畫

 

國立中正大學語言學研究所 台灣手語之研究:音韻、構詞、句法與影像辭典

 

文字撰寫:數位典藏國家型科技計畫 內容發展分項計畫

 

語言主題小組助理 賴佳旻

 

國立中正大學語言學研究所手語研究計畫主持人 戴浩一

 

國立中正大學語言學研究所手語研究計畫共同主持人 蔡素娟

 

國立中正大學語言學研究所手語研究計畫助理 蘇秀芬、陳欣徽

 

圖片拍攝:數位典藏國家型科技計畫 內容發展分項計畫

 

語言主題小組助理 賴佳旻、林淑惠、陳秀華

 

圖文編輯:數位典藏國家型科技計畫 內容發展分項計畫

 

語言主題小組助理 賴佳旻、陳美智、陳秀華

 

致謝:

 

感謝國立中正大學語言學研究所「台灣手語之研究」之計畫主持人 戴浩一教授、共同主持人 蔡素娟教授及助理蘇秀芬小姐撥冗指教和協助拍攝與提供資料,手語顧問顧玉山及手語翻譯員顧蕭月霞配合拍攝影像辭典工作情形,特別致謝。

五、閩南語兒童語料數位化工作流程簡介

製作日期:2005/12/14

更新日期:2010/01/25

 

國立中正大學語言學研究所「台灣兒童語料庫」Taiwan Child Language Corpus(簡稱TAICORP)是將所收集之台灣兒童口語錄音語料,依照世界標準的兒童語料交換系統 Child Language Data Exchange System(簡稱 CHILDES; MacWhinney and Snow 1985, MacWhinney 1995)格式,建構成語料庫。其主要目的在(1)提供國內外學者語料共享的便利性與語料分析工具;(2)藉由標準規格的設定,使台灣兒童語料的收集能更有系統、更有效率,並且快速地涵蓋台灣地區所有語言。語料庫最終將設立網站,開放國內外學者使用。

 

在新生一代普遍使用國語的時代背景之下,台灣閩南語兒童語言習得的語料彌足珍貴。本語料庫可提供語音學、音韻學、構詞學、句法學、語意學、語用學等不同層面的語言學與兒童語言習得研究,也可提供語音工程方面的研發與應用。本計畫由國立中正大學語言學研究所蔡素娟教授主持,從1997年10月開始錄音,經轉記、標記、格式化等過程,歷時將近九年。共收錄431人次錄音檔案,錄音總長共約330 小時。文字檔共約五十萬句,一百六十多萬詞。

 

數位化工作流程說明:

 

該計畫的數位化作業,大致依照下列五項步驟進行,依序分別為:(一)錄音;(二)錄音檔案轉記為文字檔;(三)建立詞彙庫;(四)建立自動化系統;(五)自動化系統之應用;(六)網站的建立與維護等六個方面,共細分二十三項步驟進行,茲分別介紹如次。

 

 
 

圖3-5-1、兒童語料庫未自動化前工作流程圖

 

 
 


 

圖3-5-2、兒童語料庫自動化後工作流程圖

製作日期:2005/11/17

流程圖提供者:國立中正大學 語言學研究所 蔡素娟教授

 

(一) 錄音

 

「錄音」部分分為五個步驟進行,分別為「訓練研究助理」、「徵求參與兒童」、「進行錄音」、「錄音剪輯及備份」、「數位化轉錄」。

 

1. 訓練研究助理:由計畫主持人訓練研究助理,最核心的研究助理有三名。需具語言學碩士級背景知識,並以閩南語為母語。每星期透過三到六小時的討論會,訓練助理,瞭解閩南語音韻及書寫系統、閩南語詞彙、句法、語意及詞類標記系統、CHILDES系統及兒童語言習得相關文獻;並熟悉IPA國際音標記音。

 

2. 徵求說閩南語家庭之兒童:目標選定中正大學附設托兒所、幼稚園及鄰近鄉鎮,徵求來自說閩南語家庭,年齡在一歲至三歲之間的幼兒。陸續共選出14名兒童。

 

(1) 以海報及網路發布廣告;利用幼稚園家長日到場對家長說明,徵求說閩南語家庭的兒童。

 

(2) 排定錄音時間:聯絡家長;並排定錄音時間表。

 

3. 進行錄音

 

(1) 準備錄音器材:錄音器材選擇方便攜帶、機動性強、容量較大、易長期保存語料之錄音器材(圖3-5-3)。

 

圖3-5-3、錄音器材,左起為迷你光碟片、專業用耳機、專業用麥克風、迷你光碟隨身錄音機。

 

(2) 進行錄音訪談:至兒童家中進行訪談錄音。錄音為週期性,寒暑假亦不間斷。二歲以下者,每週訪談一次;二至三歲者,每兩週訪談一次;三至四歲者,每二至三週訪談一次。每次訪談約1至2小時不等,實際錄音時間40至60分鐘。談訪錄音期間從1997年10月至2000年5月。共錄音431人次,約330小時。訪談方式為:錄下兒童在家長或保姆陪同下,在自己家中的日常對話。錄音的內容除了自然言說,還藉助圖畫簿、故事書、玩具、布偶、剪紙、摺紙或其他遊戲,引發兒童主動說話。

 

4. 錄音剪輯及備份

 

(1) 錄音剪輯:由助理將錄音光碟中不相關的錄音或太長的空白錄音刪除,將錄音切割為較小段落,在光碟中標記段落編號;於光碟中輸入錄音日期、檔名。每1小時的錄音約需耗時1.5小時剪輯。總工作時間:1.5×330小時=495小時(圖3-5-4)。

 

圖3-5-4、進行錄音剪輯 (示範者:謝沛諭)

 

(2) 錄音備份:使用迷你光碟錄音座及迷你光碟隨身錄音機進行迷你光碟備份製作(圖3-5-5)。

 

圖3-5-5、進行錄音備份 (示範者:謝沛諭)

 

5. 數位化轉錄:將迷你光碟錄音檔轉為較不佔空間之MP3格式,以方便儲存。於日後可隨時轉為語音分析所需之格式(如*.wav)。所使用之轉錄軟體為GoldWave Digital Audio Editor(GoldWave Inc. 研發),見圖3-5-6。

 

圖3-5-6、進行數位化轉錄

 

(二) 錄音檔轉記為文字檔

 

「轉記」分為四個步驟,依序為:「人工轉記漢字」、「人工斷句」、「人工斷詞」、「人工IPA記音」。

 

1. 人工轉記漢字:由於閩南語的漢字書寫系統目前並沒有定案,再加上有許多本字無法確定,或者有音無字的情形,因此有必要訂定文字轉記的原則。故在進行文字轉記前,首先需確立閩南語書寫系統,本計畫所參考的辭典主要有四本,依優先順序排列為:《臺灣閩南語辭典》、《台灣話大辭典》、《廈門方言詞典》、《閩南語詞彙》,如圖3-5-7由左至右。轉記平台為CHILDES兒童語料交換系統。每1小時錄音需要花約10小時不等的時間轉記成文字檔。總工作時間:錄音330小時×10=3,300小時。

 

圖3-5-7、閩南語辭典

 

2. 人工斷句:由於本語料庫之語料為口語語料,助理需參考言談分析之斷句原則,將自然言談切分成獨立意義句子。

 

3. 人工斷詞:由於目前無閩南語斷詞標準,故本計畫根據中華民國計算語言學學會所訂定之「資訊處理用中文分詞規範調查研究及草案研擬」,將語句切分為獨立意義,且扮演特定語法功能的字串。

 

4. 人工IPA記音:採語音轉記 (Phonetic Transcription) 的方式詳細轉記兒童實際發音。在音段方面,以Unicode IPA符號記音,參考書目為《Handbook of the International Phonetic Association 》(1999);聲調採用五度標音法。每小時的錄音約需花4.5小時記音。共錄音330小時×4.5=1,485小時(圖3-5-8)。

 

圖3-5-8、完成Unicode IPA記音之文字檔

 

(三)建立詞彙庫

 

錄音以人工轉記為文字很費人力,因此最終目標還是要建立自動化系統。而自動化系統的建立需要詞彙庫作基礎。「建立詞彙庫」依序分為三個步驟進行:「建立新詞清單」、「人工標記拼音」、「人工標記詞類」。

 

1. 建立新詞清單:以轉記好之文字檔中之所有詞彙建立清單,經由人工確認詞彙清單中的漢字與詞典是否一致。

 

2. 人工標記拼音:根據教育部於民國八十七年所公佈之「閩南語羅馬拼音第二式」人工標記詞彙清單中的漢字之拼音(圖3-5-9)。

 

圖3-5-9、人工標記拼音

 

3. 人工標記詞類:參考中央研究院詞庫小組《詞類標記原則》以及《CANCORP: The Hong Kong Cantonese Child Language Corpus》( Lee and Wong,1998)、《台灣閩南語動詞分類研究 》(曹逢甫,1996) 等相關文獻。採用中研院詞庫小組的詞類標記,但是僅限於46個簡化標記,以避免詞類劃分過細時產生主觀強制性的歸類(圖3-5-10)。

 

圖3-5-10、人工標記詞類

 

(四) 建立自動化系統

 

「建立自動化系統」以上述詞彙庫為基礎。分為三個部分:「發展自動斷詞與拼音程式」、「發展漢字檢查程式」、「發展自動詞類標記程式」。

 

1. 發展自動斷詞與拼音程式:將輸入之句子或整個文字檔案,根據本計畫修訂「資訊處理用中文分詞規範調查研究及草案研擬」所撰寫之「閩南語斷詞原則」及詞彙庫之詞項,根據長詞優先之準則,與詞彙庫比較。若所輸入之漢字與詞彙庫一致,則以黑色呈現,並在其後標注拼音;若所輸入之漢字尚未建立於在詞彙庫,則以藍色呈現。此程式除了斷詞及標注拼音之外,還可以將新詞納入詞彙庫(圖3-5-11)。

 

圖3-5-11、自動斷詞與拼音程式

 

2. 發展漢字檢查程式:目的為求漢字與詞彙庫所列之標準之一致。搜尋之方式有三:一為輸入閩南語羅馬拼音、二為輸入可能之漢字、三為輸入國語之相對詞;透過此三種任一,皆能擷取出詞彙庫中含有該詞之詞條。但若該詞未建立於詞彙庫中,查詢後則不顯示(圖3-5-12)。

 

圖3-5-12、漢字檢查程式

 

3. 發展自動詞類標記程式:以人工標記詞類之文字檔作為基礎,發展自動詞類標記程式。將輸入之句子(已完成斷詞工作),自詞彙庫中擷取出其詞類標記;當該詞有多個詞類標記時,程式則以頻率最高之標記為優先考量並標記之。若該詞在詞彙庫中未標記詞類,則以三個問號(???)呈現(圖3-5-13)。

 

 

(五) 自動化系統之應用

 

1. 執行自動斷詞與拼音程式:將語句切割成詞,並標注拼音。

 

2. 執行漢字檢查程式:檢查漢字與詞彙庫所列之標準是否一致。

 

3. 執行自動詞類標記程式:標記詞類。

 

4. 人工檢查:檢查程式輸出檔,如詞有不止一個詞類,則檢查其自動標記是否正確。

 

(六) 網站的建立及維護

 

1. 網站架構及內容之編纂:計畫主持人與研究助理討論網站內容及所呈現之介面。網站內容包含語料庫簡介、資料庫、使用手冊、相關程式以及相關網站之連結。

 

2. 網站之建立及維護:為語料庫建立專門網站,以供世界各地學者研究之用。完成最後檢測之後,網站將開放給外界瀏覽(圖3-9-14)。

 

圖3-5-14、網站首頁

 

製作單位:數位典藏國家型科技計畫 內容發展分項計畫

 

國立中正大學語言學研究所 台灣兒童語料庫計畫

 

文字撰寫:國立中正大學語言學研究所台灣兒童語料庫計畫      助理 謝沛諭

 

數位典藏國家型科技計畫 內容發展分項計畫      語言主題小組助理 賴佳旻

 

圖片拍攝:數位典藏國家型科技計畫 內容發展分項計畫

 

語言主題小組助理 賴佳旻、林淑惠、陳秀華

 

圖文編輯:數位典藏國家型科技計畫 內容發展分項計畫

 

語言主題小組助理 賴佳旻、陳美智、陳秀華

 

致謝:

 

感謝國立中正大學語言學研究所「台灣兒童語料庫」之計畫主持人 蔡素娟教授、前任助理黃婷鈺小姐、劉慧娟小姐及現任助理謝沛諭小姐撥冗指教及協助拍攝與提供資料,特別致謝。

 

六、社會語音語料庫

製作日期:2010/01/25

 

中央研究院語言學研究所語言典藏第二期子計畫「臺灣國語口音社會分布典藏」主持人為曾淑娟副研究員,該計畫主要目的是以社會語言學為主體,輔以聲學語音學工具進行社會語音學的研究。資料庫的建立可以提供結構化的資料,以促進系統化的研究。社會語言學的研究方法整理社會,經濟,教育與語言背景資料。數位錄音的技術有系統的自動處理語音內容與標記。計算語言學的資料運算方法讓語音與社會語言學的資料能有效的整合與分析。我們希望為在臺灣所使用的國語口音建置數位內容資料庫,藉以記錄語音的社會性、區域性與語言特質。臺灣的國語,因為受到多語環境的影響,在詞彙與口音上與其他使用現代漢語的區域相比自有其獨特之處。利用社會、政經、網路使用等指標,配合數位錄音的語音聲學分析,本子計畫在臺灣各主要縣市收集並典藏自然語音,一方面記錄語言的使用情形與社會變遷的連動性,另外一方面也達到原音重現的典藏目的。

 

圖3-6-1、社會語音語料庫研究關係圖

 

數位化工作流程說明:

 

「台灣國語口音社會分布」的數位化作業,依照下列七項步驟進行。依序分別為:一、擬定採樣地點與對象;二、錄音設備;三、發文縣市政府;四、問卷訪問;五、數位錄音內容文字轉記;六、建立問卷內容資料庫;七、網頁製作與維護,茲分別介紹如次。

 

(一) 擬定採樣地點與對象

 

1. 採樣地點:全台各縣市,選擇當地民眾較多、非學生聚集及周圍噪音較少地區,如:郵局、大型公園、文化中心、圖書館。

 

2. 單次採樣時間﹕三天。

 

3. 採樣人員:2人為1組,共四組。

 

4. 採樣人數:每組目標採樣人數為30人,四組共120人,有效人數至少 100人/地點。

 

5. 作業方式:一人負責主導提問與錄音,另一人則負責記錄錄音相關資料:姓氏、性別、錄音地點、職業註記。

 

6. 採樣對象年齡﹕20~40歲。

 

7. 採樣對象性別﹕不拘。

 

(二) 錄音設備

 

1. 數位錄音採樣系統﹕

 

記錄器:SONY Hi-MD MZ-RH1

 

麥克風:SONY ECM MS907

 

2.錄音格式﹕

 

聲音輸入為Hi-SP雙聲道,聲音輸出格式為wave音訊,單聲道取樣速率441KHz,16位元。

 

 

 

(三) 發文縣市政府

 

錄音出訪前,需要請中央研究院語言學研究所行政人員發文至相關的縣市政府,以確保計畫人員能得到協助與安全。

 

(四) 問卷訪問

 

1. 語言背景﹕受訪者本身語言使用情形,以及與家庭成員間語言使用情形。

 

2. 社會經濟背景﹕由小學起到最高學歷為止的求學經歷,及超過半年以上的工作經歷,目前月薪等。地區以鄉鎮市為單位。

 

3. 網路使用及國際觀﹕是否經常使用網路,使用網路的目的和行為,瀏覽的網站的語言類別,點選網路新聞的類型,有沒有出國經驗。

 

4. 語言自我評價﹕詢問受訪者根據本身語言使用經驗及習慣,是否覺得自己說國語時受到當地口音的影響,及有哪些音不完整或容易分辨不清。

 

圖3-6-3、戶外問卷訪問

 

(五) 數位錄音內容文字轉記

 

所有採集的數位語音資料會以PRAAT軟體做為轉寫工具,將採訪的內容依問卷問題回答作為切分的原則,將錄音內容與語音信號對齊。

 

圖3-6-4、錄音內容文字轉記

 

(六) 建立問卷內容資料庫

 

每位受採訪者,會建立一個問卷內容資料,依問卷問題順序將問卷調查的內容鍵入。

 

圖3-6-5、問卷資料庫

 

(七) 網頁製作與維護

 

該計畫網頁「新世紀語料庫」包含曾淑娟副研究員主持建置的所有語料庫,不僅止於數位典藏計畫。其中台灣國語口音之社會分布計畫的內容,因為語料收集還未告一段落,因此還未上線。不過,其他語料庫的內容也已經包含大部分進行語音語料庫收集應該注意的事項。

 

文字撰寫:曾淑娟

 

 


 <返回目錄>

 


[19] 新世紀語料庫-多媒體的呈現與典藏 http://mmc.sinica.edu.tw/

 

[20] van Son, R., Wesseling, W., Sanders, E., and van den Heuvel, H. (2009). "Promoting free Dialog Video Corpora: The IFADV Corpus Example," in M. Kipp et al. (Eds.): Multimodal Corpora, LNAI 5509, pp. 18–37, 2009. 該語料庫網址為:http://www.fon.hum.uva.nl/IFA-SpokenLanguageCorpora/IFADVcorpus/

 

[21] 詞庫小組.1995. 《研究院語料庫的內容及說明》,中文詞知識庫小組技術報告#95-02,南港,中央研究院。

 

[22] Huang, Chu-Ren and Keh-jiann Chen. 1992. A Chinese Corpus for Linguistics Research. In the Proceedings of the 1992 International Conference on Computational Linguistics (COLING-92). 1214-1217. Nantes, France.

 

[23] Huang, Chu-Ren 1994. Corpus-based Studies of Mandarin Chinese: Foundational Issues and Preliminary Results. In Matthew Chen and Ovid Tzeng Eds. In Honor of William S-Y. Wang: Interdisciplinary Studies on Language and Language Change. Pp. 165-186. Taipei: Pyramid.

 

[24]「資訊處理用中文分詞原則」國家標準 ,檔案編號CNS14366。

 

[25]「資訊處理用中文分詞規範」設計理念及規範內容。

 









Download: 全文下載  全文下載 (32.3 MB, 2,478 hits)



評分:

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

回應:


請輸入圖片中的文字
請按圖片取得圖片中文字的錄音檔
Click to hear an audio file of the anti-spam word