語料庫建置入門工作流程指南
Tags: 後設資料, 指南, 數位化工作流程, 文字, 詞彙, 語料庫, 語言 發表: 2010-06-01, 點閱: 78,352 , 加入收藏櫃 , 列印 , 轉寄伍、延伸議題
一、數位內容保護
「數位典藏與數位學習國家型科技計畫」已經耕耘多年,參與各計畫有許多數位化產出,而且成果陸續增加之中,對於擁有成果的計畫而言,除了開發新的加值應用,創造新價值之外,保護既有的資源也是重要的環節,若是多年來投入的成果被隨意剽竊,難免打擊士氣,而且對於數位化典藏的大環境也有長遠的影響。近年來,數位內容的保護機制已有不少成果,除了對數位化典藏產出進行保護外,整個數位化典藏的過程也都可納入保護機制之中,從數位化工作、資料傳遞、使用狀態追蹤等,都有相關的整合技術。
目前完整的數位內容保護概念是數位版權管理(Digital Rights Management,簡稱DRM),其內容保護的方式結合了硬體以及軟體兩者,在軟體上限制數位內容的存取權限、次數,在硬體上限制儲存媒介,兩者相互配合下,讓使用者擁有一段可使用數位內容的生命週期,在週期之內可追蹤與限制數位內容的存取、複製、使用狀況,生命週期結束之後數位內容即無法使用。
至於數位版權管理為什麼會興起發展?其原因列舉如下:
1. 保護智慧財產權
數位版權管理的許多技術,其前身都是來自反盜版概念,所以技術發展的目的都是為了保護數位產出的智慧財產權。在數位化的時代中,許多數位化的內容已經是無形的財產,保護這些智慧財產不被濫用,有利於典藏單位將數位內容產出利用於其他加值項目上。
2. 保護隱私權與機密內容
資料每進行一次傳輸,就多一分被竊盜的風險,為了防止資訊被從中攔截,因此發展出資料加密,特定存取軟硬體等保護技術。許多敏感單位便大量使用這些技術來保護機密內容。
3. 創造新商機
數位版權管理的機制建立之後,也建立了一套數位內容的使用模式,此模式有利於套用在商業應用之上,受到使用限制的數位內容可以改以商品的型態,提供相關的數位資訊與服務給客戶使用。
4. 統一標準
從商業角度來看,當數位內容越來越多,數位版權管理也越發重要,許多業者看到未來的發展潛力,相繼投入相關技術的開發,搶攻市場。而統一的標準利於開發者發展相關技術,也利於使用者使用,因此能吸引廠商與消費者的加入,整合性的數位版權管理也隨著興起發展。
透視這些數位版權管理的興起原因後,不難理解數位版權管理的目的主要是保護智慧財產權,防止數位內容在沒有授權的情形下無限制散布,即使受到授權使用,也必須能追蹤使用狀態,以確保無盜用情形。[26]有效的保護財產,就有利於數位內容產出,繼續發展未來願景,同時開發數位內容的加值應用。
數位版權管理目前常用的技術包含數位浮水印、公開金鑰與數位版權描述語言,接下來就概略介紹這三種技術。
1. 數位浮水印
「數位浮水印」技術是指將代表作者的識別標誌、圖騰等植入圖片或是影像等數位影像檔案中的技術。數位浮水印可以作為著作版權認定的依據,若發生著作權糾紛時,數位浮水印可作為著作權擁有者的證明。正因如此,將代表自己或是單位的數位浮水印加在數位內容上,可擁有一定的嚇阻作用,意謂版權所有,請勿侵權使用。
數位浮水印適合照片圖檔、音訊檔、影像檔等數位檔案使用。數位浮水印依照可見程度,分為顯性與隱性兩種。顯性浮水印是可見的,因此具有第一線的嚇阻效用;而隱性的浮水印則無法用肉眼察覺,具有版權的保護作用,一般在數位典藏計畫中所指的數位浮水印指的是後者。
數位浮水印的設計須考慮以下重要因素:[27]
(1) 透明度(Transparency):浮水印不能影響到閱聽的品質。
(2) 強健性(Robustness):浮水印即使遭到攻擊,仍能存在於數位內容之中。
(3) 安全性(Security):植入的浮水印必須具有不可偵測的特性,即使知道了浮水印的架構,也必須要擁有相對應的金鑰才能移除。
(4) 容量(Capacity):能加入浮水印的多寡,這條件通常和透明度的要求背道而馳。
(5) 複雜度(Complexity):嵌入與移除浮水印所需的時間與難度,以及抽取浮水印時是否需要原始來源資料或相關資訊比對(blindness)。
(6) 可逆性(Invertibility):原始資料是否可藉移除浮水印回復。
(7) 明確性(Unambiguous):必須明確標示版權所有人。
各個數位典藏計畫無論是自行研發浮水印技術或是購買商業化浮水印技術,都可以考量以上的條件作為防盜技術的標準。但隨著科技技術的發展,數位浮水印技術的防侵盜版權功用也日益減弱,只有版權宣示作用,絕對無法保障內容不會被盜取,已屬於較為消極的防範措施。
2. 金鑰
金鑰是一種加密技術,利用密碼學的技術嵌入數位內容之中,藉以限制檔案的存取、複製行為。依照設計不同主要有兩種方法:
(1) 對稱式加密法
這是傳統的加密方法,在加密與解密的兩端各擁有一把私密金鑰(Private Key),若是其中一端要與其它人進行檔案傳遞等作業,必須雙方各自產生一把私鑰,才能解除限制。對於團體間而言,此方法較缺乏效率,但是能有效保護檔案安全。
(2) 非對稱式加密法
這是公開金鑰(Public Key)的加密方法,在加密與解密的兩端必須擁有兩把金鑰,一把是公諸於世的公開金鑰,一把為個人私密的金鑰。加解密的動作必須仰賴成對的金鑰才能完成,利用公開金鑰加密後,可由私密金鑰解碼,其用意是利用金鑰間的不可逆性來防止有人心人士推算密碼演算法以竊取檔案。
3. 數位版權描述語言
數位版權描述語言指作者與使用者之間,對於數位內容使用的權利、義務範圍的描述語言。目前以XrML(eXtensibleRights Markup Language)最為常見,這是國際標準組織作為數位版權描述語言的標準,可供數位化內容的數位版權管理、後設資料管理、內容管理、內容傳遞等服務,此外也可作各式媒體的內容版權管理標準語言,如電子書、數位出版、廣播、音樂等,已有許多廠商採用。數位版權的管理可以將數位內容資料加上版權簽章資訊,以控制數位內容的流通與拷貝,除了XrML外,其他數位版權描述語言與相關組織還有ODRL(Open Digital Rights Language)、EBX(Electronic Book Exchange)與MPEG(Moving Picture Experts Group)…等。
隨著語料庫資源的多樣化,語料庫所面臨的數位版權問題也各有不同。古籍文獻語料庫的資料並無版權限制,人人都可以使用,但查詢介面、資料庫系統卻是計畫單位辛辛苦苦建立,大部分的語料庫開放查詢時,只能呼籲使用者註明文獻查詢出處,別完全抹殺計畫單位的貢獻。也有一些計畫採用不提供全文的策略,讓查詢結果只出現局部段落,一方面達到語料庫的資料查詢用意,另一方面又保護資料的著作權所有人或自己的辛苦成果。[28]
隨著多媒體型式的語料庫產生後,數位內容保護的相關技術顯得更為重要,未來,當語料庫要走向加值應用時,更必須納入數位版權管理的概念,以確保數位內容的珍貴性。
二、人力與設備成本分析
語料庫數位化工作一般來說不像文物或藝術品等物件的數位化典藏工作般,需要使用到相當昂貴的機器設備,因此設備成本的支出只佔整體計畫經費的小部分,而因語料庫的數位化工作耗時費力,人力成本的支出將會佔計畫經費的較大部分;此外,田野調查收錄語料所需要的旅費、食宿、膳雜與人事開銷等,也是一筆龐大的支出,因此當計畫主持人規劃計畫細節與撰寫計畫書時,也要費心進行經費規劃。
由於語料庫的類型多元,並不是每一種語料庫都需要進行田野調查,因此本書在此不詳述田野調查如何規劃經費,僅就語料庫數位化過程之中的人力分析與設備使用進行介紹。
(一) 人力成本分析
國立中正大學語言學研究所蔡素娟教授所主持的台灣兒童語料庫—閩南語兒童語料庫計畫,在執行期間以工作流程調查表(表5-1)記錄下計畫執行期間所需要的人力與工作時數,本節將以此為範例,瞭解一項計畫所需的人力成本。
「台灣兒童語料庫」建置計畫為期三年(89.8.1至92.7.31),語料來源為蔡素娟教授國科會專題研究計畫「台灣話聲調習得的發展之研究」(87.8.1至89.7.31,為期三年)實地採集嘉義地區14名(9男5女)一歲多至三歲多的兒童玩遊戲或看書時的自由對話,總長度329小時又14分鐘,轉寫文字約230萬字,整個語料庫由資料收集到建置完成歷時長達六年。
以閩南語兒童語料庫所記錄的工作調查來看,該計畫的田野調查總共錄下431人次的錄音,錄音時間長達330小時;進行錄音剪輯時,每小時的錄音檔案必須投入1.5倍的時間,因此光是錄音剪輯就必須花費495小時的時間,換算每天8小時的工作日,約計需要62天,分攤至每位助理後,每個人也需要花費20天來進行錄音剪輯。錄音剪輯需要花費大量時間,台灣兒童語料庫所計算的1.5倍剪輯時間屬於極佳理想的狀態,一般進行錄音剪輯時可能需要花費更久時間。
當計畫進行到人工轉記漢字與人工IPA記音時,分別需要錄音時間的10倍與4.5倍時間來執行,計算之後,其總時間也長達4,785小時。以每天上班8小時,一週上班五天,且有三位助理分攤進行的狀況計算,也必須花費10個月的時間來執行。這僅只是工作流程調查表中所記錄的時間,其他包含人工斷句、人工斷詞、人工標記拼音、人工標記詞類等,都尚未列入計算內。
又如中央研究院資訊科學研究所王新民副研究員曾以三年時間建置國語新聞口語語料庫,收錄公共電視2001年11月至2003年6月計250小時的國語新聞節目,在使用程式自動比對、擷取公視網站上的相應文字資料作為轉寫的文字底稿的情形下,兩位專任助理最後也僅能完成198個小時的文字轉寫與言談標記工作。[29]由此可知,若是未發展自動軟體,在語料庫建置的過程之中,必須花費大量的人力來進行詞語分析、標記等工作,若是計畫主持人有心建立更詳細的語料內容,則所花費的人工時間會更久。
語料庫數位化工作至目前為止,仍然必須仰賴大量的人才與人力參與,才能順利完成工作,除去一般事務性人力成本後,執行工作的人力成本會是經費支出之中的一大部分,計畫主持人在規劃經費時,必須瞭解計畫需求,仔細計算人力成本需求。
(二) 設備成本分析
語料庫的建置工作中,最常使用到的器材就是錄音設備;而每一個語料庫的最終目的就是建立一個資料庫伺服器,以提供使用者查詢,因此伺服器也是每個計畫必須購買的設備,以下將這些設備做簡單的介紹。
錄音設備可分為類比式與數位式,類比式如卡匣錄音機(Cassette Recorders),數位式如MD錄音機(Minidisc Recorder)、DAT錄音機(Digital Audio Tape Recorders) 以及固態錄音機(Solid-State Recorder)、硬碟錄音機(Hard-Disk Recorder)以及電腦。目前市面上的錄音筆非常多,甚至是一般的MP3播放機就附有錄音功能,但是為了收錄的語料品質能滿足語音聲學分析或典藏的需求,建議捨棄一般的卡匣錄音機或錄音筆,選用較高階的數位錄音硬體與外接麥克風。
1. 線性PCM錄音機
有些PCM錄音機本身就配備一對高感度的電容式麥克風,除了收音敏感度佳之外,還能夠收錄立體聲音場,收音品質明顯優秀;而錄音檔案上,PCM錄音機的錄音取樣率可以高達96kHz以上,相對於一般MP3檔案的取樣率僅為44.1kHz,可知PCM錄音機的錄音效能更佳。PCM錄音機能直接將聲音儲存為未經壓縮的高品質檔案(如WAV格式),也利於事後的監聽、判讀,以及後製處理。也因為PCM錄音機的性能較佳,因此價格較為高昂,約略在一萬至兩萬元之間。
圖5-1、PCM錄音機[30]
2. 數位錄音座
數位錄音座的價格更昂貴,約莫等同於一台配備高級的筆記型電腦。此處所指的數位錄音座並非是音樂錄音工作所使用的器材,而是比較小型且適合語言收錄的器材。此類數位錄音座通常必須與筆記型電腦搭配使用,在科技進步之下,目前數位錄音座的體積已經大為縮小,重量約莫在1公斤上下,對於田野調查工作者而言更便於攜帶。
數位錄音座可以用USB介面與筆記型電腦連結,收錄資料時可以直接存入筆記型電腦之中,而某些機型也提供記憶卡插槽,可以不須與電腦連結,直接將錄音資料收錄至記憶卡內即可。數位錄音座最大的優勢是提供多組錄音輸入孔,接上多組麥克風後,可同時進行多人發音的語言收錄。此外,數位錄音座的錄音品質也可以達到線性PCM規格,儲存檔案可以選擇16-bit或是24-bit,而取樣率可高達192kHz以上,整體錄音品質更勝PCM錄音機。
圖5-2、數位錄音座[31]
3. 麥克風
麥克風依照構造可以分為兩大類,分別是Dynamic Microphone動圈式麥克風與Condenser Microphone電容式麥克風。[32]動圈式麥克風採用線圈、振膜、永久磁鐵組合,一般到KTV消費時,拿在手上高唱的麥克風就屬此類,特色是造價成本低、聲音溫潤,缺點則是體積較大,靈敏度低,高低頻表現較不理想。
另一種電容式麥克風是以電容隔板造成電壓變化的方式來記錄音訊,優點是體積小且靈敏度高,適用於高感度錄音;不過電容式麥克風需要以穩定電壓驅動,有些產品需要額外電池供電。電容式麥克風的高靈敏度適合語料收錄,輕便的特性適合外出使用,對於語料庫計畫而言,建議使用電容式麥克風。
根據收錄聲音的靈敏度差異,麥克風的設計可略分全指向(Omnidirectional)、單指向(Cardioid)與雙指向(Bi-directional)等類型,全指向型會收錄周遭的許多聲音,雙指向型則收錄前後兩方向的聲音,而單指向型只收錄一個方向的音源。語料庫計畫收錄語言時,一支麥克風只專注收錄發音人的語音,周邊的聲音干擾必須越少越好,以利後續的判聽作業,因此單指向的麥克風較適合收錄語料使用。
選擇麥克風還要注意接頭規格是否符合錄音筆與錄音座使用。依照響應頻率、靈敏度、抗阻等規格差異,麥克風的售價價差很大,以3.5mm接頭接上PCM錄音筆的迷你麥克風與領夾型麥克風,售價約在2,000~4,000元左右;規格更佳但體積稍大,[33]可桌立或是手持的麥克風,售價約在4,000~6,000元左右;而規格最佳的頂級麥克風,其售價則高達一萬元以上。
如果搭配PCM錄音筆使用,建議選擇領夾式麥克風,以避免手持麥克風與錄音筆的不便;如果與錄音座一起使用,那可桌立與手持的麥克風最為合適。
圖5-3、可桌立與手持的電容式麥克風[34]
4. 伺服器(Server)[35]
以硬體方面來說,伺服器是指專門儲存數位資源的電腦硬體;以軟體而言,也泛指用來管理數位資源並提供使用者服務的電腦軟體,例如檔案伺服器、資料庫伺服器與應用程式伺服器三種。在此,本文要介紹的是用來儲存數位資源的設備。
伺服器和一般桌上型電腦有許多的差異,伺服器是給數位資源擁有者使用,數位資源透過網路提供給一般桌上型電腦使用者。伺服器的硬體耐用度是針對24小時不休息的使用狀態而設計,為了應付許多使用者的需求,運算能力也比一般桌上型電腦更為優良,一般來說,常見的伺服器,大略可分為三類,其體積、型態與效能等也有一些不同的地方,主要有直立式伺服器、機架式伺服器 (Rack-Mount Server) 與刀鋒式伺服器(Blade Server)這三類。
直立式伺服器是入門的機種,適用於一般小型公司,外觀近似一般桌上型電腦,兩者容易混淆。一台直立式伺服器所佔用的空間和一般電腦相似,但是其配備採用比一般電腦穩定許多、工作效率也較佳的CPU與記憶體,足以負荷長時間不間斷的工作;因體積的限制,直立式伺服器的硬碟擴充性不強,擴充數量與一般桌上型電腦相近。直立式伺服器是大部分小型的典藏計畫會選購的類型,入門機型的價位約莫在五萬至六萬元之間,功能比較齊全強大的機型,價格約莫在十萬元以內。
圖5-4、直立伺服器
選購直立式伺服器時,也一定要增購UPS不斷電系統,以保障資料儲存與傳輸上的安全。目前市面上的UPS不斷電系統主要有三種,分別是Off-Line離線式、On-Line在線式與Line Interactive在線互動式,三種UPS不斷電系統的價差很大,但是伺服器建議使用最安全的On-Line在線式不斷電系統,價位約在一萬元上下。
當伺服器的需求達到十台直立式伺服器以上時,佔用的空間將相當龐大,可使用機架式的伺服器以節省空間。機架式伺服器為扁平狀,最小機架單位以1U,[36]一台機架式伺服器的大小約1U到5U不等,為了有效管理機架式伺服器,以及善用空間,此種伺服器必須裝在機櫃內使用,一個全高的機櫃約有42U的空間。
機架式伺服器的優勢是擁有極大彈性的擴充性,效能比直立式伺服器優秀;不過保養負擔也相對沉重,因為機櫃內安放了多台伺服器,散熱性顯得相當重要,必須24小時開啟空調來克服散熱問題,同時機櫃的放置地點,保管方式、保管人員也要仔細安排。
圖5-5、1U大小的機架式伺服器
圖5-6、安裝於機櫃內的機架式伺服器
大型機房內的機架式伺服器後方會佈滿排線,即使有空調協助散熱,溫度仍然驚人,除了散熱外,佈滿的排線也增添了管理與維護上的困難,所以刀鋒式伺服器應運而生。
刀鋒伺服器需與刀鋒基座搭配,基座提供電源、風扇、網路等功能,基座上的插槽則可以插上刀鋒伺服器。訊號連接以插槽取代排線,而且擁有類似熱抽取的功能,更利於管理與維護;在伺服器數量相等的情況下,刀鋒伺服器的散熱性也更好。
圖5-7、刀鋒伺服器
機架式伺服器的效能好,但是價格較直立式伺服器昂貴許多,一組全高的機櫃價格大約六萬元左右(包括KVM螢幕),一台機架式伺服器(空機不含硬碟)的成本至少要八萬元左右,加上不斷電系統以及周邊配備,一組這樣子的設備其成本很容易就超過二十萬元。而先進的刀鋒式伺服器單價比一台機架式伺服器更為昂貴,建置成本更不是一般計畫所能負擔,後續在人力上的維護成本,也是不容小看。
一般而言,中型企業或是具規模的組織才會建立機架式伺服器的機房,例如學校或是文教單位等,對於小規模的計畫單位來說,這種伺服器太過沉重;因此,除了自行購買直立式伺服器之外,向大單位租用代管伺服器也是可以選擇的方式。
表5-1、台灣兒童語料庫工作流程調查表
單位:國立中正大學 語言學研究所 數位化物件名稱:閩南語兒童語料
子計畫名稱:台灣兒童語料庫
主持人(負責人)(E-mail、Tel):蔡素娟 教授 Lngtsay@ccu.edu.tw 05-2720411*31502
聯絡人(E-mail、Tel):謝沛諭 astpph@ccu.edu.tw 05-2720411*21509
程序 |
工作內容 |
操作人員(數量、專業能力之要求) |
硬體(名稱、版本、價格) |
軟體(名稱、版本、價格等) |
依循標準(技術規範、成品規格、品質要求…等) |
耗時 |
總結(困難、缺失、特色…等) |
成本估算 |
備註 |
1 |
訓練研究助理 (瞭解閩南語音韻及書寫系統;瞭解閩南語詞彙、句法、語意及詞類標記系統;瞭解CHILDES系統;熟悉IPA國際音標記音) |
計畫主持人、 3名研究助理 (具語言學碩士級背景知識;母語為閩南語) |
(1) 錄音機 (NT8,000/台) (2) 錄音帶 (NT150/片) |
(1) 《閩南語詞彙》一、二冊 楊秀芳, 教育部國語推行委員會, 1998. (2) 《台灣閩南語語法稿》楊秀芳, 大安出版社, 1995. (3) 《台灣閩南語方言記略》張振興, 文史哲出版社, 1993. (4) Handbook of the International Phonetic Association, (1999) (5) The CHILDES Project, Brian MacWhinney (1995) |
每星期3-6小時的討論會與記音練習。 |
碩士級專任助理1名 NT34,000/月 碩士級兼任助理2名 NT6000*2/月 |
程序 |
工作內容 |
操作人員(數量、專業能力之要求) |
硬體(名稱、版本、價格) |
軟體(名稱、版本、價格等) |
依循標準(技術規範、成品規格、品質要求…等) |
耗時 |
總結(困難、缺失、特色…等) |
成本估算 |
備註 |
2 |
徵求說閩南語家庭的兒童 (以海報及網路發布廣告;利用幼稚園家長日到場對家長說明,徵求說閩南語家庭的兒童) |
3名研究助理 (熟悉電腦網路應用;基本美工海報設計) |
桌上型電腦3部 (NT50,000/台) |
(1) Microsoft OS: 98/2000/XP (2) Microsoft Office: Word/ Excel |
目標選定中正大學附設托兒所、幼稚園及鄰近鄉鎮,徵求來自說閩南語家庭,年齡在一歲至三歲之間的幼兒。陸續共選出14名兒童。 |
||||
3 |
排定錄音時間 (聯絡家長;並排定錄音時間表) |
3名研究助理 |
桌上型電腦 (NT50,000/台) |
||||||
4 |
準備錄音器材 |
3名研究助理 |
(1) 迷你光碟隨身錄音機 (NT12,000/台) (2) 專業用麥克風 (NT8,000/支) (3) 迷你光碟片 (NT800/15片裝) (4) 專業用耳機 (NT3,000/副) |
二週 |
選擇方便攜帶、機動性強、容量較大、容易長期保存語料之錄音器材。 |
||||
5 |
進行訪談錄音 (至兒童家中進行訪談錄音。錄音為週期性,寒暑假亦不間斷。二歲以下者,每週訪談一次;二至三歲者,每兩週訪談一次;三至四歲者,每二至三週訪談一次) |
3名研究助理 (熟悉迷你光碟錄音機之操作;有耐心;喜歡與小孩互動) |
(1) 迷你光碟隨身錄音機 (NT12,000/台) (2) 專業用麥克風 (NT8,000/支) (3)迷你光碟片 (NT800/15片裝) |
每次訪談約1-2小時不等,實際錄音時間40-60分鐘。 錄音期間:1997年10月至2000年5月。 共錄音431人次,約330小時。 |
進行訪談中,錄下兒童在家長或保姆陪同下,在自己家中的日常對話。錄音的內容除了自然言說,還藉助圖畫簿、故事書、玩具、布偶、剪紙、摺紙或其他遊戲,引發兒童主動說話。 |
助理田調費 NT200元/人次 訪談費NT200/人次 |
程序 |
工作內容 |
操作人員(數量、專業能力之要求) |
硬體(名稱、版本、價格) |
軟體(名稱、版本、價格等) |
依循標準(技術規範、成品規格、品質要求…等) |
耗時 |
總結(困難、缺失、特色…等) |
成本估算 |
備註 |
6 |
錄音剪輯 |
3名研究助理 (熟悉迷你光碟錄音機之操作) |
(1) 迷你光碟隨身錄音機 (NT12,000/台) (2) 專業用耳機 (NT3,000/副) (3) 迷你光碟片 (NT800/15片裝) |
每小時的錄音約需耗時1.5小時剪輯。 總時間:1.5*330小時。 |
(1) 光碟中輸入錄音日期、檔名。 (2) 將不相關的錄音或太長的空白錄音刪除。 (3) 將錄音切割為較小段落,並在光碟中標記段落編號。 |
||||
7 |
錄音備份 (迷你光碟之備份製作) |
3名研究助理 (熟悉迷你光碟錄音機之操作) |
(1) 迷你光碟隨身 錄音機 (NT12,000/台) (2) 迷你光碟錄音座 (NT35,000/台) (3) 迷你光碟片 (NT800/15片裝) (4) 耳機 (NT3,000/副) (5) 光纖線 (NT2,000/條) |
每片迷你光碟片約需2.5小時。 總工作時間:2.5*330 (hr)=825小時 |
|||||
8 |
數位化轉錄 |
多名研究助理 (熟悉迷你光碟錄音機之操作) |
(1) 桌上型電腦 (NT50,000/台) (2) 迷你光碟隨身錄音機1部 (NT12,000/台) |
GoldWave Digital Audio Editor(GoldWave Inc. 研發) |
將迷你光碟錄音檔轉為較不佔空間之MP3格式,以方便儲存。於日後可隨時轉為語音分析所需之格式(如WAV格式) |
|
程序 |
工作內容 |
操作人員(數量、專業能力之要求) |
硬體(名稱、版本、價格) |
軟體(名稱、版本、價格等) |
依循標準(技術規範、成品規格、品質要求…等) |
耗時 |
總結(困難、缺失、特色…等) |
成本估算 |
備註 |
9 |
閩南語書寫系統之確立 (由於閩南語的漢字書寫系統目前並沒有定案,再加上有許多本字無法確定,或者有音無字的情形,因此有必要訂定文字轉記的原則) |
3名研究助理 (熟悉電腦文書處理之操作;閩南語書寫系統之基本知識) |
(1) 桌上型電腦 (NT50,000/台) (2) 迷你光碟隨身錄音機 (NT8,000/台) (3) 專業用耳機 (NT3,000/副) |
(1) Microsoft OS: 98/2000/XP (2) Microsoft Office: Word/ Excel |
所參考的辭典主要有四本,依優先順序如下: 《臺灣閩南語辭典》董忠司, 五南圖書出版公司, 2001. 《閩南語大辭典》陳修, 遠流出版公司, 1998. 《廈門方言詞典》李榮, 江蘇教育出版社, 1998. 《閩南語詞彙》楊秀芳, 教育部國語推行委員會, 1998. |
||||
10 |
人工轉記漢字 (錄音檔轉記為文字檔) |
多名研究助理 (熟悉電腦文書處理之操作;閩南語書寫系統之基本知識) |
桌上型電腦 (NT50,000/台) |
CHILDES之CHAT轉記平台 |
CHILDES(Child Language Data Exchange System; MacWhinney and Snow 1985, MacWhinney 1995)兒童語料交換系統 |
每1小時錄音需要花約10小時不等的時間轉記成文字檔。 總時間:330*10=3,300小時。 |
|||
11 |
人工斷句 (將自然言談切分成獨立意義句子) |
多名研究助理 (具句法學及語意學等語言學相關背景知識) |
桌上型電腦 (NT50,000/台) |
(1) Microsoft OS: 98/2000/XP (2) Microsoft Office: Word/ Excel |
CHILDES兒童語料交換系統之斷句標準 |
本語料庫之語料為口語語料。需參考言談分析之斷句原則。 |
程序 |
工作內容 |
操作人員(數量、專業能力之要求) |
硬體(名稱、版本、價格) |
軟體(名稱、版本、價格等) |
依循標準(技術規範、成品規格、品質要求…等) |
耗時 |
總結(困難、缺失、特色…等) |
成本估算 |
備註 |
|
12 |
人工斷詞 (將語句切分為獨立意義、且扮演特定語法功能的字串) |
多名研究助理 (具語言學相關背景知識) |
桌上型電腦 (NT50,000/台) |
(1) Microsoft OS: 98/2000/XP (2) Microsoft Office: Word/ Excel |
中華民國計算語言學學會所訂定之「資訊處理用中文分詞規範調查研究及草案研擬」。 |
|||||
13 |
人工IPA記音 (採語音轉記 (phonetic transcription) 的方式。在音段方面,以Unicode IPA符號記音;聲調採用五度標音法) |
多名研究助理 (熟悉電腦文書處理之操作;熟悉國際音標;有語音學基礎) |
(1) 桌上型電腦 (NT50,000/台) (2) 迷你光碟隨身錄音機 (NT12,000/台) (3) 專業用耳機 (NT3,000/副) |
(1) CHILDES之CHAT轉記平台 (2) Microsoft OS: 98/2000/XP (3) Microsoft Office: Word/ Excel (4) Unicode IPA字型軟體 |
(1) CHILDES兒童語料交換系統 (2) Handbook of the International Phonetic Association (1999) |
每小時的錄音約需花4.5小時記音。共4.5*330=1485小時。 |
|
|
||
14 |
建立新詞清單 (以轉記好之文字檔中之所有詞彙建立清單,經由人工確認詞彙清單中的漢字與詞典是否標準一致) |
多名研究助理 (具語言學相關背景知識) |
桌上型電腦 (NT50,000/台) |
(1) Microsoft OS: 98/2000/XP (2) Microsoft Office: Word/ Excel |
|
|
||||
15 |
人工標記拼音 |
多名研究助理 (具語言學相關背景知識) |
桌上型電腦 (NT50,000/台) |
(1) Microsoft OS: 98/2000/XP (2) Microsoft Office: Word/ Excel |
教育部於民國八十七年所公佈之「閩南語羅馬拼音第二式」。 |
|
|
|||
程序 |
工作內容 |
操作人員(數量、專業能力之要求) |
硬體(名稱、版本、價格) |
軟體(名稱、版本、價格等) |
依循標準(技術規範、成品規格、品質要求…等) |
耗時 |
總結(困難、缺失、特色…等) |
成本估算 |
備註 |
16 |
詞類標記系統之確立 |
多名研究助理 (具句法學與語意學基本知識) |
桌上型電腦 (NT50,000/台) |
(1) Microsoft OS: 98/2000/XP (2) Microsoft Office: Word/ Excel (3) 「閩南語詞彙庫」 |
(1) 中央研究院詞庫小組「詞類標記原則」 (2) CANCORP: The Hong Kong Cantonese Child Language Corpus, Lee and Wong (1998). (3) 台灣閩南語動詞分類研究 曹逢甫 (1996). |
採用中研院詞庫小組的詞類標記,但是僅限於46個簡化標記,以避免詞類劃分過細時產生主觀強制性的歸類。 |
|
|
|
17 |
人工標記詞類 |
多名研究助理 (具句法學與語意學基本知識) |
桌上型電腦 (NT50,000/台) |
(1) Microsoft OS: 98/2000/XP (2) Microsoft Office: Word/ Excel (3) 「閩南語詞彙庫」 |
|
|
|||
18 |
發展自動斷詞與拼音程式 (斷詞及標注拼音) |
1名程式設計師 (熟悉電腦程式語言;具語言學基本知識) |
桌上型電腦 (NT50,000/台) |
(1) 「閩南語詞彙庫」 (2) Linux Operating System (3) Visual C |
本計畫自行研發 |
此程式除了斷詞及標注拼音之外,還可以將新詞納入詞彙庫。 |
程式設計費(按件計酬) |
|
|
19 |
發展漢字檢查程式 |
1名程式設計師 (熟悉電腦程式語言;具語言學基本知識) |
桌上型電腦 (NT50,000/台) |
(1)「閩南語詞彙庫」 (2) Linux Operating System (3) Visual C |
本計畫自行研發 |
程式設計費(按件計酬) |
|
程序 |
工作內容 |
操作人員(數量、專業能力之要求) |
硬體(名稱、版本、價格) |
軟體(名稱、版本、價格等) |
依循標準(技術規範、成品規格、品質要求…等) |
耗時 |
總結(困難、缺失、特色…等) |
成本估算 |
備註 |
20 |
發展自動詞類標記程式 |
1名程式設計師 (熟悉電腦程式語言;具語言學基本知識) |
桌上型電腦 (NT50,000/台) |
(1) Linux Operating System (2) Visual C |
本計畫自行研發 |
根據「閩南語詞彙庫」中該詞項之詞類標記。 |
程式設計費(按件計酬) |
|
|
21 |
人工檢查 (檢查詞類標記程式執行完之詞類標記是否正確) |
多名研究助理 (熟悉電腦文書處理之操作;瞭解語料庫之斷句、斷詞標準及詞類標記系統) |
桌上型電腦 (NT50,000/台) |
(1) 詞類標記程式 (2)「閩南語詞彙庫」 (3) Microsoft OS: 98/2000/XP (4) Microsoft Office: Word/ Excel (5) CHILDES之CHAT轉記平台 |
人工檢查一詞多類之詞其自動標記是否正確。人力需求極大。 |
||||
22 |
網站架構及內容之編纂 (與研究助理討論網站內容及介面) |
計畫主持人 研究助理 |
桌上型電腦 (NT50,000/台) |
(1) Microsoft FrontPage (2) Microsoft OS: 98/2000/XP (3) Microsoft Office: Word/ Excel |
(1) CHILDES兒童語料交換系統 (2) CANCORP |
網站內容包含語料庫簡介、資料庫、使用手冊、相關程式以及相關網站之連結。 |
|||
23 |
網站的建立及維護 (為語料庫建立專門網站,以供世界各地學者研究之用) |
1-2名電腦資訊人員 (具有電腦資訊相關背景與程式維護能力之人員) |
桌上型電腦-做為伺服器用途 (NT60,000/台) |
完成最後檢測之後,網站將開放給外界瀏覽。 |
電腦資訊人員1名(酬金視工作內容而定) |
調查人: 謝沛諭 調查地點: 國立中正大學 語言學研究所 語音實驗室 調查日期:2005.11
<返回目錄>
[26]陳心渝、李政宏、 邱一航、林韋伶,〈數位版權管理機 制實作—以數位典藏管理系統為例〉,《第四屆典藏技術研討會論文集》,2005年9月,頁93~100。
[27]綜合參考以下兩文 之資料。蕭人豪、林欣慧、林金龍、 林麗虹,〈數位浮水印技術發展現況:以典藏計畫為例〉,《第三屆數位典藏技術研討會》2004年8月,頁163~169;Steinebach, M., J. Dittmann & E. Neuhold "Digital Watermarking - Common watermarking techniques, Important Parameters, Applied mechanisms, Applications, Invertible watermarking, Content-fragile watermarking," http://encyclopedia.jrank.org/articles/pages/6725/Digital-Watermarking.html ,2010年1月27日下載。
[28] 中研院現代漢語平衡語料庫的查詢結果即不提供出處或完整段落,部份原因即是未獲得語料著作權所有人的足夠授權。
[29] Wang, Hsin-Min, Berlin Chen, Jen-Wei Kuo and Shih-Sian Cheng. 2005. "MATBN: A Mandarin Chinese Broadcast News Corpus," Computational Linguistics and Chinese Language Processing 10.2, pp.219-236.
[30] 圖片提供:台灣樂蘭企業股份有限公司。
[31] 同前註。
[32] 麥克風,維基百科,網頁:http://zh.wikipedia.org/zh-tw/。
[33] 此種麥克風的體積還是小於手握式的動圈式麥克風,重量也較輕。
[34]圖片提供:台灣樂 蘭企業股份有限公司。
[35] 圖片提供:IBM。
[36] 機架單位,維基百科網頁http://zh.wikipedia.org /zh-tw/机架单位。機架單位由美國電子工業聯明制訂,用來標定伺服器等設備的單 位,高為44.45mm,寬482.6mm。
全文下載 (32.3 MB, 2,479 hits)