伍、語料庫加值應用與展望
語料庫或許對一般大眾來說是一陌生且深奧的,但事實上,諸如語言翻譯(機器翻譯)、雙語教學系統…等這些早就為普羅大眾所熟悉的名詞, 它們的共同根源都是來自於語料庫。
(一)機器翻譯
以線上即時翻譯來說,它的前身即為機器翻譯,Machine Translation (簡稱MT)為一種電腦應用系統,可以將文章由一種自然語言翻譯成另一種自然語言。MT並非新興技術,其構想起於40年代末期,由於科學家、工程學家、經濟學者、企業家…等人有閱讀大量文件或使用非母語溝通的需要,如遇此種情形,具有翻譯能力的人往往供不應求,而機器翻譯正好可以紓解這樣的供需。再者,學者專家一向有去除語言障礙能促進國際之間的合作與和平的理想,機器翻譯於焉誕生。
在這樣的構想還頗為模糊的時期,Warren Weaver(1894–1978)可謂機器翻譯的先驅,他於1947年寄給電腦控制學家Norbert Wiener的信件,以及與英國放射結晶學家Andrew Booth的對話中首先提出機器翻譯的構想,並在兩年之後撰寫了闡述相關理念的備忘錄「Translation」,並成為日後的The Weaver memorandum(1949),堪稱當時較為具體兼具代表性的文章。
機器翻譯雖然是由簡單的概念而來,但其背後的運作方式卻是相對的複雜,需透過文法、語義學、語法、片語…等分析,經拆解成符號後再重新組合。這種類型的機器翻譯需要龐大的辭彙,包含形態學、語法規則與語義資訊,但單一的機器翻譯形式並不能完全滿足需要,於是逐漸產生因應各式需求的機器翻譯形式。
1954年由美國喬治城大學與IBM合作的實驗,成功的將超過60句俄文翻譯成英文,雖然只簡單使用六種文法規則與250種字彙,無疑這也展現了機器翻譯的可行性,同時啟發了全球對於機器翻譯的興趣,尤其是當時的蘇聯。
在1953年艾森豪(Dwight D. Eisenhower, 1953-1961)上任之後,由私人翻譯Leon Dostert主導關於翻譯方面的事務,也曾經於中情局(Central Intelligence Agency)服務,他曾被邀請至喬治城大學設置語言與語言學機構,替政府訓練語言學以及翻譯相關人才。他在參加1952年於麻省理工舉辦的第一次MT會議之後,由原本對機器翻譯的存疑轉為熱衷,積極想實現與展現機器翻譯的可能性,他找來舊識、同時也是IBM的創辦人Thomas J. Watson一同展開跨機構合作。基於政治因素,實驗展示以俄翻英為主,但只運用了六種規則、250個字彙與有限的句型,並以IBM原提供美國國防部使用的IBM701系列電腦進行運算。
IBM701的辨讀方式是靠讀卡機,所謂的卡片上有80個欄位,可用欄位共72個,需先鍵入並儲存於中間磁鼓記憶體(intermediate drum storage)才能辨讀。實驗展示由一位對俄文並不熟悉的女性操作員以英文字體鍵入”Mi pyeryedayem mislyi posryedstvom ryechi.”,電腦經60000次的運算處理過後以打字方式輸出“We transmit thoughts by means of speech.”, 接著她又鍵入一連串的字彙“Vyelyichyina ugla opryedyelyayatsya otnoshyenyiyem dlyini dugi k radyiusu.”輸出的結果則是“Magnitude of angle is determined by the relation of length of arc to radius.”
屏除實驗中途曾有兩次當機之外,此次的實驗展示可以說相當成功的表現了機器翻譯的可能性,也引起當時媒體爭相報導,試想只要靠著這樣的機器,便可以將自己完全不熟識的語言轉換成自己的語言,對於一般大眾這也無疑是劃時代的創舉。
對於俄國人來說,這樣的展示也頗具威脅性,於是也從史達林(Joseph Stalin, 1879 -1953)死後開始進行機器翻譯的實驗,並於1956年初展示相關成果,系統依循IBM-Georgetown的模式。喬治城大學則在1956年初獲得一筆國家科學基金,展開大規模的俄翻英研發,並組織了超過20位研究人員,1957年研究人員由原先的二大組轉換成自由競爭的方式而細分為四個不同項目,藉以延伸各種不同的研究方式可能性。但這些研究在1964年ALPAC出現之後則進入機器翻譯的黑暗時期。
後續的十年有許多不同的政府機構與學術團體致力於MT的研究與開發,如IBM替美國空軍完成的俄翻英系統。其他的學術團體如麻省理工、哈佛大學、柏克萊大學…等則致力於理論研究,也開發出早期的人工國際語言與轉換系統(e.g. MIT與Cambridge Language Research Unit, CLRU)。
但1964年由美國政府贊助的機構ALPAC(Automatic Language Processing Advisory Committee)卻於1966年撰寫的一份報告中扼殺了MT的發展,報告中指出MT並未能正確有效的翻譯,與人工翻譯相較之下成本為其二倍,並沒有迫切發展的需要。自此之後MT於美國發展趨緩,而加拿大、歐洲等地則因當地的語系較繁雜逐漸產生需要,與當初美國針對俄文與技術層面的發展不盡相同。
後期的MT則逐漸全球化,在80年代左右則有跨國合作的商用MT系統出現,如Systran這樣的電腦翻譯軟體也廣泛的被國際組織與企業採用。在80年這樣的市場熱潮領導了人們對於MT的一些省思與注意,無論是結合人工智慧與新的語言學理論,MT的前景令人期待,但最終都是希望能提供人際溝通之間便利的工具,與文化之間的融合了解。
(二)機器翻譯—以SYSTRAN為例
科學昌明不僅僅帶來工業上的進步,也逐漸的帶全球化,甚至演變成全球本土化的趨勢,各式文本的流通與人際傳播對於無暇聘請專業翻譯人才的機構、企業來說成為課題,於是使用由機器翻譯進化的翻譯軟體就成了一種迅速的解決方案。
SYSTRAN可說是翻譯軟體的先驅,由匈牙利裔科學家Peter Toma發明,他於50年代末期移居加州,並於La Jolla成立了SYSTRAN,取自於System Translation的簡稱。公司成立之後曾在1969年為美國空軍研發俄譯英的系統,並陸續為美國國家空情局(US National Air Intelligence Center)研發出數套西歐語系的系統,並於南斯拉夫內亂時替美國政府研發出第一套塞爾維亞-克魯埃西亞文對英文(Serbo-Croation-to-English)的系統。
而SYSTRAN的專利技術也不止用於美國,繼1974到75年美國太空總署的阿波羅聯盟號計畫(Apollo-Soyuz Test Project)俄英系統之後,也為未來歐盟所使用的系統奠定了良好的基礎,由最初的英譯法原型之後,陸續提供各種歐系語言的系統,至今已有17種翻譯系統於歐盟與其他歐洲相關機構使用。
以歐盟所使用的系統來說,當時仍需設置終端機與用戶端做連結,尚未進化為線上軟體,用戶只須將需要翻譯的文件透過電子郵件的形式寄到一特殊信箱M152,經辨識需求的代碼之後,用戶會在數分鐘或半小時之內不等的時間內,同樣以電子郵件的方式收到翻譯的文件。(圖一)
圖一:M152翻譯系統
|
在1992年SYSTRAN開始轉移技術至個人電腦,至1997年則發行了配合微軟視窗的專業版,並積極與企業合作,如:支援SEIKO的攜帶型翻譯機,或是與SONY合作研發線上遊戲軟體平臺,許多跨國企業也因為整合的需要而使用SYSTRAN的翻譯系統,以免人工翻譯耗費時間,爭取更快速的運作。
列舉SYSTRAN的大型客戶如下:
- Bentley
|
- Mercedes-Benz
|
- Bombardier
|
- NEC(Japan)
|
- Chemical Abstract
|
- Phillip Morris
|
- Cisco
|
- Saint-Gobain
|
- Ford
|
- Sony
|
- France Telecom
|
- Toyota
|
- O.C.E.D.
|
- Dassault
|
- Daimler Chrysler
|
|
在90年代網際網路逐漸起步之後,SYSTRAN讓一些逐漸擴張的網路社群意識到機器翻譯能夠在增強網路的功能與相容性,於是如當時較大型的入口網站Alta Vista就加入線上翻譯的服務,稱為Babelfish,其他的入口網站如Lycos, Wanadoo, Free, Yahoo!, Google之後也陸續加入,而目前則以Google以獨特運算方式勝出而使用者眾。在資訊爆炸的時代,人們不須再花費壟長的時間學習異國語言,雖說人工翻譯的確有周全性,但翻譯軟體所能提供的迅速也確實是可以肯定的。
(二)學習者語料庫
最早的學習者語料庫是八O年代末期所建立的朗曼學習者語料庫(Longman Learners’ Corpus)。九O年代中期,比利時魯汶大學 Centre for English Corpus Linguistics 的Sylvaine Granger建立了國際學習者英語語料庫(International Corpus of Learner English, ICLE),該語料庫是一廣泛國際合作的計畫,現存有超過二百萬詞,存有十四種不同母語背景的英文學習者語料,此外,香港科技大學也建置了類似的學習者語料庫 The HKUST(Hong Kong University of Science and Technology) Corpus of Learner English 。現代學習者語料庫常與學習者中間語(inter language)分析連結並做比對,將學習者語言看成是一種規則系統並普遍存在於學習者之間。
以台灣為例,國立成功大學的外國語文學系也建置了「成大英語學習網站及網路英檢系統計畫」,從2006年起為提升全成大學生的英語能力,購買英語教學網路平台、建立網路英語能力檢測系統、並建立網路多媒體互動英語學習課程。此計畫希望能鼓勵英語教師提昇本身應用資訊科技的能力,並以該能力運用在線上英語教學教材,讓學生在上課時能同時增進外語能力及電腦科技應用知能。此類課程也將成為成大之特色,對於校內學生以及修習校內課程之國際學生也是一項福音。
計畫內容包括:
(一)線上英語能力檢測系統
1. 建立網路測驗系統軟硬體設備
2. 完成編寫英語能力檢驗題庫及分級
3. 測試線上英語能力檢測系統並評估及改良
4. 開放檢測供全校學生(免費)及社會人士(可收費)修習使用
(二)多功能英語資源教室
1. 規劃教室之功能及購置軟硬體視聽設備
2. 完成教室之設置並啟用以服務學生
3. 規劃資源教室與課程之整合
4. 全系教師視聽媒體教學專業成長
(三)線上英語課程
1. 規劃線上語文課程內容及實施方式,完成軟硬體設備建置
2. 提供學生可選擇之線上課程,讓學生不受時空的限制,進行線上學習。
3. 線上課程實施評量及修訂,學生可依評量的結果,選擇適當的課程學習。
4. 增加課程供全校學生(免費)及社會人士(可收費)修習使用
5. 課程內容融合聽、說、讀、寫四種語言技能的訓練,題材取自與日常生活相關的食、衣、住、行、育、樂六大主題。更可加入當下流行的元素及話題,提供豐富多元的課程內容讓學生能夠藉由學習語言連結比較中西文化。
6. 因應政府擬定95學年欲實施之政策,線上學習之課程承認其學分數,更可獲得學位,經由網路學習來獲得學分和學位已成為時代的趨勢。
其中屬數位英語教材之CANDLE(Corpus and NLP for Digital Learning of English)
系統乃由國立清華大學劉顯親教授「前瞻性數位語言學習中心」研發團隊從2003年至2006年國科會數位學習國家型計劃推動下所製作數位英語學習教材。
根據該計劃的內容,利用最先進之語料庫及自然語言處理工具來建立網路電腦系統內之學習支援,並建立一學習中心CANDLE,以協助英語學習。根據學生英文程度,提供合宜之聽、說、讀、寫、文化、翻譯之教材,以及合適的練習題目以精練其英語技能。除一般英文語料庫,CANDLE準備大量運用中英雙語之「光華雜誌」語料庫,其內容主要報導現代台灣之各方面資訊;雙語語料庫在計算機學界是極具前瞻性之研究議題,系統中採用雙語語料庫,讓成大學生在學習系統中善用學習者之母語長處及原有之本國背景知識學英文,這是學生心理及系統上之「電腦化」學習支援。現階段CANDLE系統提供了學生聽、說、讀、寫的練習以及全文翻譯與檢索的功能。
〈目錄〉
語料庫數位化工作流程指南 (324.6 KB, 3,236 hits)
評分:
Loading ...