1024x768 1280x800   Decrease font size for  - 拓展台灣數位典藏 - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 Reset to normal font size for  - 數位典藏與數位學習國家型科技計畫 拓展台灣數位典藏計畫網站 - 拓展台灣數位典藏 Increase font size for  - 拓展台灣數位典藏
 


現代漢語平衡語料庫數位化工作流程簡介

發表日期: 2008-08-08, 點閱數: 4,513 , 加入收藏櫃 , 加入書籤

 

 

計畫單位:中央研究院語言學研究所

 

計畫名稱:語言典藏計畫

 

計畫簡介

 

語料庫為本(corpus-based )的研究是近年來語言學及計算語言研究的一個重要發展〔Svartvik 1992, Church and Mercer 1993, 陳克健 1994, 黃居仁 1995 〕,其影響更遠及文學及社會學的計算研究。在語言研究的前提下,語料庫為理論語言學或自然語言處理研究所擔負的功能是在無窮衍生的語言事實中抽出一個具代表性的樣本來。這個樣本不能太大,否則易失去了抽樣的意義與優點;又不能太小,否則無法提供足夠的訊息,也無法提供大量素材進行統計研究或作為測試語料。因此語料庫構建的第一個大問題是如何在有限的語料中代表複雜的當代語言全貌。

 

「中央研究院現代漢語平衡語料庫」簡稱「研究院平衡語料庫」(Sinica Corpus ),是世界上第一個有完整詞類標記的漢語平衡語料庫。由於加詞類標記的漢語語料庫是史無前例的嚐試,這個語料庫是由中央研究院資訊所、語言所共同指導的詞庫小組完成的。該小組由陳克健(資訊所)、黃居仁 (語言所) 兩位研究員主持,自1990年前後便開始致力於中文語料庫的收集(Huang & Chen 1992),至1994年止已收集有近二千萬字之現代漢語語料及超過五百萬字之古代漢語語料(Huang 1994)。由於有了處理中文語料庫的經驗,及大量處理電子詞庫中詞條的經驗(陳克健等1991, Chen 1994),中央研究院詞知識庫小組覺得有足夠的實質與人力條件來進行耗時費力的漢語平衡語料庫建構。

 

因此,在1994年分別得到了中央研究院「中文資訊」跨所研究群之專案計畫及國科會計畫補助,乃開始著手進行現代漢語平衡語料庫的建構。為兼顧理想與實用性,初步目標定為兩百萬詞,為傳統小規模平衡語料庫之兩倍,1996年經計算中心設計規劃完成 WWW版,開放供各界使用,1997年開放的研究院語料庫3.0版已達到五百萬目詞的預計規模。2001年國家型數位典藏科技計畫展開,詞庫小組認為應持續收集近年之語料,使語料樣本能完整呈現二十世紀臺灣使用漢語的全貌,因此以新五百萬詞為目標進行知識典藏工作,目前介面已升級至4.0版,提供更完整的語料條件檢索功能。

 

(more…)

中央研究院 台灣動物相典藏之研究:魚類與貝類- 台灣貝類相之數位典藏

發表日期: 2008-08-08, 點閱數: 2,991 , 加入收藏櫃 , 加入書籤

單位:中研院動物所

 

計畫主持人:中研院動物所 巫文隆研究員

 

計畫目標:91年度主要目標為現有標本之數位化

 

計畫簡介

 

台灣位於世界貝類分布最廣、數量最多的印度-太平洋區,卻沒有較完整而可供參考的台灣貝類新的目錄發表。台灣238種的陸棲貝類,保守估計應有超過50%~60%為本土性的特有種,很值得我們關心與保育。但是近年來人口壓力增加、工業發展、污染持續擴大以及地震等天災造成棲地的破壞,貝類的種類及數量不斷減少,因此更需要加速建立台灣貝類的數位化典藏資料。本計畫以已建立的台灣貝類資料庫http://shell.sinica.edu.tw為基礎,建構完整的資料。

 

(more…)

國立自然科學博物館地質學典藏數位化計畫 無脊椎動物化石子計畫數位化工作流程簡介

發表日期: 2008-08-08, 點閱數: 6,538 , 加入收藏櫃 , 加入書籤

 

計畫單位:國立自然科學博物館

 

計畫名稱:地質學典藏數位化計畫─無脊椎動物化石子計畫

 

計畫執行年度:九十二~九十四年

 

計畫目標:

 

本計畫共分三年,九十二年先進行軟體動物的資料建檔,預計完成78筆246件典藏標本資料。九十三年執行腔腸、腕足、節肢、棘皮、筆石以及澄江動物群等化石資料庫建立,預計完成70筆250件標本資料之建檔。九十四年執行微體化石(包括有孔蟲、放射蟲、介形蟲、苔蘚蟲)之資料建檔,預計完成150件標本之資料。

 

計畫主持人:王士偉先生

 

計畫協同主持人:單希瑛女士

 

計畫簡介

 

無脊椎動物化石為台灣地區最常見之化石類別,目前國立自然科學博物館蒐藏標本大部分採集自台灣地區之新生代地層,其他來源地區包括中國大陸、印尼、日本、俄羅斯、歐洲、非洲、北美洲、南美洲,以及澳洲等。截至目前為止,本館所蒐藏無脊椎動物實體化石總數逾13,500件,主要包括(1)大型化石:腔腸動物(含現生)、腕足動物、軟體動物、節肢動物、棘皮動物、筆石動物等,約11,000件。(2)微體化石:有孔蟲、放射蟲、介形蟲、苔蘚動物等,約2,500件。此外,本館尚有60件澄江動物群化石標本,其中包括藻類、海綿動物、曳鰓動物、棘皮動物、腕足動物、節肢動物、頭索動物、生痕,以及數個目前仍然門類不明之動物與藻類標本,雖然標本數有限但在生物早期演化史中佔有重要地位,因此擬一併納入本數位典藏計畫之中。

 

國立自然科學博物館肩負蒐藏、保存、研究自然物及人類遺物的重大使命,館內地質學組主要蒐藏與地球演進及生物演化有關之標本,綜觀地質學組歷經近二十年的系統性蒐藏,無脊椎動物化石(含微體化石)蒐藏量已有13,500件。為使蒐藏品達至更佳之展示與教育功能,擬挑選具有代表性的無脊椎動物化石,進行數位化,以標本之掃瞄式電子顯微鏡數位實體影像、系統分類,以及標本描述等文字資料為主要呈現方式,部分標本甚至配合透光薄片之顯微照相或相關野外照相等予以輔助說明。期望藉此建立數位資料庫,呈現科博館各門類具有代表性之無脊椎動物化石,並提供業餘古生物愛好者與蒐藏家對相關資料之查詢,並提供各級學校與民間機構團體推廣教學之參考。

(more…)

中央研究院歷史語言研究所史語所藏內閣大庫檔案數位化流程簡介

發表日期: 2008-08-08, 點閱數: 3,617 , 加入收藏櫃 , 加入書籤

  

 

計畫單位:中央研究院歷史語言所

 

計畫名稱:珍藏歷史文物數位典藏計畫分支五—史語所藏內閣大庫檔案

 

計畫簡介

 

中央研究院歷史語言研究所(以下簡稱:史語所)典藏清代內閣大庫檔案約三十一萬件,包括詔令、題奏、移會、賀表、三法司案卷、實錄稿本、各種黃冊、簿冊等。

 

史語所自民國十八年購入此批檔案始,因環境與時代變遷,或斷或續,整理工作持續至今。民國九十年始,史語所參與中央研究院國家典藏數位化計畫,將內閣大庫檔案的整理納入重點計畫之一,主要目的在於尋求更多的人力、物力,加速檔案的整理工作、減緩檔案的毀損、促進檔案的開放,提昇檔案的利用價值,並同時盡到對國家財產保存與維護的使命與責任。

 

檔案的整理是一連串嚴謹的程序,牽涉學術、技術與經驗的整合,從實體到數位,要如何完整妥善地將檔案存在的價值,以及歷經時空轉換不同的意義予以呈現,並滿足不同使用者、研究者的各種需求,是一個艱難的課題。在此以史語所明清檔案工作室整理內閣大庫檔案,以及近年來因應時代科技的發展趨勢進行數位化作業的經驗,簡介內閣大庫檔案的數位化流程,提供相關的檔案典藏單位進行參考。

 

(more…)

中央研究院近代史研究所檔案館 外交經濟重要檔案數位化工作流程簡介

發表日期: 2008-08-08, 點閱數: 3,392 , 加入收藏櫃 , 加入書籤

 

 

計畫單位:中央研究院近代史研究所

 

計畫名稱:近代外交經濟重要檔案數位化計畫

 

計畫簡介

 

中央研究院近代史研究所籌備處於1955年2月成立,1965年4月正式設所,同年徵得清末以來外交部門的官方檔案,1966年經濟部亦移交大陸時期經濟檔案,長久以來,近史所檔案館庋藏的外交與經濟檔案,為研究清末民國時期外交、財經方面重要史料,數量龐大,利用頻率也相當高。為了長久保存這批史料,近史所檔案館於1991年進行檔案微縮的拍攝,1997年改以數位典藏,至2004年止,總計完成約300萬頁的影像檔案。

 

以下就數位化工作流程做一說明。

 

(more…)

國立自然科學博物館國家典藏數位化計畫 植物學典藏數位化計畫-臺灣維管束植物相子計畫 數位化工作流程介紹

發表日期: 2008-08-08, 點閱數: 3,912 , 加入收藏櫃 , 加入書籤

  

計畫單位:國立自然科學博物館植物學組維管束植物學門

 

計畫主持人:楊宗愈 副研究員

 

共同主持人:邱少婷 副研究員

                

                  陳志雄 助理研究員

                  

                  王秋美 助理研究員

 

計畫簡介

 

國立自然科學博物館植物蒐藏庫(標本館)在15年間,維管束植物的蒐藏量已達90,000份(若包括菌類、地衣、苔蘚、藻類則已超過110,000份),除了蒐藏有臺灣地區的植物種類外,也積極與世界其他植物標本館進行交換業務,並持續向大陸地區購買及交換標本,故已漸漸朝一國際級的植物標本館邁進。又國立自然科學博物館本身就負有科學教育的責任,故對有興趣的民眾,植物蒐藏庫的資料,也已提供了一定的資訊可以做鑑定、吸收等來源。

 

據初步估計,目前臺灣的原生維管束植物可能約4000種,而在這麼小的面積中擁有如此多種類,單位面積種歧異度之高,在世界上並不多見,換句話說,臺灣地區的維管束植物是地球上頗為珍貴的一個寶庫。近年來,由於人口的激增及臺灣經濟的高速成長,自然生態環境的被破壞也隨之加劇,生存於其間的動、植物是首當其衝,許多的物種均已面臨族群稀少、瀕危及絕種的危機。因此,建立一套詳細方便,並蓋括學術研究及科普教育的資料庫,更是刻不容緩之事,而將既有資料的數位化,應是此一資料庫的前行工作。

 

(more…)

閩南語兒童語料數位化工作流程簡介

發表日期: 2008-08-08, 點閱數: 6,317 , 加入收藏櫃 , 加入書籤

 

 

計畫單位:國立中正大學語言學研究所

 

計畫名稱:台灣兒童語料庫計畫

 

計畫簡介

 

「台灣兒童語料庫」Taiwan Child Language Corpus(簡稱TAICORP)是將所收集之台灣兒童口語錄音語料,依照世界標準的兒童語料交換系統 Child Language Data Exchange System(簡稱 CHILDES; MacWhinney and Snow 1985, MacWhinney 1995)格式,建構成語料庫。其主要目的在(1)提供國內外學者語料共享的便利性與語料分析工具;(2)藉由標準規格的設定,使台灣兒童語料的收集能更有系統、更有效率,並且快速地涵蓋台灣地區所有語言。語料庫最終將設立網站,開放國內外學者使用。

 

在新生一代普遍使用國語的時代背景之下,台灣閩南語兒童語言習得的語料彌足珍貴。本語料庫可提供語音學、音韻學、構詞學、句法學、語意學、語用學等不同層面的語言學與兒童語言習得研究,也可提供語音工程方面的研發與應用。本計畫由國立中正大學語言學研究所蔡素娟教授主持,從1997年10月開始錄音,經轉記、標記、格式化等過程,歷時將近九年。共收錄431人次錄音檔案,錄音總長共約330 小時。文字檔共約五十萬句,一百六十多萬詞。

 

(more…)

國立故宮博物院 清代軍機處檔案數位化工作流程簡介

發表日期: 2008-08-08, 點閱數: 5,429 , 加入收藏櫃 , 加入書籤

 

 

計畫單位:國立故宮博物院圖書文獻處

 

計畫名稱:故宮文物數位典藏系統之研製—故宮清代檔案數位典藏子計畫

 

計畫簡介

 

國立故宮博物院(以下簡稱故宮)所藏清代檔案,來自清宮舊藏。民國二十二年,日本侵華事起,故宮文物南遷,其後輾轉播遷,於民國三十八年運抵台灣,其中清代檔案共二百零四箱,包括:宮中檔—硃批奏摺(約十五萬件)、軍機處檔摺件(約十九萬件)、軍機處檔冊、內閣部院檔、史館檔等約四十萬件。民國五十七年故宮設立圖書文獻處,即著手將遷運來台的清代檔案開箱整理,盡發所藏,分類編號,摘由建卡,逐步於故宮附屬圖書館中開放借閱。民國七十一年所有清代檔案的整理工作完竣,出版《國立故宮博物院清代文獻檔案總目》,至此故宮所藏之清代檔案已全部公開。

 

在上列檔冊中,以「軍機處檔摺件」的紙質最為脆弱;故宮自民國八十五年起即編列預算,先以數位照相機拍攝方式,將「軍機處檔摺件」原件製成影像檔,存入光碟保存,經校對後發現其效果不如以掃描器所建的影像檔,因此自九十年度加入國家數位典藏計畫的同時,全面改用高析度掃描器繼續建檔,並將前以數位相機建置的影像檔進行校對,效果不佳者,再改以掃描方式重新建檔,至九十三年十月已完成十三萬件影像檔。配合影像檔的建置,亦建置目錄檢索檔,以內容提要、具奏人姓名、具奏人官職、具奏日期、硃批內容、硃批日期、文獻編號等七個欄位,為每件「軍機處檔摺件」建置檢索目錄,至九十二年底完成初步的自動化檢索系統,共十九萬件。目前則持續校對修改,並增建部分欄位資料,例如:展覽記錄、裱修狀況、借閱記錄、出版情況等,以臻至完善。

 

故宮圖書文獻處進行清代軍機處檔案的數位化工作,主要分成四個部分進行:一、軍機處檔摺件影像資料庫建置;二、軍機處檔摺件目錄資料庫建置;三、清代檔案文獻總目資料庫建置;四、軍機處檔人名權威檔建置。

 

 

(more…)

台灣大學植物標本館典藏數位化計畫 數位化工作流程

發表日期: 2008-08-08, 點閱數: 19,852 , 加入收藏櫃 , 加入書籤

 

 

單位:台灣大學植物學系標本館

 

計畫主持人:台灣大學植物系 謝長富先生

 

計畫簡介

 

國立台灣大學植物標本館成立於1928年,從日據時期便開始大量蒐藏台灣本地植物,迄今已有二十五萬份以上。這些標本代表台灣維管束植物種類百分之九十五以上,其中三分之二的標本為台灣地區固有的種類。由於從日據時期便開始蒐藏,除了藏有植物學上最珍貴的模式標本一千餘外,並藏有五十年前所採集的本省固有植物且深具研究價值的老標本六萬餘份。

 

為更有效利用及管理這些標本,本子計畫擬於五年內完成館藏資料庫之數位化並納入網站,以利永久典藏、學術研究、專業教學及通俗教育之用。

 

(more…)

國立自然科學博物館國家典藏數位化計畫 植物學典藏數位化計畫-台灣菌類子計畫 數位化工作流程

發表日期: 2008-08-08, 點閱數: 3,784 , 加入收藏櫃 , 加入書籤

 

 

單位:國立自然科學博物館植物學組真菌學門

 

計畫主持人:吳聲華 研究員

 

共同主持人:王也珍 研究員

                      

                  周文能 助理研究員

 

計畫簡介

 

菌類在地球上泛存於空氣、水、土壤以及各類生物的體表或體內。菌類在分類上的歧異度頗大,種類也很多。就體型而言,可小如肉眼看不到僅數微米大小的酵母菌,到可有數公尺直徑的大型多孔菌。真菌共有的特徵可歸納如下:

 

(1)為真核性生物

 

(2)以腐生、寄生或共生的型式進行異營性生活

 

(3)細胞被覆細胞壁,此細胞壁成份主要為幾丁質

 

(4)多數真菌由菌絲形成菌絲體構成其體型,並可於菌絲產生孢子以完成有性或無性繁殖

 

菌類在生物中為調查較少的,有近七萬種被描述過(Hawksworth,1991)。估計世界上應有一百五十萬種的菌類,而已知種類竟不到百分之五。

 

自然科學博物館旨在設立國家級自然物的蒐藏與研究。對於這些自然證物的典藏與研究可建立本地生物資源調查的基礎,進一步可為生物多樣性與保育以及其他研究之用。這些資料並形成諸項決策之參考依據。

 

進入二十一世紀知識的彙整已大量使用電子資料庫,而知識的快速求取查詢也可藉由網站串連到相關資料庫方便達成。資料的電子數位化方式所能達成的廣度、深度以及迅捷度是傳統出版品所不能及的。由前所述真菌為重要生物資源,具有重要生態及應用意義。對於博物館所典藏的真菌標本,在時代的潮流下,實應將此資料加以整理並進行電子數位化。藉此相關知識可以快速提供外界查詢,以提昇科學研究與教育的雙重目的。

 

(more…)