關於Million Book Project
內容發展分項計畫 / 李佩瑛
Million Book Project(以下簡稱MBP)由Carnegie Mellon University資訊工程學系與圖書館領導,為一大型書籍數位化計劃,目標於2007年完成百萬本書籍的數位化工作,希望能提供大眾全文檢索與免費網路瀏覽的功能。主要參與國家為美國、印度與中國大陸,並於印度、中國大陸設有大型的掃描中心,印度計有22所,中國大陸計有18所,除了前述兩地之外於埃及、夏威夷、Carnegie Mellon University也有掃描工作進行。
不同於Google Book Search內含商業機制並著重於強而有力的書籍檢索,MBP較傾向於知識的流通、永續性與促進新知識的形成,是以書籍內容為主的數位化計畫 。除此之外MBP也重視數位化技術,如:光學符號識軟體(Optical Character Recognition, OCR)的準確性、建構性後設資料的自動產生、智慧型索引…等。
由於MBP含有書籍全文檢索的功能,因此在書籍的版權方面也須格外注意,MBP的書籍來源多半為大學院校圖書館的書籍,或是技術報告、政府文件之類,某些由大學院校自行出版的出版品取得版權較為容易,並會在掃描後歸還圖書館,其他書籍則部分來自募款單位或是於圖書館更新書籍時取得部分淘汰的書籍。但大致來說MBP所收藏的書籍與Google不盡相同,除上述來源之外,MBP也收藏聯合國食品與農業組織與的相關文件。
MBP數位化的規格為600dpi的TIFF檔,加以掃描修正,再使用光學符號識軟體處理英文或印度文..等相關書籍文件,或是其他語系書籍文件。所有掃描完的書籍,由Carnegie Mellon University彙整檔案,目標是將達成20兆位元的龐大資料庫交由印度、中國大陸、美國三地共十個機構管理,目前網路上已運作的為美國的The Universal Library與印度政府的Digital Library of India。
但由於MBP的掃描工作多半於美國境外完成,除印度本地的資料之外,大部分的書籍資料須由美國運送至印度或中國大陸,在成本方面都須耗費相當的人力與資金,與在Google Book Search相較之下就顯得困難許多。
相關聯結:
1. http://www.library.cmu.edu/Libraries/MBP_FAQ.html (Frequently Asked Questions)
2. http://tera-3.ul.cs.cmu.edu/ (the Universal Library)
3. http://www.ulib.org.cn/ (Universal Library, China site)
4. http://udl.iiita.ac.in (The Universal Digital Library of India)
5. http://dli.iiit.ac.in/ (Digital Library of India)
6. http://www.archive.org/details/millionbooks (the archived pilot)
7. http://www.ulib.org/html/index.html (The Universal Library)
8. http://dli.iiit.ac.in/ (Digital Library of India)