盤據中文線上國學搜尋的大宗-百度搜尋引擎(Baidu.com)
Tags: 掃描, 搜尋引擎 發表: 2008-05-27, 點閱: 4,715 , 加入收藏櫃 , 列印 , 轉寄內容發展分項計畫/ 高芷彤
百度搜尋引擎公司Baidu.com由超鏈分析專利發明人李彥宏及其好友徐勇在美國矽谷成立公司,並於2000年回到中國,以專門搜索和收錄中文網頁之搜尋引擎為主。Baidu創辦人李彥宏以辛棄疾的《青玉案》中的「萬里尋他千百度」來象徵對於追求中文資訊檢索技術的執著。他主要產品及服務是針對不同企業及各機構網路化的基本需求而設計的,分為對於全球互聯網的中文網頁檢索,以及對於解決企業級的資訊檢索等兩方面,此外Baidu還利用遍佈在全國龐大的CDN網路提供的資訊傳遞技術(即網站加速及網路緩存技術),它的使用者包括深圳商報,四川新聞網,中國基礎教育網等。2001年正式發佈Baidu搜尋引擎,專注於中文搜索的層面,提出競價排名的服務。此服務是以用戶(通常為企業)為自己的網頁出資購買關鍵字排名,按點擊計費的一種服務。不同於Google以PageRank排名,Baidu通過競價排名,搜索結果的順序將根據競價的多少由高到低排列,同時奉行不點擊不收費的原則。也就是說,Baidu將自己的搜索引擎變成廣告平台,提供用戶(通常為企業)在虛擬平台上廣告行銷。由於以Baidu提出的統計報表為主,因此要特別注意是否有與用戶提出統計量相異的矛盾產生,樂臣數碼公司則是在這遊戲規則下提出質疑以及訴訟的用戶。
圖表 1、http://www.baigoodugle.com/
究竟,Baidu是如何建構其搜索引擎,其又有何特色?
圖表 2、百度搜尋引擎架構圖
搜索引擎由四部分組成:蜘蛛程式、監控程序、索引資料庫、檢索程式。門戶網站只需將用戶查詢內容和一些相關參數傳遞到Baidu搜索引擎伺服器上,後臺程式就會自動工作並將最終結果返回給網站。使用了高性能的"網路蜘蛛"程式自動的在互聯網中搜索資訊,可定制、高擴展性的調度演算法使得搜索器能在極短的時間內收集到最大數量的互聯網資訊。Baidu在中國各地和美國均設有伺服器,搜索範圍涵蓋了中國大陸、香港、臺灣、澳門、新加坡等華語地區以及北美、歐洲的部分站點。目前世界上最大的中文資訊庫,總量達到6000萬頁以上。另外,在檢索特色方面以Baidu於2006年推出的「國學頻道」服務為例,主要由大陸地區的「國學網」提供包含10多萬網頁、1.4億多字等資訊,用戶可檢索到上起先秦、下至清末兩千多年以漢字為載體的歷史典籍等以文字方面為主的內容。雖然典籍中常出現一些消逝的古文字,Baidu正逐步地計畫將消失的古文字技術問題解決後,未來將擴大包含圖片、拓片等掃描內容,甚至包含古典音樂等。與Google同時推出的中文學術搜索(Scholar Search)相比,在Scholar Search可檢索到論文、書籍、學術文獻、技術報告,內容除包含有國學外同時涵蓋物理、醫學、化學、哲學等學科,而Baidu除加深國學學科的深度外,更有語言檢索技術的優勢,也就是,Google學術搜索和百度國學頻道的區別在於,一個是著重「當代學術資料」、一個是以「古代文學資料」為主,雖然兩者的區別較大,但都反映兩家公司對中文文化的重視及其企圖心,同時也可預測未來中文市場迫切的需求量。
隨著新的2006年度開始,Google與Baidu各自對所屬的搜尋引擎有革命性的規劃,有專業人士甚至明確地預測認為在2006年Google和百度肯定會推出更多有關中文本土文化的產品,此外在行銷策略方面、銷售管道方面兩者也將可能遇到本地化的碰撞,盡管如此相信會為華人中文搜尋引擎帶來新商機。