檢索技術與介面設計
Tags: none 發表: 2008-05-27, 點閱: 2,570 , 加入收藏櫃 , 列印 , 轉寄內容發展分項計畫 / 高芷彤
不同於一般網站架構, Googl網站採用搜尋引擎自網際網路蒐集訊息,經一定整理程序後,再提供給用戶進行查詢的系統。此搜尋引擎的工作原理大致可分為蒐集訊息、整理訊息、接受訊息等三項,是由spider自動搜索機器人程式連上每一個網頁上的超連結,再根據網頁鏈到其他中的超連結後,依照既定規則進行編排,因此當用戶向檢索引擎發出查詢時,由於資料是按照規則,因此無需重新查閱所有訊息,用戶能迅速檢索所要的資料。
由於Google本身的PageRank(網頁相關性的連結)、伺服器的高速緩存(檢索速度迅速)等兩個關鍵因素,雖然珊珊來遲的搜尋引擎能快速脫穎而出的關鍵。而Google print(已改為Google Book Search)則是本身搜尋引擎的一個小延伸而已,不過在Google print(已改為Google Book Search)搜索到的結果比較專業和集中。以下簡述Google基本檢索技術原理及其架構,並提出PageRank之於Google print(已改為Google Book Search)考量點,最後提出google print與Amazon的A9比較分析。
一、檢索技術
(一) 核心技術
1. PageRank?
採用同時進行系列運算以及相互鏈結之PC進行檢索,因此可縮短回應時間、提高可擴展性、降低成本等特色,有別於傳統的搜索引擎(取決於文字在網頁上出現的頻率)。PageRank? 利用檢查整個網路鏈結結構,確定哪些網頁重要性最高,然後進行超文本匹配分析,以確定哪些網頁與正在執行的特定搜索相關。在綜合考慮整體重要性以及與特定查詢的相關性之後,將最相關最可靠之搜索結果置於首位。
(1)PageRank? 基本原則
在Google工具欄可以隨時獲得某網頁的PageRank值,測量值範圍為從1至10分別表示某網頁的重要性。是以網頁 A 指向網頁 B 的鏈結解釋為由網頁 A 對網頁 B 所投一票。這樣,PageRank 會根據網頁 B 所收到的投票數量來評估該頁的重要性。
(2)PageRank? 計算觀念
將排名比重轉移到了網頁意外的原素上。認為網頁超連結(hyperlink)之特性結構,類似於用來計算學術論文被引用次數的引文分析(citation analysis)。網頁彼此連結的關係可分為連結(forward links)與被連結(backlinks)兩種(見圖一),視連結與被連結為引用(citing)與被引用(cited)的關係。被連結較多的網頁如同被引用較多,代表該網頁具有較高的重要性,網頁排名值亦較高,並且若是被重要性較高的網頁所連結,則被連結網頁的重要性與排名值也相對較高。
(3)網頁連結與排名值的關係
如(圖二)所示。網頁A的排名值為100,含有兩個連結(forward links),連結出去排名值平均為50。網頁B排名值為9,含有三個連結(forward links),連結出去排名值平均為3。網頁C被網頁A與網頁B所連結(backlinks),故總排名值為53。網頁D只被網頁A所連結(backlinks),故排名值為50。
A. 重要訊息置於首位
通過對由超過 50,000 萬個變數和 20 億個辭彙組成的方程進行計算,可對網頁之重要性做出客觀的評價,但不計算直接鏈結的數量。
B. 不受人工干預或操縱
Google 技術使用網上反饋的綜合資訊來確定某個網頁的重要性,因此廣受用戶信賴、不受付費排名影響且公正客觀的資訊來源。
C. 隨時調整排名
自從去年11月15號以來,Google始終在對排名演算法進行調整,有很多原來排名大幅下降的網站現在不但恢復了排名,而且位置較以往有了顯著提升。
2. 關鍵詞詞幹法(Keyword Stemming)
詞幹法進行搜索服務為Google之另外一個變化。若以 “dietary” 鍵入檢索框中,會得到一些基於“diet”的搜索結果。也就是說,此技術不再拘泥搜索與輸入查詢完全相同的詞語,亦會向用戶提供與部分或所有查詢詞語相近的搜索結果。例如,對於查詢詞語“pet lemur dietary needs”,Google也會顯示“pet lemur diet needs”及其它詞性變化形式的搜索結果。而且對於搜索結果頁上出現的查詢詞本身及其不同的變化形式,Google會以粗體突出表示。”
3. 超文本匹配分析
也就是分析網頁內容,掃描不再基於網頁文本(也就是,網站發佈商可以通過元標記控制這類文本)的方式,而採用分析網頁的全部內容以及字體、分區及每個文字精確位置等因素,並分析相鄰網頁的內容,以確保返回與用戶查詢最相關的結果,以下提出書籍標題以及書籍內文等兩種不同檢索方式之觀點。
(1)書籍標題的檢索方式
以”intitle:patent”為檢索字串,共有53本書籍在”書名”中包含”patent”字串,並且共有23700頁”內文頁”中出現”patent”。也可發現,Google關鍵字同樣會列在右手邊。若點選進入其中一本。基本上,一次只能瀏覽五頁的內文,也就是Google Print提供的瀏覽內文內容包括檢索頁與該頁前後兩頁。
(2)書籍內文的檢索方式
另一個書籍內文的檢索方式,其功能與檢索網頁內容一般,可利用關鍵字與布林邏輯進行書籍全文檢索。以”patent +strategy”為檢索字串,再點選進入其中之第一頁,可見在內文頁中以黃標標示之相關關鍵字。
(二)Google print PageRank之考量點
1. 出版商提供書本
由內容出版商提供書本內容的搜索結果,並提供連向購買書本的網頁以及內容相關廣告。
2. 五大圖書館書籍
結合五大圖書館擴充功能,圖書館和圖書的出版狀況來為考量點依據。因此用戶可找到圖書的簡要擷選,評論以及作者簡介等,甚至可能找到書籍的外觀照片。搜索結果提供在此書書商之相關連結以及google的相關廣告。
(三)Google print V.S. A9
二、介面設計
1. 所收錄書籍之檢索畫面
2. 書籍內文之檢索畫面
目前Google print計畫數位化書籍分為三個執行項目,第一,屬公共財者,Google計畫提供全文搜尋;其二,有版權保護的,Google將與出版者磋商如何顯示搜尋結果;其三,無法聯繫出版者的,則僅顯示短篇摘錄或書目資料。其中第二類圖書,在洽妥出版者之後,除提供書籍全文,並顯示連結,其廣告則與出版商共用擊鍵付費,其餘二者則會顯示任何廣告資訊。因此以下呈現三種數位化書籍不同執行項目之不同介面設計方式。
(1)三種結果
(2)主要功能介紹
A. The search term that led you the book is highlighted on hype page. (以黃標標示關鍵字)
B. Enter new keywords to conduct more searches within the book. (其他關鍵字之檢索功能)
C. Read book excepts and view reference information about the book. (除書籍內文訊息外之相關資訊功能)
D. Buy this Book links take you to online book stores where you can buy the book immediately. (可連結至書商購買書籍之功能)
E. Learn more about the publisher and view other books they offer. (查詢書商提供之相關資料功能)
F. Targeted, relevant ads provide you with links to related products and services. (相關產品和服務之廣告功能)