如果你想擁有上帝的地位,那么,要同時肩負上帝的責任。--- 克里斯托弗.埃克爾斯通在 《上帝之子耶穌基督》劇中臺詞。
Google的界面是我有生以來見過的最簡單的網站用戶界面,也是我所認為的最美的界面。它很好的詮釋了一句哲學的老話:簡單就是美。你在這個界面上唯一所要做的事情,就是想想你現在想干什么,你想知道什么。然后就是,用最恰當的詞句來描繪你的想法,把它輸入到Google唯一的入口,一個輸入框,回車。就那么簡單。
在大約幾秒鐘之后,你將看到許多和你的想法極其相關的內容出現。然后你點擊相應的鏈接,進入你想進入的某個地方。或許是某個賣特殊商品的網站,或者是某個數字圖書館,總之無論是什么地方,八九不離十的那些都是你確實想去的地方。很神奇吧,這就是為什么現在Google會很火的原因。Google讓你在簡單的行為中獲得你預期的東西。
然而,Google簡單的背后卻不那么簡單,讓我們跟隨本文一步步地去看看那逐漸消失的地平線后發生了什么?是那遙遠的香格里拉嗎?:)
技術背后的思想
當你在Google的輸入框敲入某個詞句后回車并獲得你想要的相關信息列表時,是斯坦福大學博士研究生佩奇發明的一個名叫PageRank的算法在幫你做出判斷,算出某些網頁就是你所需要的信息。同時它還對這些信息按某種算法所認為的重要性來給你排序,幫你完成它所認為的最優的信息檢索。
如果讓人來猜猜這算法背后究竟發生了些什么?很多人會下意識地首先地想到關鍵詞算法搜索。其實不然,更進一步,假如真是用關鍵詞搜索。那么對于一些具有相同數量關鍵詞的網頁的優先級如何確定呢?更重要的是對那些被虛假的關鍵詞淹沒了的虛假的內容齷齪的網頁該怎么辦呢?
在Google出現之前,早已經有些比較有名的搜索引擎了。它們是Yahoo、Excite、Infoseek和Lycos等,它們的共同之處就是當時都是用關鍵詞搜索算法來進行網頁的搜索。使用這種算法來進行搜索的弊病就是搜索的結果往往不準確。不準確的原因多種多樣,但最主要的是那些想依靠搜索引擎為自己謀利而且很容易達到目的的人的一種簡單做法。他們是怎么做的呢?對于這些聰明的作弊者來說,他們只要在自己想要宣傳的網頁里放上很多的讀者看不到(白色背景白色字)卻確實存在于網頁里的網絡上常用的關鍵詞,這樣的結果可想而知。這就是為什么1998年的時候,Lycos提供的同“汽車”對應的搜索結果大多都是色情網站。
當你輸入汽車、閱讀和論文,然而大部分的搜索結果卻是色情網站時,你的心態會是怎樣的糟糕呢?你會喪失對這些搜索引擎最起碼的耐心,同時也就是說這些搜索引擎對你失去了可信度。而信任是任何人類持續相互交流的最根本的基礎。
PageRank算法很好的處理了上述所說的問題。當然不可能完全解決搜索結果的欺騙問題,因為算法是死的,而人腦是活的。只要有利用搜索結果獲利的機會存在,比如SEO(搜索引擎優化)產業,就會有作弊與反作弊的爭斗。而本文所要講述的是技術背后的思想,所以我們不會對這個問題進行長篇累牘的討論。
PageRank算法的處理機制主要是,對URL(因特網鏈接)里的文本進行搜索,接著對搜索到的結果,數量巨大的網頁進行評級。PageRank算法的核心部分就是它的評級機制。它的思想主要來自于學術界的文獻計量學里以引文為基礎的權威性計量方式。也就是說你引用他人研究成果的行為,反映了這些作品對你的研究而言所代表的等級和權威性。用類比推理的轉換,我們很自然的發現這樣的權威性計量方式也適用于因特網上網頁的計量和評級。
以一個網頁為例,它會對它所關切的內容有相應數量的鏈接,與此同時會有某些網頁會對該網頁有鏈接,只要它們覺得該網頁對它們的內容有用。從某種角度來說,網頁的引用往往是相互的,其復雜度要大過學術界里論文的引用。不過從邏輯聯系的強度來說,網頁引用的嚴密性又要大大小于學術界的論文引用,但這對于普通意義上的使用強度來說,已經足夠了。畢竟Google不是幫人寫論文作研究,而只是幫助人找到相關的信息或者說內容,至于它們之間的邏輯關系有賴于使用者來定義和界定,否則世界萬物都可以由Google來完成了。
PageRank算法的使用還間接的給出了一個不容易看出的事實。即通過它的排序和輸出以及分流那些潛在的點擊流量,它反映了當前社會上的時尚和流行趨勢,當然這里的時尚是廣義的定義,既可以是流行時裝也可以是某門學科或者知識。換句話說,Google可以通過記錄使用者的點擊來構成它自己的點擊流數據庫,從中可以發現人們的渴望、需求、向往和偏好等。
對PageRank算法的分析以及Google被使用的程度我們可以看到,真正使Google成為一個著名的搜索引擎不是別的什么東西,而是Google搜索引擎本身內在的邏輯比較真實或者接近的反映了使用搜索引擎的使用者在使用Google過程中的邏輯,因此Google的用戶和Google的關系是建立在可以重復多次的持續的信任基礎上的。更深刻一點的分析,我們可以發現一個能普遍流行的事物總是有著和存在著的或者說潛在的流行思想相吻合的共通之處。
在后續的系列文章中以及在本文的后續篇幅中我們仍將繼續討論可信度這個問題。從某種程度上我們可以說Google的奇跡就是建立在這三個字的基礎之上的。
注:本篇文章的部分的內容要么完全要么大部分出自約翰. 巴特利先生的著作《The Search》。
(第三媒體 2006-07-24)