数据驱动:从方法到实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

搜索引擎发展

搜索引擎的发展共经历了三大阶段,分别是内容相关性、网页链接关系和基于用户行为。

最初,所有的搜索引擎都基于关键词匹配相关内容,只要检索的关键词与实际网页内容匹配就可以显示。但是随着内容增多,排序就成了问题。同时,作弊现象也开始出现,如果将垃圾页面塞进去,网民根本无法搜索到有用的内容。

搜索引擎第二个阶段,即基于链接关系决定排序。当时,谷歌的拉里·佩奇、道琼斯公司的李彦宏,还有乔恩·克莱伯格教授,他们三人都意识到,链接本身很重要,一个网页被链接多少次,决定这个网页本身的权重是多少。

这也是谷歌、百度起家的技术,许多人以为百度抄袭了谷歌,但我通过研究李彦宏和拉里·佩奇的专利,发现李彦宏的专利是在1997年提交的,拉里·佩奇的专利是在1998年提交的,可见李彦宏还更早一些。

2005年左右,搜索引擎进入第三个阶段——基于用户行为。通过网页链接关系可以将高质量的网页排在前面,然而,随着新内容的不断增加,这种方式又暴露了新的问题。比如某个明星曝出了新绯闻,而一些老的内容具有更高的权重,被排在前面。在用户搜索时,会点击排在靠后位置的新内容。这样,搜索引擎就可以利用记录的“用户点击”数据,来实时调整结果页的排序,将点击更多的结果排在前面。也就是说,通过用户行为数据,搜索引擎具有更好的效果。到目前为止,用户行为已经占据搜索引擎非常大的比重,根据一些业内专家的说法,用户行为权重已经超过50%。