SEO实战密码:60天网站流量提高20倍(第4版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.5.4 Google PR值

PR值是PageRank的缩写。Google PR理论是所有基于链接的搜索引擎理论中最有名的。SEO人员可能不清楚本节介绍的其他链接理论,但不可能不知道PR值。

PR值是Google创始人之一拉里·佩奇发明的,是用于表示页面重要性的概念。简单来说,反向链接越多的页面就是越重要的页面,PR值也就越高。

PR值的专利发明人是拉里·佩奇,专利所有人是斯坦福大学,Google公司拥有永久性排他使用权。

Google PR值的概念与科技文献中互相引用的概念相似,被其他文献引用较多的文献,很可能是比较重要的文献。

1.PR值的概念和计算

我们可以把互联网理解为由节点及链接组成的有向图,页面就是一个个节点,页面之间的有向链接传递着页面的重要性。一个链接传递的PR值首先取决于链接所在页面的PR值,发出链接的页面本身PR值越高,所能传递出去的PR值也越高。传递的PR值也取决于页面上的导出链接数目。对于给定PR值的页面来说,假设能传递到下级页面100份PR值,如果页面上有10个导出链接,那么每个链接能传递10份PR值;如果页面上有20个导出链接,那么每个链接只能传递5份PR值。所以一个页面的PR值取决于导入链接总数,链接源页面的PR值,以及链接源页面上的导出链接数目。

PR值计算公式是:

PR(A)=(1-d)+d(PR(t1)/Ct1)+…+PR(tn)/Ctn))

A代表页面A。

PR(A)则代表页面A的PR值。

d为阻尼指数。通常认为d=0.85。

t 1tn代表链接向页面A的页面t1tn

C代表页面上的导出链接数目。Ct1)即为页面t1上的导出链接数目。

从PR值的概念及计算公式都可以看到,PR值必须经过多次迭代计算才能得到。页面A的PR值取决于链接向A的页面t1至页面tn的PR值,而页面t1至页面tn的PR值又取决于其他页面的PR值,其中很可能还包含页面A。计算时先给所有页面设定一个初始值,经过一定次数的迭代计算后,各个页面的PR值将趋于稳定,收敛到一个特定值。研究证明,无论初始值怎么选取,经过迭代计算的最终PR值不会受到影响。

下面对阻尼系数进行简要说明。如图2-41所示是一个链接构成的循环(实际网络上是一定存在这种循环的)。外部页面Y向循环注入PR值,循环中的页面不停地迭代传递PR值,如果没有阻尼系数,循环中的页面PR值将达到无穷大。引入阻尼系数,使PR值在传递时自然衰减,才能将PR值计算稳定在一个值上。

图2-41 链接构成的循环

2.PR值的两个比喻模型

关于PR值有两个著名的比喻。一个比喻是投票。链接就像民主投票一样,A页面链接到B页面,就意味着A页面对B页面投了一票,使B页面的重要性提高。同时,A页面本身的PR值决定了A所能投出去的投票力,PR值越高的页面,投出的票也更重要。在这个意义上,基于关键词匹配的传统算法是看页面本身的自我描述,而基于链接的PR值则是看别人怎么评价一个页面。

另一个比喻是随机冲浪。假设一个访问者从一个页面开始,不停地随机点击链接,访问下一个页面。有时候这个用户感到无聊了,不再点击链接,就随机跳到了另外一个网址,再次开始不停地向下点击。所谓PR值,就是一个页面在这种随机冲浪访问中被访问到的概率。一个页面的导入链接越多,被访问到的概率就越高,因此PR值也越高。

阻尼系数也与随机冲浪模型有关。(1-d)=0.15实际上就是用户感到无聊,停止点击,随机跳到新URL的概率。

3.工具条PR值

真正用于排名计算的Google PR值我们是无法知道的,我们所能看到的只是Google工具条PR值。需要清楚的是,工具条PR值并不是真实PR值的精确反映。真实PR值是一个准确的、大于0.15、没有上限的数字,工具条上显示的PR值已经规范化为0~10这11个数字,是一个整数,也就是说PR值最小的近似为0,最大的近似为10。实际上,每一个工具条PR值代表的都是一个很大的范围,工具条PR5代表的页面PR值与真实PR值可能相差很多倍。

真正的PR值是不间断计算更新的,工具条PR值只是某一个时间点上真实PR值的简化快照输出。2013年之前,Google快则每个月更新一次工具条PR值,慢则近一年更新一次。在Google目录(Google Directory,现早已取消)上,甚至在搜索结果页面上,也曾都显示过工具条PR值。

但工具条显示的PR值对SEO的作用越来越与Google的初衷相背离,PR值变成了一些站长的追求,甚至变成骗取交换链接的本钱,所以后期Google多次表达不打算更新工具条PR值了。最后一次工具条PR值更新是2013年12月6日,而且那次也是Google工程师在做别的事情时顺便(估计是不小心或不得已)输出的,并不在计划中。2016年,Google完全取消了工具条和浏览器显示PR值的功能。最后几次Google工具条PR值更新的日期如表2-4所示。

表2-4 最后几次Google工具条PR值更新日期

工具条PR值与反向链接数目呈对数关系,而不是线性关系。也就是说如果从PR1到PR2需要的外部链接是100个,从PR2到PR3则需要大致1000个,PR5到PR6需要的外部链接则更多。所以PR值越高的网站想提升一级所要付出的时间和努力,比PR值低的网站提升一级要多得多。

4.关于PR值的几个误解

PR值的英文全称是PageRank。这个Page指的是发明人拉里·佩奇(Larry Page)的名字,巧合的是Page在英文中也是页面的意思。所以准确地说,PageRank这个名称应该翻译为佩奇级别,而不是页面级别。不过约定俗成,再加上巧妙的一语双关,大家都把PR值称为页面级别。

PR值只与链接有关。经常有站长询问,自己的网站做了很长时间,内容也全是原创的,怎么PR值还是0呢?其实PR值与站长是否认真、做站时间长短、内容是否原创都没有直接关系。有反向链接就有PR值,没有反向链接就没有PR值。一个高质量的原创网站,一般来说自然会吸引到比较多的外部链接,间接地提高PR值,但这并不是必然的。

工具条PR值更新与页面排名变化在时间上没有对应关系。在工具条PR值更新的过程中,经常有站长说PR值提高了,难怪网站排名也提高了。可以肯定地说,这只是时间上的巧合而已。前面说过,真正用于排名计算的PR值是连续计算更新的,随时计入排名算法。我们看到的工具条PR值几个月才更新一次,最后一次更新已经是2013年12月。即使在工具条PR值还更新时,当我们看到PR值有变化时,其时真实的PR值早在几个月之前就已更新和计入排名里了。所以,通过工具条PR值的变化来研究PR值与排名变化之间的关系是没有意义的。

5.PR值的意义

Google工程师说过很多次,Google PR值现在已经是一个被过度宣传的概念,其实PR值只是影响Google排名算法的200多个因素之一,而且其重要性已经下降很多,SEO人员完全不必太执着于PR值的提高。这也是Google不再更新工具条PR值的原因。

当然,PR值还是Google排名算法中的重要因素之一。取消工具条PR值显示,不是取消PR值,真实的内部PR值还是一直更新和使用的。

除了直接影响排名,PR值的重要性还体现在下面几点。

(1)网站收录深度和总页面数。搜索引擎蜘蛛爬行时间及数据库的空间都是有限的。Google希望尽量优先收录重要性高的页面,所以PR值越高的网站就能被收录更多页面,蜘蛛爬行内页的深度也更高。对大中型网站来说,首页PR值是带动网站收录的重要因素之一。

(2)访问及更新频率。PR值越高的网站,搜索引擎蜘蛛访问得就越频繁,网站上出现的新页面或旧页面上有了内容更新,都能更快速地被收录。由于网站新页面通常都会在现有页面上出现链接,因此访问频率越高也就意味着新页面被发现的速度越快。

(3)重复内容判定。当Google在不同网站上发现完全相同的内容时,会选择一个作为原创,其他作为转载或抄袭。用户搜索相关查询词时,被判断为原创的版本会排在前面。而在判断哪个版本为原创时,PR值也是重要因素之一。这也就是为什么那些权重高、PR值高的大网站转载了小网站的内容,却经常被当作原创。

(4)排名初始子集的选择。前面介绍排名过程时提到,搜索引擎挑选出所有与关键词匹配的文件后,不可能对所有文件都进行相关性计算,因为返回的文件可能有几百万、几千万个,搜索引擎需要从中挑选出一个初始子集,再做相关性计算。初始子集的选择显然与关键词的相关度无关,只能从页面的重要程度着手,PR值就是衡量页面重要程度的指标。

现在的PR算法与当初拉里·佩奇专利中的描述相比肯定有了改进和变化。一个可以观察到的现象是,PR算法应该已经排除了一部分Google认为可疑或者无效的链接,比如付费链接、博客和论坛中的垃圾链接等。所以有时候我们会看到一个页面有PR6甚至PR7的导入链接,经过几次工具条PR值更新后,却还维持在PR3甚至PR2。按说一个PR6或PR7的链接,应该能把被链接的页面带到PR5或PR4。所以很可能Google已经把一部分它认为可疑的链接排除在PR值计算之外了。

再比如,同一个页面上,不同位置的链接是否应该传递出相同数量的PR值?正文、侧栏导航、页脚的链接是否应该同等对待?如果按照最初的PR值设计,那么是的,因为没有考虑链接的位置。但显然,不同位置的链接重要性是不一样的,被真实用户点击的概率也是不一样的,那么传递出去的PR值是否也应该不一样呢?现在的Google PR值算法中是否已经引入了矫正呢?

虽然PR值是Google拥有专利使用权的算法,但其他所有主流搜索引擎也都有类似算法,只不过不称为PR值而已。所以这里提到的PR值的作用和意义,同样适用于其他搜索引擎。

6.Google新版PR值

2019年7月,Google前员工Jonathan Tang在Hacker News透露,Google早在2006年就不再使用Google PR值了。这些年Google与SEO行业的官方沟通人John Mu在Twitter上评论此事时并没有否认,只是说:“SEO们应该知道,20年来Google工程师不可能没有对搜索做出修改。”间接肯定了这个说法。

那么从2006—2016年,工具条上显示的PR值是什么东西呢?Google的另一位发言人Gary Illyes,在2017年还发twitter消息明确说Google依然在排名算法中使用PR值,又是怎么回事呢?

Jonathan Tang后续又解释了一下,他们2006年用另一个算法取代了PR值算法,那个算法给出的结果大致和PR值算法相似,但计算速度快得多。工具条显示的宣称是PR的数值就是这个替代算法的结果。这个替代算法的名字都和PR相似,所以Google这么宣称,在技术上也不能说是错的。

所以,从2006年开始,Google算法中使用的、工具条所显示的,都不是原始PR值计算公式的结果,而是一个结果类似、名称类似、计算速度快得多的算法。我们姑且称之为Google新PR值吧。

那么这个Google新PR值的计算原理是什么?Jonathan Tang没说,连真实名称也没说,大家只能猜测了。

专门研究Google专利的大神Bill Slawski发现,Google的新版本PR值算法专利刚好于2006年通过,这有可能就是Google现在正在使用的新PR值算法,专利名称是Producing a ranking for pages using distances in a web-link graph,中文译为基于链接距离的页面级别计算。

简单来说,新PR值不再计算导入链接的总数,而是计算这个页面与种子页面之间的距离,距离越近,页面质量越高,页面级别、新PR值越高。这个思路和Yahoo!的TrustRank算法思路是极为相近的,其基本假设都是:好网站不会链接向坏网站,但会链接向其他好网站。

图2-42 Google新PR值算法示意图

这个专利涉及几个概念:种子页面(Seed Pages)、链接长度(Link Length)、链接距离(Link Distance)。

(1)种子页面(Seed Pages)

如图2-42的Google新PR值算法示意图所示,Google选出一部分页面作为种子页面集合,如图中上半部分的种子页面106、108、110,下半部分都是在种子页面集之外的、需要计算新PR值的页面。

关于种子页面的几个要点如下:

● 种子页面显然是高质量的页面,专利里举的例子是Google目录(其实就是开放目录的拷贝,这两个现在都已经不存在了)和《纽约时报》。

● 种子页面需要与其他非种子页面有很好的连通性,有比较多的导出链接指向其他高质量页面。

● 种子页面需要稳定可靠,具有多样性,能大范围覆盖各类主题。

(2)链接长度(Link Length)

种子页面和非种子页面之间有的距离近,有的距离远。如种子页面106通过链接132直接连向非种子页面112,非种子页面118则没有种子页面直接连向它,要通过两层链接。

链接距离并不是简单地数链接层数。每个链接Google会计算一个链接长度,链接长度取决于链接本身的特征和链接所在页面的特征,比如页面上有多少链接、链接的位置、链接文字所用字体等。

所以,同样是一个链接,链接长度是不一样的:

● 页面导出链接越多,链接长度越长。这和原始PR值的思路是一样的,导出链接越多,每个链接分到的权重越少。

● 链接所在位置越重要,比如正文中、正文靠前部分,链接长度越短。

● 链接锚文字字号越大,或者在H1标签中,可能链接长度越短。

这正符合前一节提到的对原始PR值的修正。

(3)链接距离(Link Distance)

链接距离就是种子页面与非种子页面集合之间的最短链接长度之和。种子页面和非种子页面之间通常存在不止一条链接通路,如图2-42中,非种子页面118可以通过链接132、136从种子页面106到达,也可以通过链接134、142、140到达,还可以通过链接134、140到达,以及通过其他链接从其他种子页面到达,所有这些从种子页面集合到非种子页面的链接通路中,链接长度之和最短的那个被定义为链接距离。

如果一个非种子页面无法从任何种子页面出发并实现访问,就说明种子页面集合到这个非种子页面完全没有链接通路,那么二者之间的链接距离就是无限大。

Google算法会根据链接距离计算出一个页面的排名能力分数,也就是新PR值,在最后的排名算法中,这个新PR值成为排名因素之一。也就是说,链接距离越短,离种子页面越近,Google就认为这个非种子页面越重要,排名能力越高。

链接距离的计算不需要迭代,所以新PR值相比原版PR值的计算要快得多,而在代表非种子页面重要性上,我相信Google对两种算法做过对比,发现准确性差不多,所以就用来代替原来的PR值了。

专利最后面提到了另一个概念:简化链接网络图(Reduced Link-Graph),不过没有进一步说明这个概念有什么作用,仅用一个段落介绍简化链接网络图这个概念后,专利内容就结束了。不过简化链接网络图有可能和链接质量判断、企鹅算法更新等相关。

在图2-42中,所有页面之间的所有链接组成一个完整的链接网络图,其中只由最短链接距离通路组成的链接被称为简化链接网络图,也就是用来计算新PR值的那些链接。显然,简化链接网络图是完整链接网络的一个子集,不过每个页面的链接距离都已经保留在简化链接网络图中了,去掉的那些链接对页面链接距离和新PR值不造成影响。在简化链接网络图中,每个页面获得的链接权重来源都可以回溯到距离最近的种子页面。

如果一个非种子页面完全没有可以从种子页面集合到达的链接通路,也就是前面说的链接距离为无限大,这个非种子页面将被排除在简化链接网络图之外。如果一个非种子页面得到的链接都来自简化链接网络图之外,虽然链接总数可能很大,但其链接距离依然是无限大。

换句话说,在简化链接网络图之外的链接是被忽略掉的,无论其有多少个。联想到Penguin 4.0算法更新,其中一个特征就是,垃圾链接是被忽略掉的,不被计入链接的流动中,这和基于链接距离的PR值非常相似。