GOOGLE页面等级技术解密(2)
标题标签 只能出现一次
网页内容中的关键词 关键词的重复会逐渐降低其重要性。而与关键词相似的词有较高的重要性。
链入锚文本 有较高的加权值,可是同网页内容中的关键词一样,有一个影响临界点,超过临界点的链入锚文本就不再有价值
页面等级 可以无限增加。你可以不断提高网页的等级,但是比较浪费时间。
除了页面等级其他的影响因素都有一个影响临界点。如果超过这个影响临界点,那么这些因素就不再有提高你网页排名的能力或者能力大大降低。而页面等级则没有影响临界点。
非页面等级影响因素的影响临界点
知道了页面等级与其他影响因素的区别以及提高页面等级有多难,我们可以用多种方法来提高网页排名。但是我们应该清楚有一个临界阀值,这个临界阀值决定了页面等级是否有用。
除了页面等级,其他的影响因素都有一个影响临界点,超过这个影响临界点,这些影响因素对网页排名的影响就微乎其微了。这就是非页面等级因素影响阀值。下面我们给出一个例子,在这个例子中临界阀值取1000。
在一次搜索中我们得到两个搜索结果网页A和网页B,两个网页都有一个分数,这个分数是所有影响因素的分数和(包括页面等级的分数)。假设网页A的分数是900,网页B的分数是500,很明显,在搜索结果中网页A将排在网页B的前面。这是在两个网页的分数都低于所给临界阀值的情况下,在这种情况下,网页B可以在不改变页面等级的情况下通过优化其他影响因素来使自己的分数超过网页A。Google中有很多这样的情况,这种搜索通常被认为是低竞争搜索。
现在假设网页A的分数增加为1100,这样网页B如果不提高它的页面等级分数就无法与网页A竞争。不管如何,网页B还是需要优化其他影响因素,但这时提高页面等级分数也是必要的。Google中也有很多这样的情况,这种搜索通常被认为是强竞争性搜索。
一般来说,每一次Google搜索的结果中都包含一些分数超过非页面等级因素影响阀值的网页,另一些则没有。
这儿给出一个重要的论点:
想要网页具有竞争性,就必须提高网页的搜索引擎排名分数到非页面等级因素影响阀值以上。如果不能做到这一点,你就会很容易被其他网站击败。提高非页面等级因素分数的最快方法是优化网页,可是如果没有页面等级分数,你就无法超过这个阀值。
现在的问题是非页面等级因素影响阀值到底是多少,以及如何来超过这个阀值。答案是我们并不能给出非页面等级因素影响阀值的一个具体的值,这只是一个假设线。Google可以给出一个值,可是如果我们无法知道一个网页的分数,这个值也就没有用。我们只需要知道有这么一个阀值,它能给我们提供一些搜索算法原则的信息。
用阀值分析两种排名策略
阀值理论解释了搜索引擎的工作原理以及不同方法,并解释了一些对页面等级误解是如何产生的。现在让我们来考虑两个人对页面等级采取的不同策略,其中A认为页面等级是无关紧要的,而B则认为页面等级是非常重要的。
A认为页面等级是不重要的。凭借多年的经验,他们能够非常成功的通过改善页面因素来优化他们的网页。他们了解链入锚文本基础但是却一点也不关心页面等级。
这样做的结果是什么呢?A可以通过提高页面因素的分数很快的使自己网页的分数达到非页面等级因素影响阀值。例如可以通过关键词细心的挑选可以使网页在搜索结果中的位置大大提前。另外只要有好的网页内容,排名高的网站就会提供对它的链接。虽然它们没有直接要求,但是越来越多的网站提供对它的链接,这就会提高它的页面等级,从而更加巩固其地位。
B认为页面等级是重要的,我们都曾经见到过没什么内容而排名却靠前的网站。B知道页面等级的妙用且乐此不疲。
这样做的结果又是什么呢?B做的与A恰恰相反。A关注与非页面等级因素而同时得到了页面等级的提高,B则关注于页面等级因素也同时提高了非页面等级因素。这是因为要提高页面等级就需要其它网站的链接,而链接上又有链入锚文本。这样,通过恰当的选择链接的链入锚文本就可以在提高页面等级的同时提高非页面等级因素。
显然,这是两个极端,我们可以据此推断这两种策略的优缺点。
优点 缺点
A 能够快速使自己进入搜索结果
其它网站自动提供链接,减少了所需要工作量 难以保住其优势地位,在竞争时要做更多的工作才能取胜。
对新的竞争者不能及时做出反应。
B 如果有必要能较容易的改变页面因素以大幅提高其排名。
有可能通过搜索引擎以外的途径得到大的访问量。 进入搜索结果较慢。
难以做得很好。
增加了被当作垃圾网站过滤的可能性
很明显两种策略都可以起作用,两种策略都融合了页面等级技术以提高其网页在搜索引擎结果中的排名。就是说页面等级在两种策略中都得到了应用,只不过其重要性不同而已。既然如此,就可以通过调节页面等级在策略中的重要程度来产生一种适合自己风格的策略。就我来说,我会融合这两种策略,但开始时会保留一些页面因素以便在竞争中需要大幅提高自己排名的时候使用。
真正残酷的竞争
如果最后没有关于关键词密度竞争的描述,任何对于页面等级策略的解释都是不完整的。有一些查询竞争非常激烈以致于你必须用任何可能的方法来提高你的网页排名分数。在这种情况下不可能只是通过提高非页面等级因素的分数来提高网页排名分数(因为不可能一开始就可以排在前面而得到访问者的注意和得到其他网站的链接)。这绝不是说非页面等级因素不重要。最后的网页排名分数是这样得到的:
最终排名分数 = 页面等级分数 × 非页面等级分数。
提高等式任一边的分数都可以产生积极的效果。然而由于非页面等级分数有一个最大值限制,所以要在竞争中取得最终的胜利必须提高页面等级分数。在真正残酷的竞争中,如果你页面等级没有达到一定程度,你的排名就不可能得到好的排名。也就是说:
在查询时,存在一个特定的最小页面等级水平。在竞争不激烈的查询中,不需要费劲就可以达到这个水平。然而在竞争激烈的查询中,在达到非页面等级因素影响阀值前,非页面等级同样非常重要。这也就是为什么选择好的关键词可以避免很多额外的工作。
页面等级是如何计算的
我们在一个简单的水平上可以得到关于页面等级是如何计算的很多资料。这是因为当页面等级还只是一项研究课题的时候,其作者曾发表了一篇详细介绍计页面等级运算公式的论文。现在很多年已经过去了,我们怀疑这个公式已经被改变了很多。但是为了详细揭露页面等级算法的原理以及是如何工作的,我们在这儿精确的给出原先的公式:
PR(A) = (1-d) + d (PR(T1) /C(T1) + … + PR(Tn) /C(Tn) )
其中PR(A)代表页面A的页面等级。
D是衰减算子,一般设为0.85。
PR(T1)代表对页面A提供链接的页面T1的等级。
C(T1)代表页面T1所提供链接的页面数。
PR(TN)/C(TN)表示我们为每一个向页面A提供链接的页面做同样的运算。
由此可见,1)这个算法不以站点排序,页面等级由一个个独立的页面决定;2)页面的页面级别由链向它的页面的页面级别决定,但每个链入页面的贡献的值是不同的。如果Ti页面中链出越多,它对当前页面A的贡献就越小。A的链入页面越多,其页面级别也越高;3)衰减算子的使用,减少了其它页面对当前页面A的排序贡献
是不是不能再简单了?这个公式是非常简单还是过于复杂取决于你的数学水平。上面的公式虽然非常精巧,但是你无法只做一次简单的运算便得到一个页面的页面等级。从公式我们可以知道,要计算页面A的页面等级,我们必须首先知道对它提供链接的所有页面的页面等级。而要知道这些页面的页面等级我们又必须知道指向这些页面的所有页面的页面等级(其中很可能包括页面A)。可以看到这是一个无穷无尽的循环。
为了得到我们需要的答案,我们不得不做很多很多次小的运算。这个公式可以告诉我们的是:不论你对这个公式如何细分也不管公式到现在是否已经被改变,页面A因为页面B提供链接而增加的页面等级将会随着页面B向其他网站提供链接数的增加而减少。从中可以看出一个页面向其他页面提供链接就像在为其他页面投票,它可以把这张票只投给一个,也可以把这张票分成许多份投给多个页面,但一个页面只有这一张票,票的价值由此页面的页面等级决定。
这个结论是非常重要的。现在我们用具体的数字来解释一下(这些数字单纯是为了解释这个结论,并不是针对某一个特定网站)。假设页面B的页面等级为5,且只有一个指向页面A的链接。这样页面A的页面等级会因为页面B提供的链接而增加(页面B并不会因此而损失什么,页面A却因此受益匪浅),增加值与页面B的页面等级成比例。如果页面B为其他两个页面提供了链接,则页面A因为此链接而增加的页面等级将会减半。
现在先把公式放在一边,用一个图表可以更容易的解释它是如何工作的。假设我们有一个页面集包括页面A,页面B, 页面C, 页面D,他们之间链接关系如图:
在本例中,一开始我们并不知道每个页面的初始等级是多少。在这儿我们给每个页面等级用任何初始值都没有关系。在本文档的上一版中我们在计算时设的初始值为1,这次我们把初始值设为0,你会看到初始值设为多少并没有关系。
下面我们就着手计算每个页面的页面等级。计算规则是:
把页面的等级乘以0.85然后除以其向其他页面提供的链接数。
把1中所得的结果加在每一个它所指向的页面的等级值上。
最后为每一个页面的等级加0.15。
第一步运算是很简单的,因为页面的初始等级都设为0,所以乘以0.85后仍然为0。所以每个页面得到的页面等级为0.15+0。就是说现在每一个页面都有一个0.15的页面等级。现在我们还没有达到目的,我们想要知道的是每个页面链接的重要程度,现在所有页面都是一样。我们作的二次运算:
页面A分别指向页面B, 页面C和页面D。页面A的等级为0.15,所以页面B,C,D的页面等级将因为页面A的链接而分别增加(0.85×0.15)/3=0.0425。
页面B指向页面C。页面B的等级为0.15,所以页面C的等级将因为页面A的链接而增加 0.85×0.15 = 0.1275。
以此论推:页面C因为页面A的链接等级增加0.1275。
页面D因为页面C的链接等级增加0.1275。
现在每个页面总的页面等级:
页面A:0.15(基本分数)+ 0.1275(由页面C得到)= 0.2775。
页面B:0.15(基本分数)+ 0.0425(由页面A得到)= 0.1925。
页面C:0.15(基本分数)+ 0.0425(由页面A得到)+ 0.1275(由页面B得到)+0.1275(由页面D得到)= 0.4475。
页面B:0.15(基本分数)+ 0.0425(由页面A得到)= 0.1925。
是不是很清楚了?从现在看来在这个系统中页面C好像是最重要的(我们仍然不能确定)。用上面的步骤继续运算直到每个页面的等级不再变化为止(这叫做收敛值,在后面的章节中我们还会涉及到)。事实上,Google并不会一直算到最后的收敛值,而是得到一个相当精确的结果值就可以了。如果在上例中做所有运算(总共143次运算),得到的最后收敛值:
正如前面所猜测的,页面C在这个例子中是最重要的。快速浏览一下这些原始数据,可以看出一个页面对外提供的链接数对运算结果的影响。页面C对外只提供一个对页面A的链接。页面A对外分别向B,C,D提供链接。这种链接数的不同显著改变了页面等级的分配。
收敛性
收敛性是页面等级运算的一个重要数学特性,它可以使Google以相对较小的代价获得前所未有的搜索能力。这个问题有点复杂但是对理解页面等级技术的工作原理非常重要。我尽量简单的对它予以解释,可是如果你不是Sergey Brin 或者Larry Page你就需要多用一点心了。但是不用害怕,也不是特别难以理解。
在页面等级的运算过程中每一次运算的输出(结果值)都是下一次运算的输入(初始值),不断重复这个过程(递归过程)直到最后得到所要的结果。现在问题是什么时候以及如何结束这个递归过程。
运算的收敛性就是结束这个过程的关键。在运算公式中存在一个衰减算子(运算公式中的D),因为衰减算子小于1,这就使得运算最终将会收敛到一个值。衰减算子一般设为0.85(Stanford的论文中就用了这个值)。
运算具有收敛性意味着不论各变量初始值是多少,经过一系列运算后最终结果都将收敛到同样的值,并且这个值不会再改变。这个最终收敛值也叫做极限值。一旦得到极限值,Google就不用再继续运算,递归过程也就结束了。
用一个例子来解释可能更为容易理解,下面看一个例子。
每次迭代运算后得到的各页面等级:
经过48次迭代运算后,不论我们怎样继续运算,各页面的页面等级将不在发生变化,即收敛到了各自的极限值。
实际上根本没有必要一直等到得到极限值再停止运算。当得到的运算结果不会再发生大的改变时这个递归过程就可以结束了。在上面的例子中,当前后两次预算结果之差小于
0000000001时,递归过程结束。
页面等级计算详细说明
从上面可以看出页面等级的计算是相当复杂并且会占用大量资源。这就提出了两个问题:Google何时会计算页面等级,是否在每个月计算页面等级时为每一个页面使用一个任意初始值?第二个问题是Google是否用多台机子同时来计算页面等级?可以通过几个简单的试验来回答这两个问题。我们在前面的例子中增加一个页面并且改变一个链接如图:
如果计算页面等级时为每一个页面使用一个任意初始值,得到收敛值时需要的迭代运算次数是75次。
如果运算时页面A,B,C,D的等级初始值使用前面例子中得到的结果,页面E等级初始值设为0,得到收敛值时需要的迭代运算次数为78次。
可以看出两种方法需要的运算次数是很接近的,所以从逻辑上推断,Google不会为每一次运算设定初始值,而直接用上次得到的结果。
那么Google是不是多机同时运算呢?很明显当要计算几十亿个页面的页面等级时只用一台机子无疑是不堪重负的,必须多台机子同时工作才能完成。这在逻辑上是如何工作的呢?假设页面A和页面C在一台机子上,页面B,D,E在另一台机子上。如果不考虑在不同机子上页面的链接关系(例如A和D,D和C之间的链接),那么页面A和C只要经过一次运算就可以得到收敛值A=1,C=1。而页面B,D,E则要经过3次运算才能得到各自等级收敛值B=0.15,D=0.3954375000,E=0.3954375000。如果用这些结果作为初始值,考虑所有页面之间的链接关系来计算各自页面的等级则要经过146次迭代运算才能得到收敛值。
从上面我们可以得出一个结论,把页面等级运算划分成独立部分在不同机子中运算是不可取的。在计算页面等级时必须考虑存在于不同机子上的页面之间的链接关系,每一台机子必须与其他机子协同运算。不论Google是否采取这种方法,要计算如此多页面的页面等级是非常复杂的。
页面等级反馈及链接的作用
自从页面等级反馈的概念在本文档的第一版中出现以后,虽然并不是总是正确,但仍然被广泛的采纳和应用。作为一个原则,页面等级反馈解释了何时以及如何提供对外面页面的链接才是有益的。假设我们有一个页面A,其页面等级定为0.15。现在提供对页面B的链接,页面B也反过来提供对页面A的链接。页面A的等级因此变为1。再假设提供了对页面C的链接而得到页面C对它的提供的链接,这样页面A的等级就升高到了1.4594594595。
页面A提供了对其他页面的链接而得到其他页面对A也提供链接,由此页面A提高了自己的页面等级。还有一种情况,如果页面A提供对页面B的链接,页面B提供对页面C的链接,而页面C又提供了对页面A的链接,这样也可以提高页面A的页面等级。这并不是说我们生成了页面等级,页面等级是由整个页面系统得到的。但如果我们把页面A作为一个小系统(整个页面系统的一个子集),则我们可以确定的说在这个小系统中,页面A对其他页面提供的链接生成了它的页面等级-就是说它对外提供的链接得到了反馈。
我们用图表来看一个较为复杂的系统:
页面A到E都是存在于Google索引中的页面,页面A和页面B是你网站上的网页。通过计算得到所有页面的等级都是1。页面A,B总页面等级是2。改变系统结构如图:
得到各个页面的等级:A = 1.3599321536
B = 0.7279711653
页面A,B的总等级数为:2.0879033189
可以看出对于等级的提高并不大,但是很容易可以证明,有了页面等级反馈机制就可以通过对外提供链接来显著提高自己的页面等级。如果我们在C,D,E环中再另外增加一个页面,这样你网站总等级数就可以增加2.1462030505。当然最好还是能够与那些较大并且得到较多关注的网站建立互联,使你的网页能够在上面出现。你提供的链接数以及所链接网站的架构会对页面等级反馈产生显著的影响。
对结果的影响
现在让我们来考虑在Google中页面等级是何时和如何影响了搜索结果。在这一点上,与此文档第一版时相比,情况已经发生了很大的变化。Google已经表明它可以并且也会去改变确定一个页面的页面等级所依赖的数据。最重要的例子就是众所周知的0页面等级。当Google要惩罚一个网站的时候就会把它的页面等级设为0,因为页面等级是一个乘数,这就导致了页面排名分数为0,在Google的搜索结果中这个页面就会被排在最后。
Google是如何做到这一点的呢?假设Google在进行页面等级运算前把一个页面的等级设为0,这样有作用吗?从我们前面所掌握的知识来看,这是没有用的。因为页面等级的运算结果与其初始值时没有关系的。那么怎样做才有意义呢?首先必须在页面等级运算过程结束的时候将此受惩罚页面的页面等级设为0。但是这样在页面等级运算过程中此页面仍然拥有原来一样大的票值,其对其他网站的价值并没有因此而降低。就是说其他网站仍然可以从受惩罚网站提供的链接中得到页面等级。
为了降低其票值,就必须有第二个惩罚措施。Google已经表明了其有能力忽略那些被认为是人为创建的链接,也就是在计算页面等级时不考虑这些链接的所起的作用。运用这种技术,Google就可以在运算页面等级的过程中忽略由受惩罚页面提供的链接而对其链接页面的页面等级产生的影响。没有办法来测试是不是Google应用了这样的措施,但是我怀疑这两种惩罚措施在Google中都确实得到了应用。
控制页面等级 作为一个网站管理员,你可以在很大程度上来控制页面等级。但是无论如何在影响页面排名的因素中,页面等级是最难控制的。并且你完全可以通过其他方法来达到你想要的效果。然而对页面等级良好的控制确实有助于你在竞争中立于不败之地。
优化页面等级时的三个基本问题:
选择可以提供链接的页面,包括选择哪些页面以及得到这个链接所需要做的努力。
选择你要提供链接的页面以及在那个页面上提供链接(使页面等级反馈最大化并尽量减少页面等级遗漏)。
安排好网站内的导航结构和网站内页面的链接关系,以便页面等级在网站内得到最好的分布。
指向你网站的链接
当选择向那些网站要求提供链接时,从纯页面等级的观点来看,也许有人会认为你应该选择那些在页面等级查看工具中显示值最大的页面(因为一个网站上所有的页面都有自己的页面等级,你必须考虑真正所要链接的页面的页面等级)。然而这种想法并不正确。如果你已经仔细阅读了前面的章节,也许已经知道这种想法错误的原因。从其他页面提供的链接得到页面等级的过程是非常复杂的,当它为太多的页面提供了链接时,它对你的页面等级的贡献就很小了。
一个页面所能为其他页面提供的页面等级是由这个页面上的所有链接共同分享的(可以从前面的页面等级计算公式知道)。所以具有同样等级的页面对你提供的链接不一定也为你增加同样的页面等级,取决于你要和多少页面共同分享这个页面的链接。比如一个等级为4的页面向你提供链接可能比一个等级为6的页面向你提供链接更有助于你页面等级的提高,前提是等级为4的页面对外提供的链接较少。到现在为止我们还没有足够的资料使我们了解到底应该如何去选择向你提供链接的页面。但是至少我们知道,只是选择那些等级高的页面的做法并不明智。还有另外一个更为实际的原因证明这种做法并不是最好的:有太多的页面希望得到那些页面等级高的网站提供的链接,这就使得这些网站很可能不会考虑去链接那些等级低的页面。而那些也希望提高自身等级值的网站,虽然其页面等级较低,则会乐于接受与其他网站的互联。
现在来看看页面等级反馈。假设在另外网站上有两个独立的网页,A和B,其页面等级都是4,并且都对外提供了10个链接。在你的网站上有一个网页,希望得到这两个网页提供的链接。假设你的网页本来就已经提供了对网页B的链接,如果网页B提供对你网页的链接,这样就会生成页面等级反馈。与网页A提供对你网页的链接相比,网页B向你的网站提供链接可以使你的网站增加更多的页面等级。这是一个简单化的解释,实际上页面等级反馈是非常复杂的。
你能得到一个给定页面的所有状态吗?不能,我也不能。所以我建议向那些看起来不错并且有较高质量的网页要求提供对你网页的链接,而不必考虑它们当前的页面等级。如果一个网页与你的网页内容相关且有很高的质量,这种网页提供的链接必然会对你的页面等级的提高有益,即使现在不会,将来也一定会的。例如把你网页列在DEMOZ或者Yahoo上将会显著提高你网页的页面等级。
对外提供链接
当考虑对外面网页提供链接是,这儿是一条很有用的规则:
一般来说,你首先要确保你自己网站的页面等级不会泄漏。
这并不是说对外提供链接就会降低自身的页面等级。但是网站总页面等级一般会比不提供对外链接前要低。因此我们得到另一条规则,可以使我们页面等级的损失最少(反过来说我们可以得到尽量高的的页面等级)。
导出链接的页面最好满足下面两点: a) 有较低的页面等级。
b) 提供了对你网站上很多网页的链接。
怎样才能让自己的页面等级损失最小呢?一种方法在你网站上建立一个独立的网页来记录对你所提供链接的站点的评论,并给这些评论建立超级链接可以链接到其相应的外部站点。可以选择是否在新的窗口中打开链接,但是不要用JavaScript来打开链接,因为Google机器人无法对其进行跟踪。
例如我们可以对网站提供的所有链接这样做:
The best search engine resource and
forum site in the world Read my
flattering review of them here.
一定要确保记录链接评论的网页提供一个对你网站上网页的链接(最好是你的主页,其他重要的网页也可以),这有助于优化网站架构。做完这一切你就可以大大减少你网站的页面等级的流失。应该妥善的分布主页上的页面等级,使得尽量少的页面等级被所提供的链接浪费,而将大部分页面等级分布到网站的其他各个地方。你提供链接的页面也应当提供对你主页或者是重要网页的链接。然而注意在记录链接评论的网页上不应有其他链接(除了对主页的链接)。
如果有网站提供对你记录链接评论的网页的链接是最好的了,这样你就很可能可以得到这个网站对你网站的两个链接,一个链向你的网站,另一个链向它自己的评论。所以应该让你提供链接的网站知道你有对它网站的评论。这个问题用文字是很难解释的,所以下面给出一个简化的例子,这个例子可以很好的解释这个原则并显示其效果:
经过计算得到下面的收敛值:
如果包含评论网页,重新计算可以得到下面的结果:
现在就很明显了(在第一版中出现了很多关于这个技术可用性的怀疑)。如果我们只看页面A,B,C,D:
不包含链接评论网页 包含链接评论网页
主页页面等级:0.9536152797
B,C,D页面等级:0.4201909959
总页面等级:2.2141882674
主页页面等级:2.439718935
B,C,D页面等级:0.8412536982
总页面等级:4.9634800296
可以看出包含链接评论网页的页面等级得到了很大的提高,这一方面是由于外面网页对你的网页提供了链接,另一方面也是由于页面等级反馈的效果,还有就是从站外链接的网页中得到的。最主要的是,为站外网页提供额外的内部链接是提高你的页面等级最重要的网页内部因素。虽然得到一个站外链接可能比这种方法更能提高你的页面等级,可是这种方法更为简单并且更有利于访问者查找信息。
页面等级是否存在渗漏损失问题
为什么我会提出这样一个奇怪的问题?其实并不奇怪,因为这个问题已逐渐变成人们注意的焦点并开始给大家带来困扰。有些人说根本不存在这样的问题,有些人则更加认为这只是个荒诞的说法。-页面等级是否存在漏损的问题?如果是,这种损失有多严重
反对页面等级会遭受漏损影响的人认为:一个网页有其确定的页面等级。Google的页面等级系统只是部分决定了该网页所链向的那些页面,因为此外部链接所获得的PR增量,而在此过程中,该网页本身的PR值实际上并未遭受损失。换句话说,如果页面A有其确定的页面等级,那么不管它链向多少站点,页面A的页面等级都不会因此而改变。
这种观点确实几乎无懈可击,只是他们忽略了这样一个事实,那就是既然一个单一的网页A上可能有其它链接(内部或外部的链接),而我们讨论的又是一个网站,那么对网页A所在的网站而言,页面等级是有可能循环返回到页面A的,这种可能性并不是没有意义的。虽然PageRank是基于网页而不是网站的操作,但我们大家都知道,根据网站的定义,它其实就是一个由网页所组成的系统。 网站的一个独有特性就是其内部的每个页面是紧密链接起来的。这种紧密的链接意味着该网站上的网页会通过链向网站内的其它网页而受益。反之,如果它链向一个外部网页,它就不会得到这样的收益。即:页面等级的漏损问题对你的网站不会造成什么直接的影响,其影响是间接的。那些坚持页面等级漏损影响不存在的人,对页面等级这个概念的理解过分简单化了
让我们来做一个类比。先假设有1,000元魔法钱在我手里,我可以给你,但你必须遵守这样一些游戏规则:规则一是你必须把钱都分给你家庭中的5个成员和两个陌生人;规则二是得到钱的这些人要把他们得到的钱拿出一半来给你或其他6个人;规则三也是最后一个规则就是,你可以按任意分配比例把这1,000块钱分配给7个人中的每一个人(即分配比例由你自行决定,允许有人得不到钱)。 现在让我们看看,游戏开始时你的家庭的魔法钱有多少?自然是1,000块。根据人的本性来推断:你下面准备做两样事情,第一件是确保你尽可能得到最多的魔法钱;二是确保你得不到的那些钱能够被你的其它家庭成员得到。所以在你第一次分配这些钱的时候,你是压根不会分给那两个陌生人的。而且在把钱分给5个家庭成员时,那个你认为最可能给你50%回馈的人得到的钱一定是最多的。当然为避免引起猜忌,你也不可能把全部钱都给这个人。而如果万一你的某个家庭成员把他的钱给了陌生人,其实你并没有任何损失,不过同时你也没有最大化利用我给你的机会。这个被浪费的机会就是你的“漏损”,是它导致了你实际得到的钱比你能够得到的要少。 与此类似,一个网站就象一个家庭,其内部的页面就象一个个家庭成员。相对于那些外部网页来说,你只能指望你自己的网页把得到的一半魔法钱回赠你。而且假如这些网页都不允许留下它们所得到的魔法钱,那你也只能指望从自己的网页处得到这些钱。而对那些外部页面来说,它们只会把钱给回它们自己的网站。
现在我们可以得出结论:页面等级的漏损问题确实存在,不过它是合理的,也不会给网站造成直接影响。实际上我们可以这样说:页面等级的漏损导致了你无法获得你本来能够获得的页面等级,即你获得的页面等级比你能够获得的要低。
现在新问题来了,是不是可以不对外链接来防止页面等级的漏损?答案要取决于你需要网站页面等级为几,你所处领域的竞争性如何,以及你所期望的页面等级是否与你的页面相一致?最好的办法是读一下我们文章开头所提到的“页面等级揭密”。不过在这里,有一点我们可以肯定,即使在最具竞争的领域内,最通常的情形是:对一个网站来说,只有其中的一些网页需要较高的页面等级来获得较好的排名,而不是它内部的全部网页。也会有这样的情形出现,即人们首先担心其页面等级的损失而不是设法去很好地分配其网站上页面的等级。
链向外部站点并非不能给你带来益处。它可以增加你的网站在搜索引擎中的排名和用户浏览的机会。唯一的负面影响就是它也会同时造成页面等级的漏损。正是因为如此,我想把我们讨论的页面等级漏损这个问题叫做“页面等级付出”应该更为合适。这也就是我为什么在文章的一开始并不急着给它一个确定名称的缘故。 最简单的解决办法就是,对那些带给你的好处远大于给你造成页面等级损失的网站,你应该链向它们而不是拒绝分享你的页面等级。
内部结构和链接
讨论完对站外网页的链接,接下来就应该开始讨论网站的内部链接了。如果已经认识到页面等级正如一个网页所获得票值,我们马上就可以得出一个重要的内部链接结构和页面等级的结论:
每一个在Google检索中的网页不管多小都有自己的票值。所以网站拥有的页面越多,它所拥有的总票值也就越高。或者简单的说,一个大的网站因为拥有更多的页面所以其总页面等级一般也就会更高。
这需要更进一步的解释。要得到一个高的页面等级,只是拥有成千上万个页面是不够的。这些页面必须都存在于Google的检索项中。它们必须包含足够的内容以使Google认为值得加入到其检索项中。所以当你在为你的网站设计好的页面内容的时,你也同时在提高其页面等级。这是一项艰难的工作,并且进度会很缓慢。但是一旦你设计出了其他网站也乐于提供链接的页面,那你就一箭双雕了:可以从两个方面提高你的页面等级。
为了提高页面的等级,设计出好的网页内容是你能对你的网页所做的最好的事情。页面内容一定不要太少,但是也不要太多,如果必要可以把过多内容的网页分成几个页面。
有三种不同的方法可以在一个网站内实现页面的站内链接。实际上,网站会融合这三种方法来使用。只要你真正明白了这种三种方法以及它们各自是如何影响页面等级的,那么三种方法的融合使用可以得到很好的效果,并且一般也是这么使用的。
为了达到这个文档要说明的目的,我们将把不同的链接结构作为独立的主题来讲解:
在这些结构中进行页面等级的运算,我们可以看到内部链接结构是如何在整个站内分配页面等级的。到目前为止以上所讨论的这些结构都是封闭式的系统(不包括导入导出链接),加入导入导出链接后,你就需要知道如何合理安排这些内部链接以使页面等级反馈最大化从而提高你的页面等级,这是非常重要的。既然前面已经给出了页面等级是如何运算的,下面我们就直接给出由这些结构得到结果:
应该注意到其中一些非常重要的问题。类等级架构的引入可以改变页面等级的分布(注意并不需要严格的等级架构,但其中所含的等级架构的特性必须要多于所含循环架构和广泛内部链接结构的特性)。这种把页面等级转移到各个页面的方法是网站管理员操纵页面等级最简单的方式。
一般我们归结为下面的规则:
很少有网站会采用完全的循环架构或者广泛内部链接架构。通过加入等级架构的一些特点,网站管理员可以把页面等级转移到各个页面中。如果页面等级被平均分布在网站的各个页面中,网站管理员就可以从中得到最大的好处。
什么时候才能从这种方法中得到最大的好处呢?有两种情况:第一种是应用于那些搜索关键词具有强竞争性的网页,第二种就是需要很多搜索关键词的网页。这时网站管理员就应该把这种网页从其他那些在搜索中竞争不激烈的网页或者说能仅仅依靠其关键词便能在搜索中得到好的排名的网页中分离出来。
以上讨论的都是封闭系统(没有导入导出链接),下面让我们看看加入导入导出链接后会发生什么事情:
在一个开放的系统中,绝大多数都是开放系统,可以得出下面的结论: 广泛内部链接策略可以最好的将页面等级保留在站内,其次是等级策略,最后是循环策略。
要记住这只是一个原则。在实际中,不可能为10,000个网页建立广泛的内部链接。也必须为网站的子系统选择一个合适的结构。当向等级架构中加入更多的页面时,等级架构相对其他架构来说就更为有用。这是因为这些新增加的页面中包含导出链接(为很多页面所分享,但是这些页面大多数存在于你的站内)。然而,当加入新的网页的同时也降低了主页的页面等级(这可能对你是很重要的)。
Google自己的说法
关于页面等级最权威的信息当然是直接来自Google自己对此的解释。所以询问Google关于页面等级的问题可能对我们会有所帮助。当然Google不可能向我们提供页面等级技术的详细细节,也不会对我们上面所写内容是否有用做出任何评论。但是我们确实想问一些关于页面等级的一般性问题,这样就可以对页面等级的现在和将来有个大概的认识。希望下面这个简短的访问记录可以解开一些关于页面等级的神话和回答你们心中的一些疑问:
Chris:是否可以回答一个老问题,PageRank(页面等级)的命名是因为它实际上就是基于页(page)的原因还是仅仅因为其创始人的名字中有Page呢?
Google:PageRank(页面等级)是以Google的创始人Larry Page来命名的。
Chris: Google是否认为页面等级技术是区别于其他搜索引擎的重要特色呢?
Google:页面等级技术确实使得Google在搜索速度和相关性搜索方面优于其他的搜索网站。除此之外Google在搜索中还运用了100多个算法。
Chris:页面等级技术在提高搜索结果质量上是否起到了很大的作用?在今后这个技术是否还会继续使用下去?
Google:因为页面等级技术在分析链接方面的作用,它在今后仍将被采用。
Chris: 很多人试图挖掘页面等级查看工具中数据的深层次信息,你们是怎么看的?
Google:这种做法违背了我们的服务条款。
Chris: 页面等级查看工具上的数据信息对于普通用户,网站管理员以及搜索引擎优化专家来讲有什么用处?
Google:页面等级查看工具上的数据只是一个估计数据和作为一个基本数据信息。很多用户对它感兴趣,并且一些网站管理员会用这个数据来评价自己网站的运行情况。然而,这只是一个粗糙估计的数据,所以对于专业搜索人士来讲意义不大。
Chris:大幅度提高页面等级的一个方法是利用链接站点和留言板,Google对此如何应对?
Google:Google的工程师一直在努力改进其搜索算法以避免对页面排名的故意干涉。
对非数学内容的结束语:
也许你会感到奇怪,没有到文档的最后却出现了结束语。但是如果你已经看了文档目录你就会发现我们为技术人员,数学人士以及博士生增加了一些比较高深的章节。如果你只是想知道什么是页面等级以及你对它能做什么,那么到这儿你已经达到目标了。
简单来说,现在页面等级在搜索引擎的所有概念中可能是最容易被误解的。有一些人可能会声称自己已经完全掌握了页面等级技术,也有另一些人会说它们完全不需要这个技术。有一些人认为页面等级技术是重要的,也有另一些人对其重要性则不置可否。一些人认为Google过分夸大了页面等级技术,另一些人则不这样认为。
事实是任何人都不要奢望Google会告诉你关于页面等级技术的所有细节。本文档的作者也无法告诉你关于它的所有事情。在这个文档中,从一些可用信息得出了一些结论。我们所能做的只是得出一些原则,而不是具体的数据。
对页面等级的价值实行量化是不可能的。在不同的条件和不同的网站管理模式下,页面等级也会得到不同值。页面等级有何价值对不同的人也不同。不管页面等级对你是否那么重要,在设计你的网站时遵循本文档讨论的那些原则将会有所帮助。就像你知道要有好的标题和链入锚文本一样,你也要时刻考虑到页面等级的因素。
提高页面等级的过程中应以提高网站访问量为目标。不管你的页面等级有多高,如果没有人访问你的网站,那就没有任何用处。提高页面等级的同时也应提高网站的质量。
关于页面等级的高级主题
当我们进入高级主题讨论的时候,也就进入了思考的王国。在高级主题的讨论中,我们将验证前面得出的原则的正确性。并且在这个讨论中会出现更多的假设。当然这里所要讨论的内容Google可能都已经考虑过,所以很可能Google已经在采用我们下面提出的建议,即使现在还没有采用,将来也一定会。
加快页面等级的运算
显然Google并不需要得到一个完全准确的页面等级值。这就提出了一个问题:Google是否可以用较少的迭代运算就可以得出所需要的与最终结果近似的页面等级值?看起来这是可能的。下面我们就来解释这个问题。在前面的运算中,我们把系数设为固定值。我们可以根据前面运算的结果来为每个页面设定系数。公式如下:
(1-d)* PR i (A)
在这个公式中我们用(1-d)来代替公式中的d,Pri(A)是前面迭代运算中得出的结果。
假设有一个等级架构如下:
得到下面运算结果:(P37)
得到最后结果需要148此迭代运算。如果在每次运算中加入系数,得到下面结果:(P41)
经过67次迭代运算就得到了一个很近似的结果,这就是所谓的“页面等级估计值运算加速技术”。Google拥有一群聪明的工程师,所以它们可能开发出更为快速的页面等级算法。
页面等级可能比我们看到的更为复杂
有这样的可能性,也仅仅是一种可能性,页面等级的运算可能比我们认为的还要复杂的多。如果考虑一下在Google搜索中影响一个网站排名的因素,很容易就得出例如页面等级,关键词,入链锚文本等明显的因素。但是那些不这么明显的影响因素如网页内容质量等在影响网站排名中处于什么地位呢?一个受欢迎的网站是否是因为其有很好的内容呢?这并不是传统的影响因素,但是会影响到页面等级。对此做一下解释:
在总数一定的情况下,如何分配规范化系数就迫切的摆在了我们面前。在前面的例子中,可以把“ABOUT US”(PageB)页面的参数值设的高一点,其他网页的参数值设的稍微低一点。因为PageB符合我们定义的那些标准。所以可以把PageB参数值设为:
(0.4*n + 0.6)*0.15(n是网站上的页面总数)
其他页面的参数值设为:
6*0.15
这种算法非常有益于PageB。下面给出一个例子。前面网站架构例子最后得到的结果是:
用新的对参数分布方法可以得到下面的结果:
可以看到,“About Us”页面的等级得到了很大的提高,可是这是以其他页面等级的降低作为代价的。页面等级不只是考虑链接因素,它还要其他的一些因素。当然没有任何理由阻止我们去提高单独一个页面的页面等级,同样也没有任何理由阻止我们提高整个网站的页面等级。我们应当用所有可能的影响因素来提高它,这些因素可能包括网站受欢迎的程度。
受欢迎网页目录
建立受欢迎网页目录是基于下面的原因。既然在提高某些网页的等级时会使向这些网页提供链接的网页以及这些网页所链接网页的页面等级减少,那么就能够为了提高一些网页的页面等级而降低另一些网页的页面等级。为什么要这么做呢?我们可以建立一些包含一个链接列表的网页,链接列表中是指向那些页面等级高的网页的链接。假定PageB就是这样一个网页,即为分类页。
设PageB的规范化系数为0.06,其他页面的参数设为0.18。得到结果:
这正是我们想要的结果。这样做有几个优点,提供链接列表的网页本身的页面等级会降低,然而它提供链接的网页的页面等级却会得到很大提高。访问者不可能会喜欢那些只有链接的网页,而会选择有好内容的网页。另外那些安装着Googe页面等级查看工具的网站也不会要求这种只有链接列表的网页提供链接,因为它们被低页面等级欺骗了。
针对高级读者的页面等级数学问题
Google Spider查看网站,从网站的页面上找到链接组成链接矩阵,链接矩阵包含着这个网站所有的拓扑关系。
设链接矩阵的元素为。
这表示什么呢?
对应着网站的网页。
代表链接矩阵中第K行,第m列相交的元素,其值是指从网页到网页的链接数。
是指网页上所有的链接数。
网页页面等级的计算公式是:
是在第(l+1)次迭代运算时得到的网页的页面等级估计值
是在第l次迭代运算时得到的网页的页面等级估计值。
是网页上所有的链接数。
从网页到网页的链接数。
D是衰减参数(一般取0.85)。
(1-d)是规范系数。
N是网站上所有的页面总数。
这个递归运算公式在计算一个网站的页面等级估计值时可以考虑到页面链接的复杂性。
看一下下面这个例子,对这个网站应用页面等级的方法。
可以看出第二个子图里的每一个网页都与第一个子图的所有网页相连。下面写出这个网站的链接矩阵,A,B,C,D,E,F,G,H,I代表相应的网页。
从中可以看到页面等级算法可以很好的分辨出重要的网页和指向它的外部网页间的关系。稍后我们将用基本页面来描述这些重要页面。基本页面最重要的特征就是它们处于一个有向圆里。让我们对这个网站的页面应用页面等级估计值运算加速技术。
假设是第I次迭代运算得出的网页T的页面等级估计值(T=A,B,C,D,E,F,G,H,I)。
计算时的规范系数由公式得到。
在应用页面等级估计值运算加速技术时,与网站相关的外部网页的页面等级估计极限值都为0。这种方法可以让我们分辨与基本页面相关的外部页面。由此得到下面的定义:
与基本页面相关的外部网页,当用页面等级估计值运算加速技术计算其页面等级时,其页面等级估计极限值都为0。
计算结果(P49)
对上例的网站来说,E,F,G,H,I是与基本页面A,B,C,D相关的外部页面。
下面让我们用固定的规范系数(d=0.85),来计算页面等级估计值。结果(P51)
在进行迭代运算的过程中,保持页面等级总和不变(为1),将页面等级分配到各个页面中,可以得到各个页面的所有页面等级可能估计值。
在另一个类似的演示中,使用了著名的香农经典公式,这个公式一般用于对信息量的计算中。
对应一个各个页面的页面等级估计值子集(n个估计值),可以得出n个试验输出。
对一个网站的所有网页计算其页面等级估计值可以得到下面的一个结果子集:
页面等级是多重有效图的一种有效表示。多重有效图被熟知的是被用来描述和建立自学习系统。自学习系统可以建立动物行为模型。
假设动物对每次激励都必须做出一个决定,例如向左转向右转指令。这样每次动物都会按照我的要求去做,引入运算符:
(P-估计值)
关于这个主题的理论知识可以从Bush和Mosteller的经典著作中找到。
我们可以 把他看作是香农公式的一个变形,也就是这个公式导致了页面等级的产生。
进一步阅读资料和其他资源
如果有兴趣进一步研究页面等级技术,推荐访问下面的资源:
本文档作者欢迎来自搜索引擎,数学,搜索引擎优化领域的专家对本文档提出意见。这种反馈对我们来说是非常重要的。如果你要对本文档内容提出意见可以发email到:
chris@supportforums.org。
在网络信息检索领域,页面等级技术是最主要的也是最广泛被讨论的超级链接分析算法。但是这种技术的具体细节仍然不为外人所知。Chris Riddings 和 Mike Shishigin的页面等级揭密提供了页面等级技术详细,深入也是最接近事实的解释。不管你水平如何,这篇文档你都是应该读一读的。






















