日志分类:google

GOOGLE 对垃圾网站的人工干预

2007-09-23   |  分类:google

自从谷歌中文网站管理员博客开站以来,感觉的到谷歌跟站长们的沟通越来越近,不象以前那样跟google反垃圾组沟通总是觉得怎么遥远。最近谷歌中文网站管理员博客发了一篇《我们怎样处理垃圾网站举报?》,以下是官方站点内容:

发表者 谷海一粟, WebSpam 组
转载自谷歌中文网站管理员博客

谷歌网站管理员工具不仅能帮助我们和网站管理员沟通,也提供了举报垃圾网站的在线渠道。感谢我们的用户,我们收到了很多垃圾网站举报。这些举报对我们改进搜索质量,给出更相关、有用的结果有很大帮助。谷歌用户可以很方便地通过两个渠道(认证的和不需认证的)进行垃圾网站举报。我们往往优先处理通过认证的渠道(譬如站长工具)递交的垃圾网站。当然,你也可以提交未经认证报告。由于未经认证报告是匿名举报,我们给他们赋予的优先级会相对较低。

这里我们想讲一讲我们是如何处理从站长管理员工具得到的垃圾网站举报的。

我们评估垃圾网站举报

我们非常重视垃圾网站的举报,并有专门人员及时处理。

我们主要根据我们的网站管理员指南来处理垃圾网站举报,确定是否赞同或不赞同用户的举报。

垃圾站点通常使用作弊手法来误导搜索引擎使之错误地把用户带入某些网站。谷歌网站管理员指南包含大部分(但不是全部)常见形式的欺骗性或操纵行为。我们建议你经常阅读我们网站管理员帮助中心上的网站管理员指南。该指南内容将不但帮助你创建一个对搜索引擎友好的网站,而且避免了谷歌和你的用户把你的网站看作是垃圾网站。

在有些情况下,我们并不赞同用户的举报内容,被举报的网站将不会受到任何影响。对确认作弊的垃圾网站我们会将他们转交给我们的软件工程师作出相应的惩罚。

我们对确认的垃圾网站进行惩罚

对确认作弊的网站,我们会人工地或从算法上采取一些行动。当然,我们对作弊网站的惩罚度会视网站违反质量指南的严重程度而定,也就是说,对确认作弊的网站并不总是把他们全部从我们的索引中移去。

改进反垃圾网站算法
反垃圾网站算法是我们打击垃圾网站最有效的方法。对某一网站的举报可能改进我们对所有类似垃圾网站的处理算法。当然,在我们使用我们的新代码之前,我们会大量地测试新代码。这个过程需要时间。当人们问”为什么我举报的网站没有受到惩罚?”,如果是我们确认的垃圾网站举报,很可能是我们正在给出,或者将会给出一个算法上的处理。

人工处理一个垃圾站点
我们也可能人工处理一个确认了的垃圾网站。这个过程显然要快得多,但它并不是一个健全的方法。我们更愿意使用算法改善我们的搜索质量。

我们可能联系网站管理员,让他们改正他们的网站

如果我们发现一个被举报的垃圾站点可能无意中违反了谷歌网站管理员指南,我们会试图联络网站管理员来以纠正他们的错误。我们可能通过电子邮件来联系网站管理员。如果他们已经在网站管理员工具上确认了他们的网站,我们会通过信息中心来传递我们的信息。

我们的宗旨是为用户提供最相关的结果。我们希望我们的用户和网站管理员继续举报垃圾网站。它对我们改进算法和改善搜索质量是有很大帮助的。如果您还不了解什么是垃圾网站,请访问我们的帮助中心或者在我们的讨论组上发表你的问题。当然,如果你发现一个垃圾网站,请告诉我们

google高级搜索技巧

2007-08-29   |  分类:google

连接符
使用引号强制搜索整个短语
例如: 搜索[“Google的高级搜索技巧”]将只会返回包含这个完整短语的网页
使用加号
如果您希望只搜索中包含某个词组的网页,可以使用“+”强调,例如,使用类似于[网站优化 +SEO探索]搜索项,将会返回内中肯定包含“SEO探索”的网页,但是否一定存在“网页优化”则未必,尤其对排名靠后的网页而言。
使用减号
为了更精确地匹配搜索结果,有时候我们希望将部分网页排除在外,这时候可以使用“-”。比如说,我想查询一下本站的Google的补充结果,网页的坟墓?被哪些网站拷贝,可以使用类似于的搜索项。
一般技巧
site:seo.highdiy.com
这将返回SEO探索网站被Google收录的全部网页。
related:www.highdiy.com
返回与指定URL相关的网页
link:www.highdiy.com
返回指定URL的反相链接列表,在某种意义上,可以作为反映网站权威度的参考,更详细的解释参见如何查询反相链接的准确数量
cache:www.highdiy.com
返回指定Url的网页快照,不过,国内用户最好还是不要用Google的快照功能,不然,要做好一定时段内不能访问Google的准备。
info:www.highdiy.com
返回Google对指定Url网页所知的信息
高级技巧
filetype:
指定要搜索的文件类型,如[filetype:PDF]将只返回文件格式为PDF的搜索结果。注:可以与(-)结合使用,如[SEO探索 -filetype:PDF]将返回除PDF格式之外的搜索结果。
daterange:
输出指定日期范围内的搜索结果,注意,只支持Julian日期格式。
allinurl:
通过使用 [allinurl:]限定的搜索项,可以让Google返回精确匹配在URL中包含相应搜索项的结果,如[allinurl: seo highdiy]将返回Url中同时具有“seo”和“highdiy”的结果,基本上这些结果除极少数外都应是SEO探索的内部网页。
inurl:
[inurl:]与 [allinurl:]的区别在于,让我们继续用上面的例子说明,[inurl:seo highdiy]的返回结果是,Url中包含“seo”,而“highdiy”则可以出现在网页内或Url中,可以看出其结果的范围要比[allinurl:]大不少。
allintitle:
同样地,使用[allintitle:]命令的返回结果将返回在网页Title中同时包含所有搜索项的网页,如 [allintitle: SEO 探索] 的返回结果中网页标题中肯定同时包括“SEO”和“探索”。
intitle:
[intitle:seo 探索]将返回那些在网页标题中包括“SEO”同时在网页内容或标题中存在“探索”的网页。
  当然,如果您不愿意费力去记这些稍嫌啰嗦的命令,使用Google的高级搜索也可实现大部分的功能。

Google 的最新标签的用法和说明

2007-08-12   |  分类:google

上个星期的新英格兰搜索引擎营销会议上,Google 员工Dan Crow 透露了将会在不久后支持unavailable_after 标签。之后,Barry Schwartz 向Dan Crow 咨询了有关unavailable_after 的更多信息,包括其用法。

unavailable_after 的作用:告诉Google 搜索引擎爬虫某个页面将在指定时间后失效。也就是说,在指定的时间之后,Google 将会从索引中删除该页面。

unavailable_after 标签的用法:与其他Meta 标签一样,只需在网页源代码的头部信息中,加入如下标签即可:

<META NAME=”GOOGLEBOT” CONTENT=”unavailable_after: 20-Jul-2046 14:20:00 GST”>

其中,name 后面的值表示Google 爬虫代号,“20-Jul-2046 14:20:00 GST” 表示某个时区的标准时间。

当然,利用Google 网站管理员工具里的网址删除工具也可以随时彻底地从Google 索引中删除某个网页。
据说,为了解决非HTML 文档(如PDF、xls 文档等)的索引权限问题,Google 今后还会增加一个 X-Robots-Tag 标签,具体用法还有待说明。
版权所有,转载时必须以链接的形式注明以下声明:
原载于 搜索引擎周边

Google 网站管理员博客上列出了Google robots 支持的一些mata 标签,它们将有助于网站管理员更好地控制自己的网页在Google搜索引擎中的索引方式。

NOINDEX -不索引当前页面
NOFOLLOW -不跟踪当前页面中所有的链接
NOARCHIVE -在搜索结果中不保存当前页面的快照
NOSNIPPET - 在搜索结果中不采用当前页面的头部描述信息,且不保存当前页面的快照
NOODP -搜索结果中不使用DMOZ 中的描述信息,Yahoo!、MSN也支持此类标签。
NONE -不索引当前页面以及其中的所有链接,跟“NOINDEX, NOFOLLOW” 含义相同

这些属性都是用在网页的头部信息的meta 标签中,用法如下:

(只包含单个属性)
(包含多个属性,用逗号间隔)

如果需要在页面的链接中加入nofollow 属性,直接在<a>标签中加入rel=”nofollow” 即可。
版权所有,转载时必须以链接的形式注明以下声明:

官方解释:网站显示的广告针对性不高或者显示公益广告,造成这一现象的原因可能有多种。以下列出了最常见的一些问题。

1.我们的系统尚未抓取到贵网站的所有网页。
您可能会发现,在将 AdSense 广告代码置于网页上之后,自己却没有看到最具针对性的广告。如果 Google 以前没有搜索过您的网站,则我们的抓取工具可能需要 48 小时或更长时间才能从您的网页收集内容。您在此期间可能会看到公益广告,不过这些广告无法为您带来收入。或者,您只能看到稍具针对性的广告。针对性会随时间而加强。

2.您的网页可能包含敏感内容,而对于这类内容不会显示相关的付费广告。
我们的系统已设置了特定的过滤器,防止我们的广告客户在可能含有负面内容、不健康内容甚至是攻击性内容的网页上做广告。尽管您的部分内容从本质上讲确实不应归入这些类别中的任何一种,不过,有时在网页上强调某些敏感话题也会使我们的服务器向此网页投放公益广告。

3.贵网站在网址中使用了会话 ID 号。
如果您的网页使用了会话 ID 号,则不能在这些网页上投放相关广告。因为每次有不同的用户查看网页,这一会话 ID 号都会发生变化,导致网址也跟着发生变化,所以,此网址不会出现在索引中,而是进入待抓取队列。而等到抓取到此网址时,会话很有可能已经终止。这就造成用户看到的网页始终无法进入索引。若要显示相关广告,就要删除会话 ID 号。

4.贵网站使用 robots.txt 排除文件限制了某些访问。
如果贵网站使用了 robots.txt 文件,则 AdSense 抓取工具可能无法抓取到您的网页,我们也就无法根据贵网站的内容向您投放最具针对性的广告。如果我们无法抓取某些网页或者无法理解网页内容,则可能会在这些网页上投放公益广告,而这些广告无法为您带来任何收入。

您完全可以做到既允许我们的抓取工具访问您的网页,同时又不会给任何其他抓取工具以许可权。您只需向 robots.txt 文件的开头添加以下两行即可:

User-agent: Mediapartners-Google*
Disallow:

经过这一改动,我们的 Googlebot 就能够抓取贵网站的内容,便于我们向您提供最具针对性的广告。

有关 robots 协议的更多信息,请访问 http://www.robots.org

5.我们无法抓取您的网页。
有时,因为您的 Web 服务器出了问题或者到贵网站的连接出了问题,我们的抓取工具可能无法访问您的网页。如果我们在试图检索您的 robots.txt 文件时意外地收到服务器发生错误的信息,则在问题解决之前,您的网页将显示不具相关性的广告或公益广告。
如果我们的系统接到了您的 Web 服务器发生错误的信息,我们的抓取工具将定期尝试访问此网页,看看它是否已恢复正常。在我们的抓取工具能够访问此网页之前,您的网站将显示不具相关性的广告或公益广告。

6.贵网站使用了框架。

为了便于我们的系统根据贵网站的内容投放针对性更强的广告,请在生成广告代码时选中广告布局代码页的框架式网页复选框。这样做之后,我们的抓取工具将从您的框架中收集内容,便于我们针对您的内容投放广告。

7.AdSense 代码被置于 IFRAME 内。

我们的定位技术尚未面向在 IFRAME 内投放广告进行优化。如果您将 AdSense 代码置于 IFRAME 内,您的网站可能会显示针对性较差的广告或公益广告。为了实现更好的效果,请将我们的广告代码直接置入网页的源代码中。即使您进行了这些改动,也可能不会立即出现针对性较强的广告。我们可能需要 30 分钟或更长时间才能重新抓取您的网站,在此之前,您的网页可能会继续显示不具针对性的广告或公益广告。

8.您的网页需要登录。

目前我们的抓取工具还不能非常方便地访问需要登录的网页。另外,因为这些类型的网页不容易进行访问和审核,而且我们的 AdSense 专家也很难确认这些需要登录的网页是否符合 Google AdSense 政策,所以,我们无法对这些网页提供支持。

9.您在帐户过滤列表中添加了过多的网址。

如果您在过滤列表中添加了过多的网址,我们有时可能无法针对您的内容找到其他广告。因为这个原因,您可能也会在自己的网页上看到针对性不高的广告或公益广告。

10.您的网页包含的内容不够多。

贵网站上包含的信息不够多,我们的抓取工具不能判断您的网页内容。因此,我们可能无法确定能够显示在您的网页上的相关广告。请注意我们的抓取工具无法了解下述内容的含义:

* 音频和视频文件(.wma、.mpeg 和 .mov)
* mp3 文件 (.mp3)
* 图像(.jpeg 和 .bmp)
* Macromedia Flash 动画
* Java 小程序 (Applet)

在这些情况下,我们建议您在贵网站上提供除上述文件之外的更多内容,使得抓取工具收集有关贵网站的信息,从而显示相关广告。

google优化的26原则

2007-07-29   |  分类:google

相信不少站长都听说过站长世界webmasterworld.com(也有的是翻为网管世界)这个论坛。这是世界上最著名的站长们聚集的地方,谈论各种与网站有关的话题,包括搜索引擎优化,网络营销,网站建设的技术问题,电子商务等等。

站长世界的创始人Brett Tabke,是搜索引擎优化领域里教皇级的人物。据说他以前是经常使用和实验各种作弊手段的人物,当然他现在已经改邪归正了,至少表面上看起来如此。

近些年,他在站长世界里的帖子并不是很多,而且都非常简短。但无论他帖什么,往往都被追捧。因为他所管理的网站涉及面之宽,他本人所亲身认识的各个搜索引擎和各大电子商务公司的高层人物之多,以及他在网络世界里的权威地位之高,使他的话不得不被重视。

他有一篇非常著名的关于Google排名优化的文章,标题是”十二个月内,仅仅依靠Google打造成功网站“。

这篇文章写于2002年2月3号,到目前为止,这篇文章还是被奉为Google排名优化的圣经。所有资深的搜索引擎专家无不对这篇文章推崇倍至,而且Brett Tabke也多次骄傲的声明,就算过了四年时间,历尽了多次Google更新和Google算法的改变,他的这篇Google排名优化文章还是没什么好改动的。

我简单的搜索了一下有没有中文译本,竟然没有找到。当然也可能有人翻译了,而我没有找到。不过,这篇文章太重要了,所有对搜索引擎排名感兴趣的人不得不读。所以我在这里把要点翻译出来供大家参考。

下面是文章翻译:

让我们跳过理论来看看实际对Google有效的方法。我知道下面的这个系统对Google来说,每一次都有效,而且对所有的关键词都有效。这个系统 是我给客户做网站时所应用的,而且百试不爽。成功的程度当然也取决于网站所在的行业,潜在市场和竞争水平。下面的要点可以让你仅仅依靠Google,在一 年的时间里,打造一个成功的网站。

a)准备工作和建立内容。

在你注册域名之前,你就应该记录下你的想法,应该准备足够100个网页的内容。请注意是至少。这100个网页应该是真正的内容,而不是链接页,关于我们页,联系我们或者版权声明等等杂七杂八的网页。

b)域名。

你应该选择一个很容易建立品牌的域名,你要的是Google.com,而不是关键词.com。充斥关键词的域名应该被丢弃,易于建立品牌的和容易辩识的域名才是最好的。

域名当中所包含的关键词作用现在非常之小。为什么goto.com改名为overture.com,那次改名是我所见过的,最大胆的策略之一。这个改名的策略摧毁了几年时间所建立的品牌。

c)网站设计越简单越好。

一个指标是文字内容的比重应该大于HTML格式的比重。整个网页应该规范化,应该在所有的浏览器上显示正常。比如使它符合HTML3.2标准。搜索引擎蜘蛛还并不太喜欢HTML4.0标准。

应该远离那些太重的因素:flash, dom, java script等。如果你必须要使用这些脚本的话,把他们作为外部文件来使用。在我看来,根本没有必要使用这些东西。这些东西几乎不能给一个网站增色,却会 极大的从各个方面伤害网站的表现(搜索引擎友好问题只是其中之一)。

用逻辑的方式安排你的网站,可以在目录名当中使用关键词。你也可以采用另外一种方法,也就是把所有的网页都放在根目录当中(这种方法很少见,但是事实证明是非常好的有效的方法)。

不要让你的网站堆砌一大堆没用的东西,比如说建议使用什么什么浏览器,或者计数器等等,使它保持最简单化,看起来专业化。向Google自己学习,看看他的主页,简单的没法再简单了。这也正是人们所需要的。

速度不是最重要的因素之一,而是唯一的重要因素。你的网页应该非常快速,如果你的网页会延时3,4秒钟,你就完蛋了。当然如果你的主机和访客在不同 的国家, 3,4秒钟还有情可原,对当地的访客来说,3到4秒钟的下载时间已经是极限了。超过这个时间,每多一秒钟,你就会丧失10%的流量。而这10%的流量可能 正是成功与失败的分野。

d)网页大小

越小越好,最好保持在15K以下。越小越好,最好保持在12K以下。越小越好,你最好保持在10K以下。你明白了我的意思了吧。比5K大,小于10K,这是最好的。很难做到,但是却是最有效的。对搜索引擎也有效,对访客也有效。

e)内容

每天建一页两百到五百字的网页。如果你不知道该写些什么的话,做点关键词调查,然后根据你所得到的热门关键词写文章。

f)密度,位置等等

简单老式的SEO,在这些地方用一次你的关键词:网页标题,说明标签,正文标题,网址URL,黑体,斜体,网页的最开始。关键词密度介于5%到20%之间 (也别太在意)。写出好的文章,并且检查错字。拼写检查(对中文来说,检查错字)正在变得越来越重要。因为搜索引擎已经开始运用自动纠错功能,所以已经没有可以写错别字的借口了。

g)导出链接

在每一个网页连向一到两个排名高的网站,在链接文字当中加上关键词(这一点对未来来说很重要)。

h)网站内的交叉链接

指的是同一个网站内的链接。在你的网站之内,高质量的内容之间互相链接起来。如果一个网页是关于食物的,那么你应该确保这页连向关于苹果的和蔬菜的那些页。尤其对Google来说,基于共同内容的相互链接对在你的网站之内分享PR是非常重要的。

你要的不是使其他网页黯然失色的一个全明星网页,你需要的是50个每天吸引一个访客的网页,而不是一个每天吸引50个访客的网页。如果你发现你的网 站里面有一页,确实是吸引大部分流量的页,那么你就应该把这一页的PR值通过交叉链接,分散到其他网页上。这有一点像老话说的分享财富。

i)开通网站

最好不要使用虚擬主机。最好使用你自己的单独的IP地址。确保你的网站可以被搜索引擎蜘蛛所索引。所有的网页都应该连向你网站里其他的网页。所有的网页距离主页都不应该超过两次点击。所有内容页也都应该链接回主页。一个在所有页上都存在的菜单系统,应该链接到你的网站上的主要部分。

在你完成一个高质量的网站之前,不要把它开通。开通一个不好的网站,比不开通网站更糟糕,你要的是从一开始就是一个优秀的网站。

申请登录开放目录,如果你有预算的话,也申请提交到雅虎和其他付费目录。如果没有预算的话,可以试试雅虎的免费提交,但是不要抱太大希望。

j)网站提交

把主页提交到Google等搜索引擎,然后接下来六个月就忘了这件事。没错,提交,然后忘了它。

k)记录和跟踪

使用一个高质量的能够记录访客来源的日志分析软件。如果你的主机提供商不提供访客来源,你就应该使用另外一家主机提供商。

l)观察蜘蛛

观察来自搜索引擎的蜘蛛们,确保蜘蛛在爬行你的整个网站。如果不是的话,你应该检查你的所有链接系统,确保蜘蛛能发现你整个的网站。如果搜索引擎需要两次才能检索完你的网站,你也不要害怕。对很多搜索引擎来说,可能需要六个月才能发现和爬行你的网站。

m)主题性的分类目录

几乎每一个行业都它自己的权威分类目录,去提交到这些分类目录当中。

n)链接

到Google版本的开放目录查看一下你的网站所在的行业,找到那些可以免费交换链接的 网站,要求和这些网站交换链接。在主题性的网页上选择一段内容做为链出的文字。如果那些网站的站长不愿意和你交换链接,也没什么,继续下一个。每一天与一 个新的网站交换链接,一个很简短的个人化的邮件就足够了。如果某个网站不愿意链接向你,别把它当回事-实际上早晚有一天他们会的。

o)内容

每天一页高质量的有内容的网页。有实效性的有主题的文章永远是最好的。避免太多博客型的个人化的东西,应该写更多文章类型的普通观众愿意看的内容。

提高你的写作技巧,学习适合网上人群的写作方式,多分段,短句子,读起来快的内容。大部分的网站访客不是读,而是浏览。这也就是为什么短的文章很重要。如果你看到一大篇不分段的文章,很多人马上就会按返回按纽了。

人们不会浪费15秒的时间,来了解你的花里唬哨的菜单系统是怎么工作的。某一个大公司的网站放上一个flash菜单系统,并不意味着你也必须这么做。

使用标题,使用黑体来强调重点,并且也是逻辑分割。

p)秘密武器

离所谓的秘密武器,或者今天有用明天就没用的东西远一点。不要用任何看起来像垃圾的东西,任何不道德的,或任何接近于作弊手段的东西。

q)导出链接

当你收到交换链接请求的时候,要仔细查看对方的网站,不要轻易就链接回去。通过Google查看他们的网站,并看他们的PR值。不要链接到有问题的网站和质量不高的网站。确保对方网站和你的类似,是同一个行业的。

r)丰富你的网站

可以用一些内容丰富你的网站。比如说推荐网页给你的朋友,论坛,邮件列表,电子杂志等等。去看一下你本行业的论坛,读的越多越好,直到你读不下去了。

s)注意小册子类型的网站

如果你运行的是电子商务网站,或者你有一个真正的店面,想把生意扩充到英特网上,要注意不要把你的网站做成一个宣传手册。想想人们需要什么,访客不 是来你的网站看你的内容,他们是来你的网站寻找他们自己所需要的内容。在你的文章当中,尽量少谈你自己和你的产品(我知道你在怀疑,你自己好好想想)。

t)每天增加一个网页

回到关键词研究,找出好的点子,写新的网页。

u)研究日志文件

过了30到60天之后,你应该开始从已经被登录的地方得到一些访客。仔细看一下,人们是用什么关键词搜索找到你的网站的?是不是有一些很莫名奇妙的关键词组合?为什么人们会用这些关键词找到你的网站呢?有没有什么东西是你所忽视了的呢?很有可能你应该以这些为主题,创建更多的网页。

仔细研究你的网站和日志,给搜索引擎需要的网页。搜索引擎会准确的告诉你,他们想要什么。你要仔细的看,在你的网站日志当中有一座有待开发的金矿。

v)实效性的话题

在你的行业当中,永远走在别人前面。比如说如果一个大公司Z,在年底要推出产品A,那你可以在十月份之前就做好一个网页,是关于产品A的。那么在十二月份之前,搜索引擎就已经收录了这个网页。

w)朋友和家人

社交联系网络对一个网站的成功也非常关键,这也是你看那些论坛的时间要得到回报的时候了。仅仅是看永远是没什么用的,论坛的价值就在于和其他的同事及网友交流。通过交流,你可以得到长远的利益,而不是仅仅读论坛。这种交际网络也会通过其他方面得到回馈。比如说导入链接小窍门,电子邮件交换意见,成为这个行业的专家的可能性等等。

x)记录

如果你每天增加一个网页的话,你会发现有的时候,一个好主意突然就出现了,没准你正在洗澡(先擦干了),正在驾车(先把车靠在路边)或者也许就在桌子上趴着。当一个好的点子出现的时候,把它记下来。不然十分

GOOGLE页面等级技术解密(2)

2007-07-29   |  分类:google

标题标签  只能出现一次  
网页内容中的关键词  关键词的重复会逐渐降低其重要性。而与关键词相似的词有较高的重要性。  
链入锚文本  有较高的加权值,可是同网页内容中的关键词一样,有一个影响临界点,超过临界点的链入锚文本就不再有价值  
页面等级  可以无限增加。你可以不断提高网页的等级,但是比较浪费时间。  
除了页面等级其他的影响因素都有一个影响临界点。如果超过这个影响临界点,那么这些因素就不再有提高你网页排名的能力或者能力大大降低。而页面等级则没有影响临界点。
非页面等级影响因素的影响临界点
知道了页面等级与其他影响因素的区别以及提高页面等级有多难,我们可以用多种方法来提高网页排名。但是我们应该清楚有一个临界阀值,这个临界阀值决定了页面等级是否有用。
除了页面等级,其他的影响因素都有一个影响临界点,超过这个影响临界点,这些影响因素对网页排名的影响就微乎其微了。这就是非页面等级因素影响阀值。下面我们给出一个例子,在这个例子中临界阀值取1000。
在一次搜索中我们得到两个搜索结果网页A和网页B,两个网页都有一个分数,这个分数是所有影响因素的分数和(包括页面等级的分数)。假设网页A的分数是900,网页B的分数是500,很明显,在搜索结果中网页A将排在网页B的前面。这是在两个网页的分数都低于所给临界阀值的情况下,在这种情况下,网页B可以在不改变页面等级的情况下通过优化其他影响因素来使自己的分数超过网页A。Google中有很多这样的情况,这种搜索通常被认为是低竞争搜索。
现在假设网页A的分数增加为1100,这样网页B如果不提高它的页面等级分数就无法与网页A竞争。不管如何,网页B还是需要优化其他影响因素,但这时提高页面等级分数也是必要的。Google中也有很多这样的情况,这种搜索通常被认为是强竞争性搜索。
一般来说,每一次Google搜索的结果中都包含一些分数超过非页面等级因素影响阀值的网页,另一些则没有。
这儿给出一个重要的论点:
想要网页具有竞争性,就必须提高网页的搜索引擎排名分数到非页面等级因素影响阀值以上。如果不能做到这一点,你就会很容易被其他网站击败。提高非页面等级因素分数的最快方法是优化网页,可是如果没有页面等级分数,你就无法超过这个阀值。
现在的问题是非页面等级因素影响阀值到底是多少,以及如何来超过这个阀值。答案是我们并不能给出非页面等级因素影响阀值的一个具体的值,这只是一个假设线。Google可以给出一个值,可是如果我们无法知道一个网页的分数,这个值也就没有用。我们只需要知道有这么一个阀值,它能给我们提供一些搜索算法原则的信息。
用阀值分析两种排名策略
阀值理论解释了搜索引擎的工作原理以及不同方法,并解释了一些对页面等级误解是如何产生的。现在让我们来考虑两个人对页面等级采取的不同策略,其中A认为页面等级是无关紧要的,而B则认为页面等级是非常重要的。
A认为页面等级是不重要的。凭借多年的经验,他们能够非常成功的通过改善页面因素来优化他们的网页。他们了解链入锚文本基础但是却一点也不关心页面等级。
这样做的结果是什么呢?A可以通过提高页面因素的分数很快的使自己网页的分数达到非页面等级因素影响阀值。例如可以通过关键词细心的挑选可以使网页在搜索结果中的位置大大提前。另外只要有好的网页内容,排名高的网站就会提供对它的链接。虽然它们没有直接要求,但是越来越多的网站提供对它的链接,这就会提高它的页面等级,从而更加巩固其地位。
B认为页面等级是重要的,我们都曾经见到过没什么内容而排名却靠前的网站。B知道页面等级的妙用且乐此不疲。
这样做的结果又是什么呢?B做的与A恰恰相反。A关注与非页面等级因素而同时得到了页面等级的提高,B则关注于页面等级因素也同时提高了非页面等级因素。这是因为要提高页面等级就需要其它网站的链接,而链接上又有链入锚文本。这样,通过恰当的选择链接的链入锚文本就可以在提高页面等级的同时提高非页面等级因素。
显然,这是两个极端,我们可以据此推断这两种策略的优缺点。
 优点  缺点  
A  能够快速使自己进入搜索结果
其它网站自动提供链接,减少了所需要工作量  难以保住其优势地位,在竞争时要做更多的工作才能取胜。
对新的竞争者不能及时做出反应。  
B  如果有必要能较容易的改变页面因素以大幅提高其排名。
有可能通过搜索引擎以外的途径得到大的访问量。  进入搜索结果较慢。
难以做得很好。
增加了被当作垃圾网站过滤的可能性  
很明显两种策略都可以起作用,两种策略都融合了页面等级技术以提高其网页在搜索引擎结果中的排名。就是说页面等级在两种策略中都得到了应用,只不过其重要性不同而已。既然如此,就可以通过调节页面等级在策略中的重要程度来产生一种适合自己风格的策略。就我来说,我会融合这两种策略,但开始时会保留一些页面因素以便在竞争中需要大幅提高自己排名的时候使用。
真正残酷的竞争
如果最后没有关于关键词密度竞争的描述,任何对于页面等级策略的解释都是不完整的。有一些查询竞争非常激烈以致于你必须用任何可能的方法来提高你的网页排名分数。在这种情况下不可能只是通过提高非页面等级因素的分数来提高网页排名分数(因为不可能一开始就可以排在前面而得到访问者的注意和得到其他网站的链接)。这绝不是说非页面等级因素不重要。最后的网页排名分数是这样得到的:
最终排名分数 = 页面等级分数 × 非页面等级分数。
 提高等式任一边的分数都可以产生积极的效果。然而由于非页面等级分数有一个最大值限制,所以要在竞争中取得最终的胜利必须提高页面等级分数。在真正残酷的竞争中,如果你页面等级没有达到一定程度,你的排名就不可能得到好的排名。也就是说:
在查询时,存在一个特定的最小页面等级水平。在竞争不激烈的查询中,不需要费劲就可以达到这个水平。然而在竞争激烈的查询中,在达到非页面等级因素影响阀值前,非页面等级同样非常重要。这也就是为什么选择好的关键词可以避免很多额外的工作。
 页面等级是如何计算的
 我们在一个简单的水平上可以得到关于页面等级是如何计算的很多资料。这是因为当页面等级还只是一项研究课题的时候,其作者曾发表了一篇详细介绍计页面等级运算公式的论文。现在很多年已经过去了,我们怀疑这个公式已经被改变了很多。但是为了详细揭露页面等级算法的原理以及是如何工作的,我们在这儿精确的给出原先的公式:
PR(A) = (1-d) + d (PR(T1) /C(T1) + … + PR(Tn) /C(Tn) )
 其中PR(A)代表页面A的页面等级。
 D是衰减算子,一般设为0.85。
 PR(T1)代表对页面A提供链接的页面T1的等级。
 C(T1)代表页面T1所提供链接的页面数。
 PR(TN)/C(TN)表示我们为每一个向页面A提供链接的页面做同样的运算。
 由此可见,1)这个算法不以站点排序,页面等级由一个个独立的页面决定;2)页面的页面级别由链向它的页面的页面级别决定,但每个链入页面的贡献的值是不同的。如果Ti页面中链出越多,它对当前页面A的贡献就越小。A的链入页面越多,其页面级别也越高;3)衰减算子的使用,减少了其它页面对当前页面A的排序贡献
 是不是不能再简单了?这个公式是非常简单还是过于复杂取决于你的数学水平。上面的公式虽然非常精巧,但是你无法只做一次简单的运算便得到一个页面的页面等级。从公式我们可以知道,要计算页面A的页面等级,我们必须首先知道对它提供链接的所有页面的页面等级。而要知道这些页面的页面等级我们又必须知道指向这些页面的所有页面的页面等级(其中很可能包括页面A)。可以看到这是一个无穷无尽的循环。
 为了得到我们需要的答案,我们不得不做很多很多次小的运算。这个公式可以告诉我们的是:不论你对这个公式如何细分也不管公式到现在是否已经被改变,页面A因为页面B提供链接而增加的页面等级将会随着页面B向其他网站提供链接数的增加而减少。从中可以看出一个页面向其他页面提供链接就像在为其他页面投票,它可以把这张票只投给一个,也可以把这张票分成许多份投给多个页面,但一个页面只有这一张票,票的价值由此页面的页面等级决定。
 这个结论是非常重要的。现在我们用具体的数字来解释一下(这些数字单纯是为了解释这个结论,并不是针对某一个特定网站)。假设页面B的页面等级为5,且只有一个指向页面A的链接。这样页面A的页面等级会因为页面B提供的链接而增加(页面B并不会因此而损失什么,页面A却因此受益匪浅),增加值与页面B的页面等级成比例。如果页面B为其他两个页面提供了链接,则页面A因为此链接而增加的页面等级将会减半。
 现在先把公式放在一边,用一个图表可以更容易的解释它是如何工作的。假设我们有一个页面集包括页面A,页面B, 页面C, 页面D,他们之间链接关系如图:
 
 在本例中,一开始我们并不知道每个页面的初始等级是多少。在这儿我们给每个页面等级用任何初始值都没有关系。在本文档的上一版中我们在计算时设的初始值为1,这次我们把初始值设为0,你会看到初始值设为多少并没有关系。
 下面我们就着手计算每个页面的页面等级。计算规则是:
把页面的等级乘以0.85然后除以其向其他页面提供的链接数。
把1中所得的结果加在每一个它所指向的页面的等级值上。
最后为每一个页面的等级加0.15。
 第一步运算是很简单的,因为页面的初始等级都设为0,所以乘以0.85后仍然为0。所以每个页面得到的页面等级为0.15+0。就是说现在每一个页面都有一个0.15的页面等级。现在我们还没有达到目的,我们想要知道的是每个页面链接的重要程度,现在所有页面都是一样。我们作的二次运算:
 页面A分别指向页面B, 页面C和页面D。页面A的等级为0.15,所以页面B,C,D的页面等级将因为页面A的链接而分别增加(0.85×0.15)/3=0.0425。
 页面B指向页面C。页面B的等级为0.15,所以页面C的等级将因为页面A的链接而增加 0.85×0.15 = 0.1275。
 以此论推:页面C因为页面A的链接等级增加0.1275。
 页面D因为页面C的链接等级增加0.1275。
 现在每个页面总的页面等级:
 页面A:0.15(基本分数)+ 0.1275(由页面C得到)= 0.2775。
 页面B:0.15(基本分数)+ 0.0425(由页面A得到)= 0.1925。
 页面C:0.15(基本分数)+ 0.0425(由页面A得到)+ 0.1275(由页面B得到)+0.1275(由页面D得到)= 0.4475。
 页面B:0.15(基本分数)+ 0.0425(由页面A得到)= 0.1925。
 
 是不是很清楚了?从现在看来在这个系统中页面C好像是最重要的(我们仍然不能确定)。用上面的步骤继续运算直到每个页面的等级不再变化为止(这叫做收敛值,在后面的章节中我们还会涉及到)。事实上,Google并不会一直算到最后的收敛值,而是得到一个相当精确的结果值就可以了。如果在上例中做所有运算(总共143次运算),得到的最后收敛值:
 
 
 正如前面所猜测的,页面C在这个例子中是最重要的。快速浏览一下这些原始数据,可以看出一个页面对外提供的链接数对运算结果的影响。页面C对外只提供一个对页面A的链接。页面A对外分别向B,C,D提供链接。这种链接数的不同显著改变了页面等级的分配。
 收敛性
 收敛性是页面等级运算的一个重要数学特性,它可以使Google以相对较小的代价获得前所未有的搜索能力。这个问题有点复杂但是对理解页面等级技术的工作原理非常重要。我尽量简单的对它予以解释,可是如果你不是Sergey Brin 或者Larry Page你就需要多用一点心了。但是不用害怕,也不是特别难以理解。
 在页面等级的运算过程中每一次运算的输出(结果值)都是下一次运算的输入(初始值),不断重复这个过程(递归过程)直到最后得到所要的结果。现在问题是什么时候以及如何结束这个递归过程。
 运算的收敛性就是结束这个过程的关键。在运算公式中存在一个衰减算子(运算公式中的D),因为衰减算子小于1,这就使得运算最终将会收敛到一个值。衰减算子一般设为0.85(Stanford的论文中就用了这个值)。
 运算具有收敛性意味着不论各变量初始值是多少,经过一系列运算后最终结果都将收敛到同样的值,并且这个值不会再改变。这个最终收敛值也叫做极限值。一旦得到极限值,Google就不用再继续运算,递归过程也就结束了。
 用一个例子来解释可能更为容易理解,下面看一个例子。
 
 每次迭代运算后得到的各页面等级:
 
 经过48次迭代运算后,不论我们怎样继续运算,各页面的页面等级将不在发生变化,即收敛到了各自的极限值。
 实际上根本没有必要一直等到得到极限值再停止运算。当得到的运算结果不会再发生大的改变时这个递归过程就可以结束了。在上面的例子中,当前后两次预算结果之差小于
0000000001时,递归过程结束。
 页面等级计算详细说明
 从上面可以看出页面等级的计算是相当复杂并且会占用大量资源。这就提出了两个问题:Google何时会计算页面等级,是否在每个月计算页面等级时为每一个页面使用一个任意初始值?第二个问题是Google是否用多台机子同时来计算页面等级?可以通过几个简单的试验来回答这两个问题。我们在前面的例子中增加一个页面并且改变一个链接如图:
 
 如果计算页面等级时为每一个页面使用一个任意初始值,得到收敛值时需要的迭代运算次数是75次。
 如果运算时页面A,B,C,D的等级初始值使用前面例子中得到的结果,页面E等级初始值设为0,得到收敛值时需要的迭代运算次数为78次。
 可以看出两种方法需要的运算次数是很接近的,所以从逻辑上推断,Google不会为每一次运算设定初始值,而直接用上次得到的结果。
 那么Google是不是多机同时运算呢?很明显当要计算几十亿个页面的页面等级时只用一台机子无疑是不堪重负的,必须多台机子同时工作才能完成。这在逻辑上是如何工作的呢?假设页面A和页面C在一台机子上,页面B,D,E在另一台机子上。如果不考虑在不同机子上页面的链接关系(例如A和D,D和C之间的链接),那么页面A和C只要经过一次运算就可以得到收敛值A=1,C=1。而页面B,D,E则要经过3次运算才能得到各自等级收敛值B=0.15,D=0.3954375000,E=0.3954375000。如果用这些结果作为初始值,考虑所有页面之间的链接关系来计算各自页面的等级则要经过146次迭代运算才能得到收敛值。
 从上面我们可以得出一个结论,把页面等级运算划分成独立部分在不同机子中运算是不可取的。在计算页面等级时必须考虑存在于不同机子上的页面之间的链接关系,每一台机子必须与其他机子协同运算。不论Google是否采取这种方法,要计算如此多页面的页面等级是非常复杂的。
 页面等级反馈及链接的作用
 自从页面等级反馈的概念在本文档的第一版中出现以后,虽然并不是总是正确,但仍然被广泛的采纳和应用。作为一个原则,页面等级反馈解释了何时以及如何提供对外面页面的链接才是有益的。假设我们有一个页面A,其页面等级定为0.15。现在提供对页面B的链接,页面B也反过来提供对页面A的链接。页面A的等级因此变为1。再假设提供了对页面C的链接而得到页面C对它的提供的链接,这样页面A的等级就升高到了1.4594594595。
 页面A提供了对其他页面的链接而得到其他页面对A也提供链接,由此页面A提高了自己的页面等级。还有一种情况,如果页面A提供对页面B的链接,页面B提供对页面C的链接,而页面C又提供了对页面A的链接,这样也可以提高页面A的页面等级。这并不是说我们生成了页面等级,页面等级是由整个页面系统得到的。但如果我们把页面A作为一个小系统(整个页面系统的一个子集),则我们可以确定的说在这个小系统中,页面A对其他页面提供的链接生成了它的页面等级-就是说它对外提供的链接得到了反馈。
 我们用图表来看一个较为复杂的系统:
 
 页面A到E都是存在于Google索引中的页面,页面A和页面B是你网站上的网页。通过计算得到所有页面的等级都是1。页面A,B总页面等级是2。改变系统结构如图:
 
得到各个页面的等级:A = 1.3599321536
 B = 0.7279711653
页面A,B的总等级数为:2.0879033189
可以看出对于等级的提高并不大,但是很容易可以证明,有了页面等级反馈机制就可以通过对外提供链接来显著提高自己的页面等级。如果我们在C,D,E环中再另外增加一个页面,这样你网站总等级数就可以增加2.1462030505。当然最好还是能够与那些较大并且得到较多关注的网站建立互联,使你的网页能够在上面出现。你提供的链接数以及所链接网站的架构会对页面等级反馈产生显著的影响。
 对结果的影响
 现在让我们来考虑在Google中页面等级是何时和如何影响了搜索结果。在这一点上,与此文档第一版时相比,情况已经发生了很大的变化。Google已经表明它可以并且也会去改变确定一个页面的页面等级所依赖的数据。最重要的例子就是众所周知的0页面等级。当Google要惩罚一个网站的时候就会把它的页面等级设为0,因为页面等级是一个乘数,这就导致了页面排名分数为0,在Google的搜索结果中这个页面就会被排在最后。
 Google是如何做到这一点的呢?假设Google在进行页面等级运算前把一个页面的等级设为0,这样有作用吗?从我们前面所掌握的知识来看,这是没有用的。因为页面等级的运算结果与其初始值时没有关系的。那么怎样做才有意义呢?首先必须在页面等级运算过程结束的时候将此受惩罚页面的页面等级设为0。但是这样在页面等级运算过程中此页面仍然拥有原来一样大的票值,其对其他网站的价值并没有因此而降低。就是说其他网站仍然可以从受惩罚网站提供的链接中得到页面等级。
 为了降低其票值,就必须有第二个惩罚措施。Google已经表明了其有能力忽略那些被认为是人为创建的链接,也就是在计算页面等级时不考虑这些链接的所起的作用。运用这种技术,Google就可以在运算页面等级的过程中忽略由受惩罚页面提供的链接而对其链接页面的页面等级产生的影响。没有办法来测试是不是Google应用了这样的措施,但是我怀疑这两种惩罚措施在Google中都确实得到了应用。
 控制页面等级     作为一个网站管理员,你可以在很大程度上来控制页面等级。但是无论如何在影响页面排名的因素中,页面等级是最难控制的。并且你完全可以通过其他方法来达到你想要的效果。然而对页面等级良好的控制确实有助于你在竞争中立于不败之地。
 优化页面等级时的三个基本问题:
选择可以提供链接的页面,包括选择哪些页面以及得到这个链接所需要做的努力。
选择你要提供链接的页面以及在那个页面上提供链接(使页面等级反馈最大化并尽量减少页面等级遗漏)。
安排好网站内的导航结构和网站内页面的链接关系,以便页面等级在网站内得到最好的分布。
指向你网站的链接
 当选择向那些网站要求提供链接时,从纯页面等级的观点来看,也许有人会认为你应该选择那些在页面等级查看工具中显示值最大的页面(因为一个网站上所有的页面都有自己的页面等级,你必须考虑真正所要链接的页面的页面等级)。然而这种想法并不正确。如果你已经仔细阅读了前面的章节,也许已经知道这种想法错误的原因。从其他页面提供的链接得到页面等级的过程是非常复杂的,当它为太多的页面提供了链接时,它对你的页面等级的贡献就很小了。
 一个页面所能为其他页面提供的页面等级是由这个页面上的所有链接共同分享的(可以从前面的页面等级计算公式知道)。所以具有同样等级的页面对你提供的链接不一定也为你增加同样的页面等级,取决于你要和多少页面共同分享这个页面的链接。比如一个等级为4的页面向你提供链接可能比一个等级为6的页面向你提供链接更有助于你页面等级的提高,前提是等级为4的页面对外提供的链接较少。到现在为止我们还没有足够的资料使我们了解到底应该如何去选择向你提供链接的页面。但是至少我们知道,只是选择那些等级高的页面的做法并不明智。还有另外一个更为实际的原因证明这种做法并不是最好的:有太多的页面希望得到那些页面等级高的网站提供的链接,这就使得这些网站很可能不会考虑去链接那些等级低的页面。而那些也希望提高自身等级值的网站,虽然其页面等级较低,则会乐于接受与其他网站的互联。
 现在来看看页面等级反馈。假设在另外网站上有两个独立的网页,A和B,其页面等级都是4,并且都对外提供了10个链接。在你的网站上有一个网页,希望得到这两个网页提供的链接。假设你的网页本来就已经提供了对网页B的链接,如果网页B提供对你网页的链接,这样就会生成页面等级反馈。与网页A提供对你网页的链接相比,网页B向你的网站提供链接可以使你的网站增加更多的页面等级。这是一个简单化的解释,实际上页面等级反馈是非常复杂的。
 你能得到一个给定页面的所有状态吗?不能,我也不能。所以我建议向那些看起来不错并且有较高质量的网页要求提供对你网页的链接,而不必考虑它们当前的页面等级。如果一个网页与你的网页内容相关且有很高的质量,这种网页提供的链接必然会对你的页面等级的提高有益,即使现在不会,将来也一定会的。例如把你网页列在DEMOZ或者Yahoo上将会显著提高你网页的页面等级。
 对外提供链接
 当考虑对外面网页提供链接是,这儿是一条很有用的规则:
 一般来说,你首先要确保你自己网站的页面等级不会泄漏。
 这并不是说对外提供链接就会降低自身的页面等级。但是网站总页面等级一般会比不提供对外链接前要低。因此我们得到另一条规则,可以使我们页面等级的损失最少(反过来说我们可以得到尽量高的的页面等级)。
 导出链接的页面最好满足下面两点:     a) 有较低的页面等级。
 b) 提供了对你网站上很多网页的链接。
 怎样才能让自己的页面等级损失最小呢?一种方法在你网站上建立一个独立的网页来记录对你所提供链接的站点的评论,并给这些评论建立超级链接可以链接到其相应的外部站点。可以选择是否在新的窗口中打开链接,但是不要用JavaScript来打开链接,因为Google机器人无法对其进行跟踪。
例如我们可以对网站提供的所有链接这样做:
The best search engine resource and
forum site in the world
Read my
flattering review of them here
.
 一定要确保记录链接评论的网页提供一个对你网站上网页的链接(最好是你的主页,其他重要的网页也可以),这有助于优化网站架构。做完这一切你就可以大大减少你网站的页面等级的流失。应该妥善的分布主页上的页面等级,使得尽量少的页面等级被所提供的链接浪费,而将大部分页面等级分布到网站的其他各个地方。你提供链接的页面也应当提供对你主页或者是重要网页的链接。然而注意在记录链接评论的网页上不应有其他链接(除了对主页的链接)。
 如果有网站提供对你记录链接评论的网页的链接是最好的了,这样你就很可能可以得到这个网站对你网站的两个链接,一个链向你的网站,另一个链向它自己的评论。所以应该让你提供链接的网站知道你有对它网站的评论。这个问题用文字是很难解释的,所以下面给出一个简化的例子,这个例子可以很好的解释这个原则并显示其效果:
 
 
 
 
 经过计算得到下面的收敛值:
 
 如果包含评论网页,重新计算可以得到下面的结果:
 
 

 
 
 现在就很明显了(在第一版中出现了很多关于这个技术可用性的怀疑)。如果我们只看页面A,B,C,D:
 
不包含链接评论网页  包含链接评论网页  
主页页面等级:0.9536152797
B,C,D页面等级:0.4201909959
总页面等级:2.2141882674
 主页页面等级:2.439718935
B,C,D页面等级:0.8412536982
总页面等级:4.9634800296
 
 可以看出包含链接评论网页的页面等级得到了很大的提高,这一方面是由于外面网页对你的网页提供了链接,另一方面也是由于页面等级反馈的效果,还有就是从站外链接的网页中得到的。最主要的是,为站外网页提供额外的内部链接是提高你的页面等级最重要的网页内部因素。虽然得到一个站外链接可能比这种方法更能提高你的页面等级,可是这种方法更为简单并且更有利于访问者查找信息。
 页面等级是否存在渗漏损失问题
 为什么我会提出这样一个奇怪的问题?其实并不奇怪,因为这个问题已逐渐变成人们注意的焦点并开始给大家带来困扰。有些人说根本不存在这样的问题,有些人则更加认为这只是个荒诞的说法。-页面等级是否存在漏损的问题?如果是,这种损失有多严重
 反对页面等级会遭受漏损影响的人认为:一个网页有其确定的页面等级。Google的页面等级系统只是部分决定了该网页所链向的那些页面,因为此外部链接所获得的PR增量,而在此过程中,该网页本身的PR值实际上并未遭受损失。换句话说,如果页面A有其确定的页面等级,那么不管它链向多少站点,页面A的页面等级都不会因此而改变。
 这种观点确实几乎无懈可击,只是他们忽略了这样一个事实,那就是既然一个单一的网页A上可能有其它链接(内部或外部的链接),而我们讨论的又是一个网站,那么对网页A所在的网站而言,页面等级是有可能循环返回到页面A的,这种可能性并不是没有意义的。虽然PageRank是基于网页而不是网站的操作,但我们大家都知道,根据网站的定义,它其实就是一个由网页所组成的系统。  网站的一个独有特性就是其内部的每个页面是紧密链接起来的。这种紧密的链接意味着该网站上的网页会通过链向网站内的其它网页而受益。反之,如果它链向一个外部网页,它就不会得到这样的收益。即:页面等级的漏损问题对你的网站不会造成什么直接的影响,其影响是间接的。那些坚持页面等级漏损影响不存在的人,对页面等级这个概念的理解过分简单化了
 让我们来做一个类比。先假设有1,000元魔法钱在我手里,我可以给你,但你必须遵守这样一些游戏规则:规则一是你必须把钱都分给你家庭中的5个成员和两个陌生人;规则二是得到钱的这些人要把他们得到的钱拿出一半来给你或其他6个人;规则三也是最后一个规则就是,你可以按任意分配比例把这1,000块钱分配给7个人中的每一个人(即分配比例由你自行决定,允许有人得不到钱)。  现在让我们看看,游戏开始时你的家庭的魔法钱有多少?自然是1,000块。根据人的本性来推断:你下面准备做两样事情,第一件是确保你尽可能得到最多的魔法钱;二是确保你得不到的那些钱能够被你的其它家庭成员得到。所以在你第一次分配这些钱的时候,你是压根不会分给那两个陌生人的。而且在把钱分给5个家庭成员时,那个你认为最可能给你50%回馈的人得到的钱一定是最多的。当然为避免引起猜忌,你也不可能把全部钱都给这个人。而如果万一你的某个家庭成员把他的钱给了陌生人,其实你并没有任何损失,不过同时你也没有最大化利用我给你的机会。这个被浪费的机会就是你的“漏损”,是它导致了你实际得到的钱比你能够得到的要少。  与此类似,一个网站就象一个家庭,其内部的页面就象一个个家庭成员。相对于那些外部网页来说,你只能指望你自己的网页把得到的一半魔法钱回赠你。而且假如这些网页都不允许留下它们所得到的魔法钱,那你也只能指望从自己的网页处得到这些钱。而对那些外部页面来说,它们只会把钱给回它们自己的网站。
 现在我们可以得出结论:页面等级的漏损问题确实存在,不过它是合理的,也不会给网站造成直接影响。实际上我们可以这样说:页面等级的漏损导致了你无法获得你本来能够获得的页面等级,即你获得的页面等级比你能够获得的要低。
 现在新问题来了,是不是可以不对外链接来防止页面等级的漏损?答案要取决于你需要网站页面等级为几,你所处领域的竞争性如何,以及你所期望的页面等级是否与你的页面相一致?最好的办法是读一下我们文章开头所提到的“页面等级揭密”。不过在这里,有一点我们可以肯定,即使在最具竞争的领域内,最通常的情形是:对一个网站来说,只有其中的一些网页需要较高的页面等级来获得较好的排名,而不是它内部的全部网页。也会有这样的情形出现,即人们首先担心其页面等级的损失而不是设法去很好地分配其网站上页面的等级。
 链向外部站点并非不能给你带来益处。它可以增加你的网站在搜索引擎中的排名和用户浏览的机会。唯一的负面影响就是它也会同时造成页面等级的漏损。正是因为如此,我想把我们讨论的页面等级漏损这个问题叫做“页面等级付出”应该更为合适。这也就是我为什么在文章的一开始并不急着给它一个确定名称的缘故。  最简单的解决办法就是,对那些带给你的好处远大于给你造成页面等级损失的网站,你应该链向它们而不是拒绝分享你的页面等级。
 内部结构和链接
 讨论完对站外网页的链接,接下来就应该开始讨论网站的内部链接了。如果已经认识到页面等级正如一个网页所获得票值,我们马上就可以得出一个重要的内部链接结构和页面等级的结论:
 每一个在Google检索中的网页不管多小都有自己的票值。所以网站拥有的页面越多,它所拥有的总票值也就越高。或者简单的说,一个大的网站因为拥有更多的页面所以其总页面等级一般也就会更高。
 这需要更进一步的解释。要得到一个高的页面等级,只是拥有成千上万个页面是不够的。这些页面必须都存在于Google的检索项中。它们必须包含足够的内容以使Google认为值得加入到其检索项中。所以当你在为你的网站设计好的页面内容的时,你也同时在提高其页面等级。这是一项艰难的工作,并且进度会很缓慢。但是一旦你设计出了其他网站也乐于提供链接的页面,那你就一箭双雕了:可以从两个方面提高你的页面等级。
 为了提高页面的等级,设计出好的网页内容是你能对你的网页所做的最好的事情。页面内容一定不要太少,但是也不要太多,如果必要可以把过多内容的网页分成几个页面。
 有三种不同的方法可以在一个网站内实现页面的站内链接。实际上,网站会融合这三种方法来使用。只要你真正明白了这种三种方法以及它们各自是如何影响页面等级的,那么三种方法的融合使用可以得到很好的效果,并且一般也是这么使用的。
 为了达到这个文档要说明的目的,我们将把不同的链接结构作为独立的主题来讲解:
 
 
 在这些结构中进行页面等级的运算,我们可以看到内部链接结构是如何在整个站内分配页面等级的。到目前为止以上所讨论的这些结构都是封闭式的系统(不包括导入导出链接),加入导入导出链接后,你就需要知道如何合理安排这些内部链接以使页面等级反馈最大化从而提高你的页面等级,这是非常重要的。既然前面已经给出了页面等级是如何运算的,下面我们就直接给出由这些结构得到结果:
 
 
 
 应该注意到其中一些非常重要的问题。类等级架构的引入可以改变页面等级的分布(注意并不需要严格的等级架构,但其中所含的等级架构的特性必须要多于所含循环架构和广泛内部链接结构的特性)。这种把页面等级转移到各个页面的方法是网站管理员操纵页面等级最简单的方式。
 一般我们归结为下面的规则:
 很少有网站会采用完全的循环架构或者广泛内部链接架构。通过加入等级架构的一些特点,网站管理员可以把页面等级转移到各个页面中。如果页面等级被平均分布在网站的各个页面中,网站管理员就可以从中得到最大的好处。
 什么时候才能从这种方法中得到最大的好处呢?有两种情况:第一种是应用于那些搜索关键词具有强竞争性的网页,第二种就是需要很多搜索关键词的网页。这时网站管理员就应该把这种网页从其他那些在搜索中竞争不激烈的网页或者说能仅仅依靠其关键词便能在搜索中得到好的排名的网页中分离出来。
 以上讨论的都是封闭系统(没有导入导出链接),下面让我们看看加入导入导出链接后会发生什么事情:
 
 
 
 在一个开放的系统中,绝大多数都是开放系统,可以得出下面的结论:   广泛内部链接策略可以最好的将页面等级保留在站内,其次是等级策略,最后是循环策略。
 要记住这只是一个原则。在实际中,不可能为10,000个网页建立广泛的内部链接。也必须为网站的子系统选择一个合适的结构。当向等级架构中加入更多的页面时,等级架构相对其他架构来说就更为有用。这是因为这些新增加的页面中包含导出链接(为很多页面所分享,但是这些页面大多数存在于你的站内)。然而,当加入新的网页的同时也降低了主页的页面等级(这可能对你是很重要的)。
 Google自己的说法
 关于页面等级最权威的信息当然是直接来自Google自己对此的解释。所以询问Google关于页面等级的问题可能对我们会有所帮助。当然Google不可能向我们提供页面等级技术的详细细节,也不会对我们上面所写内容是否有用做出任何评论。但是我们确实想问一些关于页面等级的一般性问题,这样就可以对页面等级的现在和将来有个大概的认识。希望下面这个简短的访问记录可以解开一些关于页面等级的神话和回答你们心中的一些疑问:
 Chris:是否可以回答一个老问题,PageRank(页面等级)的命名是因为它实际上就是基于页(page)的原因还是仅仅因为其创始人的名字中有Page呢?
 Google:PageRank(页面等级)是以Google的创始人Larry Page来命名的。
 Chris: Google是否认为页面等级技术是区别于其他搜索引擎的重要特色呢?
 Google:页面等级技术确实使得Google在搜索速度和相关性搜索方面优于其他的搜索网站。除此之外Google在搜索中还运用了100多个算法。
 Chris:页面等级技术在提高搜索结果质量上是否起到了很大的作用?在今后这个技术是否还会继续使用下去?
 Google:因为页面等级技术在分析链接方面的作用,它在今后仍将被采用。
 Chris: 很多人试图挖掘页面等级查看工具中数据的深层次信息,你们是怎么看的?
 Google:这种做法违背了我们的服务条款。
 Chris: 页面等级查看工具上的数据信息对于普通用户,网站管理员以及搜索引擎优化专家来讲有什么用处?
 Google:页面等级查看工具上的数据只是一个估计数据和作为一个基本数据信息。很多用户对它感兴趣,并且一些网站管理员会用这个数据来评价自己网站的运行情况。然而,这只是一个粗糙估计的数据,所以对于专业搜索人士来讲意义不大。
 Chris:大幅度提高页面等级的一个方法是利用链接站点和留言板,Google对此如何应对?
 Google:Google的工程师一直在努力改进其搜索算法以避免对页面排名的故意干涉。
 对非数学内容的结束语:
 也许你会感到奇怪,没有到文档的最后却出现了结束语。但是如果你已经看了文档目录你就会发现我们为技术人员,数学人士以及博士生增加了一些比较高深的章节。如果你只是想知道什么是页面等级以及你对它能做什么,那么到这儿你已经达到目标了。
 简单来说,现在页面等级在搜索引擎的所有概念中可能是最容易被误解的。有一些人可能会声称自己已经完全掌握了页面等级技术,也有另一些人会说它们完全不需要这个技术。有一些人认为页面等级技术是重要的,也有另一些人对其重要性则不置可否。一些人认为Google过分夸大了页面等级技术,另一些人则不这样认为。
 事实是任何人都不要奢望Google会告诉你关于页面等级技术的所有细节。本文档的作者也无法告诉你关于它的所有事情。在这个文档中,从一些可用信息得出了一些结论。我们所能做的只是得出一些原则,而不是具体的数据。
 对页面等级的价值实行量化是不可能的。在不同的条件和不同的网站管理模式下,页面等级也会得到不同值。页面等级有何价值对不同的人也不同。不管页面等级对你是否那么重要,在设计你的网站时遵循本文档讨论的那些原则将会有所帮助。就像你知道要有好的标题和链入锚文本一样,你也要时刻考虑到页面等级的因素。
 提高页面等级的过程中应以提高网站访问量为目标。不管你的页面等级有多高,如果没有人访问你的网站,那就没有任何用处。提高页面等级的同时也应提高网站的质量。
 关于页面等级的高级主题
 当我们进入高级主题讨论的时候,也就进入了思考的王国。在高级主题的讨论中,我们将验证前面得出的原则的正确性。并且在这个讨论中会出现更多的假设。当然这里所要讨论的内容Google可能都已经考虑过,所以很可能Google已经在采用我们下面提出的建议,即使现在还没有采用,将来也一定会。
 加快页面等级的运算
 显然Google并不需要得到一个完全准确的页面等级值。这就提出了一个问题:Google是否可以用较少的迭代运算就可以得出所需要的与最终结果近似的页面等级值?看起来这是可能的。下面我们就来解释这个问题。在前面的运算中,我们把系数设为固定值。我们可以根据前面运算的结果来为每个页面设定系数。公式如下:
 (1-d)* PR i (A)
 在这个公式中我们用(1-d)来代替公式中的d,Pri(A)是前面迭代运算中得出的结果。
 假设有一个等级架构如下:
 
 得到下面运算结果:(P37)
 得到最后结果需要148此迭代运算。如果在每次运算中加入系数,得到下面结果:(P41)
 经过67次迭代运算就得到了一个很近似的结果,这就是所谓的“页面等级估计值运算加速技术”。Google拥有一群聪明的工程师,所以它们可能开发出更为快速的页面等级算法。
 页面等级可能比我们看到的更为复杂
 有这样的可能性,也仅仅是一种可能性,页面等级的运算可能比我们认为的还要复杂的多。如果考虑一下在Google搜索中影响一个网站排名的因素,很容易就得出例如页面等级,关键词,入链锚文本等明显的因素。但是那些不这么明显的影响因素如网页内容质量等在影响网站排名中处于什么地位呢?一个受欢迎的网站是否是因为其有很好的内容呢?这并不是传统的影响因素,但是会影响到页面等级。对此做一下解释:
 在总数一定的情况下,如何分配规范化系数就迫切的摆在了我们面前。在前面的例子中,可以把“ABOUT US”(PageB)页面的参数值设的高一点,其他网页的参数值设的稍微低一点。因为PageB符合我们定义的那些标准。所以可以把PageB参数值设为:
(0.4*n + 0.6)*0.15(n是网站上的页面总数)
其他页面的参数值设为:
6*0.15
这种算法非常有益于PageB。下面给出一个例子。前面网站架构例子最后得到的结果是:

用新的对参数分布方法可以得到下面的结果:

 可以看到,“About Us”页面的等级得到了很大的提高,可是这是以其他页面等级的降低作为代价的。页面等级不只是考虑链接因素,它还要其他的一些因素。当然没有任何理由阻止我们去提高单独一个页面的页面等级,同样也没有任何理由阻止我们提高整个网站的页面等级。我们应当用所有可能的影响因素来提高它,这些因素可能包括网站受欢迎的程度。
 受欢迎网页目录
 建立受欢迎网页目录是基于下面的原因。既然在提高某些网页的等级时会使向这些网页提供链接的网页以及这些网页所链接网页的页面等级减少,那么就能够为了提高一些网页的页面等级而降低另一些网页的页面等级。为什么要这么做呢?我们可以建立一些包含一个链接列表的网页,链接列表中是指向那些页面等级高的网页的链接。假定PageB就是这样一个网页,即为分类页。
 设PageB的规范化系数为0.06,其他页面的参数设为0.18。得到结果:
 
 这正是我们想要的结果。这样做有几个优点,提供链接列表的网页本身的页面等级会降低,然而它提供链接的网页的页面等级却会得到很大提高。访问者不可能会喜欢那些只有链接的网页,而会选择有好内容的网页。另外那些安装着Googe页面等级查看工具的网站也不会要求这种只有链接列表的网页提供链接,因为它们被低页面等级欺骗了。
 针对高级读者的页面等级数学问题
 Google Spider查看网站,从网站的页面上找到链接组成链接矩阵,链接矩阵包含着这个网站所有的拓扑关系。
设链接矩阵的元素为。
 这表示什么呢?
 对应着网站的网页。
   代表链接矩阵中第K行,第m列相交的元素,其值是指从网页到网页的链接数。
 是指网页上所有的链接数。
 
网页页面等级的计算公式是:

 是在第(l+1)次迭代运算时得到的网页的页面等级估计值
 是在第l次迭代运算时得到的网页的页面等级估计值。
 是网页上所有的链接数。
 从网页到网页的链接数。
 D是衰减参数(一般取0.85)。
 (1-d)是规范系数。
 N是网站上所有的页面总数。
 这个递归运算公式在计算一个网站的页面等级估计值时可以考虑到页面链接的复杂性。
 看一下下面这个例子,对这个网站应用页面等级的方法。
 
 可以看出第二个子图里的每一个网页都与第一个子图的所有网页相连。下面写出这个网站的链接矩阵,A,B,C,D,E,F,G,H,I代表相应的网页。
 
 从中可以看到页面等级算法可以很好的分辨出重要的网页和指向它的外部网页间的关系。稍后我们将用基本页面来描述这些重要页面。基本页面最重要的特征就是它们处于一个有向圆里。让我们对这个网站的页面应用页面等级估计值运算加速技术。
 假设是第I次迭代运算得出的网页T的页面等级估计值(T=A,B,C,D,E,F,G,H,I)。
 计算时的规范系数由公式得到。
 在应用页面等级估计值运算加速技术时,与网站相关的外部网页的页面等级估计极限值都为0。这种方法可以让我们分辨与基本页面相关的外部页面。由此得到下面的定义:
 与基本页面相关的外部网页,当用页面等级估计值运算加速技术计算其页面等级时,其页面等级估计极限值都为0。
 计算结果(P49)
 对上例的网站来说,E,F,G,H,I是与基本页面A,B,C,D相关的外部页面。
 下面让我们用固定的规范系数(d=0.85),来计算页面等级估计值。结果(P51)
 在进行迭代运算的过程中,保持页面等级总和不变(为1),将页面等级分配到各个页面中,可以得到各个页面的所有页面等级可能估计值。
 在另一个类似的演示中,使用了著名的香农经典公式,这个公式一般用于对信息量的计算中。
对应一个各个页面的页面等级估计值子集(n个估计值),可以得出n个试验输出。
  对一个网站的所有网页计算其页面等级估计值可以得到下面的一个结果子集:

页面等级是多重有效图的一种有效表示。多重有效图被熟知的是被用来描述和建立自学习系统。自学习系统可以建立动物行为模型。
假设动物对每次激励都必须做出一个决定,例如向左转向右转指令。这样每次动物都会按照我的要求去做,引入运算符:
(P-估计值)
关于这个主题的理论知识可以从Bush和Mosteller的经典著作中找到。
我们可以 把他看作是香农公式的一个变形,也就是这个公式导致了页面等级的产生。
进一步阅读资料和其他资源
如果有兴趣进一步研究页面等级技术,推荐访问下面的资源:
本文档作者欢迎来自搜索引擎,数学,搜索引擎优化领域的专家对本文档提出意见。这种反馈对我们来说是非常重要的。如果你要对本文档内容提出意见可以发email到:
chris@supportforums.org。    
   在网络信息检索领域,页面等级技术是最主要的也是最广泛被讨论的超级链接分析算法。但是这种技术的具体细节仍然不为外人所知。Chris Riddings 和 Mike Shishigin的页面等级揭密提供了页面等级技术详细,深入也是最接近事实的解释。不管你水平如何,这篇文档你都是应该读一读的。
   

GOOGLE页面等级技术解密(1)

2007-07-29   |  分类:google

  chris riding 是pagerank explained(页面等级解密)原作者。以前是客户搜索引擎的程序员,搜索引擎专家,搜索引擎优化论坛的创始人(http://www.supportforums.o…,营销软件工具(marketing software tools)一书的作者。Chris riding 利用他的编程经验和有关算法的知识对比较隐秘的搜索引擎工作原理做了一个深入的了解。
 Mike Shishigin博士,是一位有名的搜索引擎专家,他的哲学体系使他总是能用严谨的事实材料来支持他的观点,这些事实都是来之于他深厚的应用数学知识,作为Ridiocom 有限公司的技术主管,Mike始终用抽样分析的方法来认识自然界的事物,并且提供website CEO的用户以杰出的网站提升组建(http://www.websiteceo.com),因此也提供给他们最可能的搜索结果,Mike掌握了Website CEO内的所有的研发和搜索引擎研究。他最近的兴趣是页面等级技术,因为它与图论很相似,这是它最喜欢的大学课程。他憎恨的是搜索引擎垃圾邮件,这是网络时代致命的罪恶。Mike通过启发website CEO用户和对垃圾邮件进行常规性的扫除来无情的打击他们。
由Jill Whalen编辑,他是High Rankings 的主人 和 High Rankings免费周邮件时事通讯顾问的主席(http://www.highrankings.co…),自从1995年开始,Jill就已经在为大批的客户进行满意的搜索引擎优化。相对于页面等级的担忧,jill宁愿选择帮助网站做到最好,这样就可以为他们存储大量的入境链接(因此有了高的页面等级)
 YuriBaranov  是技术编辑:他是Radiocom有限公司的营销主管。他主要研究一般网站的优化和搜索引擎优化。Yuri对于搜索引擎营销有一个极富想象力的认识,并且竭尽全力使它跟普通人更和谐和更易于普通人理解。目前,他整理所有的搜索引擎研究,设定目标和评价结果。他也对人体工程学和可用性问题感兴趣。Yuri同意担任这篇论文的技术主编,因为 他对google可谓情有独钟,他认为google永远是最好的搜索引擎。
     
 
     引言
   以前的页面等级解密文献已经过期一段时间了。它第一次以一种普通人能够理解的方式表达出了许多思想。你可能想知道为什么有必要出一这文献的新版本。原因是很简单的,原来文献中的内容都是理论性的和易于改变的。在作者进一步研究google是如何作用以及读者对这一课题如何思考的过程中,发现这些变化已经出现了。在文章的结尾,你将会发现增加了另外一个作者和技术编辑。Mike Shishigin 杰出的数学才能使我们能够进入到一些以前从没有提及的页面等级的领域。我们尽力以一种易于理解的方式来为您解释您所需要的所有页面等级技术。文章的结尾也提供了包含一些更先进技术信息的章节,如果你需要更深入的了解页面等级技术。
 我们感到欣慰的是,以前的页面等级解析文档所提出的原则已经在搜索引擎优化领域得到了广泛的承认。后来出现的一篇好似批评的文章,恰恰详细解释了解析文档中每一点的正确性。我们也很高兴的看到自从解析文档出版以来,出现了大量关于网络等级的文章。
 不管怎么样,从前版解析文档出版到现在,很多事情发生了改变,并且仍然有很多重要的或者不重要的关于网络等级的误解。在新的解析文档中,我们增加了一些章节来澄清这些误解,另外一些新的章节来解释出现的新的情况。并且尽力使以前的内容更容易被理解和接受。这个文档非常的详细以便有更多的人可以看懂。另外这个文档是很多大学课程的重要参考书,这就更需要文档尽可能的详细。如果你只具有一般水平,在开始更为深入内容之前请先好好了解页面等级的基本原则。
最后来看看Google是如何利用网络等级技术的。当然Google不会直接用我们前面所提出的网络等级技术,因为他们有自己的网络等级技术。可是我们可以从他们的说法中得到更多启发。当我们问Barry Schnitt,Google的发言人,一些关于网络等级方面的问题时,他非常热心的给出了回答。你可以在后面的章节中看到这些内容。
 什么是页面等级?
 互联网发展早期的搜索引擎,对web页面的排序,是根据搜索的词组(短语)在页面中的出现次数(occurence ),并用页面长度和html标签的重要性提示等进行权重修订。链接名气(link popularity)技术通过其它文档链接到当前页面(inbound links)的链接数量来决定当前页的重要性,这样可以有效地抵制被人为加工的页面欺骗搜索引擎的手法。  PageRank计算页面的重要性,对每个链入(inbound)赋以不同的权值,链接提供页面的越重要则此链接入越高。当前页的重要性,是由其它页面的重要性决定的。
 页面等级是Google用来评价一个网站重要程度的方法。当考虑完其他的因素,如标题和关键词,Google就利用页面等级技术来判断一个网站的重要程度以决定这个网站在用户搜索结果中应处于什么位置。
 下面是Google搜索引擎工作的基本步骤:
找出符合搜索关键词的所有网页。
根据网页内容如关键词对搜索结果排序。
根据页面等级分数调整查询结果的排序。
 当然实际操作还要复杂的多,在后面对此还要做更深入的讨论。但是就目前来说,上面的描述已经足够了。因为页面等级是一个乘数而不是简单与其他分数相加,所以如果你的页面等级分数是零,那么你的页面总分数也就为0,在搜索结果中你的网页就会排在最后的位置。
如何决定页面等级?
在Google的页面等级算法中,如果网页A提供网页B的链接则假设网页A认为网页B是重要的。一个网页的等级分数会考虑到对这个网页提供链接的其他网页的重要性,如果很多重要的网页提供对这个网页的链接,那么这个网页就被认为是重要的,这个网页的等级分数也会大大提高。同时这个网页所链接的其他网页也随之变得重要。而网页中的实际内容则与页面等级没什么联系。
如何知道一个网页的等级?
 如果想知道一个网页的页面等级,你可以从http://toolbar.google.com下载一个能够嵌入在Internet浏览器里的页面等级查看工具。安装好后,在浏览器的上方会有一个图案条,它可以显示你正在浏览网页的页面等级。把鼠标移到图案条上时,图案条上会显示一个从一到十的数字。这就是你所浏览网页的页面等级。如果你不能看到所浏览网页的页面等级,你可能安装了一个旧版本的页面等级查看工具。这时你需要先卸载所安装的页面等级查看工具,重新启动计算机。然后安装最新版本的页面等级查看工具。做完这一切后,你就可以从工具中看到你正在浏览的网页的页面等级。
  页面等级查看工具显示值是否准确?
 在显示所浏览网页的实际页面等级的时候,Google的页面等级查看工具并不是很准确的。但是到现在为止也只能从它来得到对页面等级的一些人士。只要你知道这个工具的局限性,至少可以知道你在看什么。
Google的页面等级查看工具的两个主要局限:
页面等级查看工具的结果具有猜测性:如果你打开一个网页,这个网页并没有存在于它的网页列表中。但是网页列表中存在一个与你打开的相似的网页,它就会据此来猜测你打开网页的等级。这种猜测的结果对于我们是没有价值的,因为任何页面等级算法都不会这样做。想要知道所显示的页面等级是不是猜测的只有一个方法,把你所查看网页的URL输入Google的搜索框。如果在搜索结果中没有你所查看的网页,那么这个页面等级就是猜测的。
网页查看工具的结果只是实际页面等级的一种线性表示:网页查看工具的结果是线性的,而页面等级在Google里实际上是用非线性图来描述的。这样,在网页查看工具里,从等级2到等级3所提高的网页分数实际上要小于从等级3提高到等级4所提高的网页分数。我们可以从下面的对比表格里看到这种现象,Google里实际使用的标准还是保密的。
If the actual
PageRank is                The Toolbar Shows
between
 
0.00000001 and 5                      1
6 and 25                              2
25 and 125                            3
126 and 625                           4
626 and 3125                          5
3126 and 15625                        6
15626 and 78125                       7
78126 and 390625                      8
390626 and 1953125                      9
1953126 and infinity                       10
在Google目录(http://directory.google.co… 里显示的页面等级也同样有这样的问题。Google目录里显示的页面等级使用了不同的标准,我们可以得到这两个标准之间的一个关系。可是由于它们是非线性的,所以你并不能从这个关系中知道更多的东西。
值得注意的是,一个程序员曾开发出一个脱离Internet浏览器的页面等级查看工具。这个工具得到的结果与Google工具的结果是符合的。为了保护本身数据,Google改变了本身的工具,所以现在这两种工具所得到的结果已经不一样。但这给了我们一个提示:
 你在工具条上看到的页面等级可能与网页的实际等级更本就没有关系,Google在工具条上可以给一个网页任何等级。
 页面等级有什么意义?
 在搜索引擎算法中,任何因素存在的意义取决于这个因素所提供的信息的质量。一个因素的重要性可以作为它的加权值。如果想知道加权值是怎样得到的,我们先离开页面等级的讨论一会,来看看Meta标签。首先,如果是一个新的Meta标签关键词,你可以在你的文档中写入下面的文字:
algorithms”>
 理论上来说,Meta标签的关键词是对网页内容最好的概括。然而,正如我们所知道的,Meta标签中的关键词对加权值毫无用处。这主要是因为下面两个原因:
网站管理员可以轻易的操作Meta标签中的关键词。
网站管理员对它的操作级别过高。
Meta标签的关键词与页面等级是两个不同的因素,可是就人的本性来说,越容易改变的东西也就越容易被改变。这些原因共同决定了加权值的大小-即我们可以对一个因素所提供信息的信任程度。
现在我们可以先来看看这些因素与页面等级的关系。
毫无疑问,页面等级是网站管理员最难操纵的因素之一。然而,如果利用链接域和留言板则可以比较容易的让其他网站提供对你网站的链接从而认为影响页面等级的评定。Google一直对此方法的滥用非常头痛,现在很多网站用这种方法来提升他们的页面等级。不得不说,这种方法的滥用现在非常普遍并且对页面等级产生了很大影响。所以,虽然不太容易,页面等级也是可以被操纵的。
 现在页面等级被操纵的程度已经发生了改变。大部分人不再相信Google先前的页面等级不能被人为改变的说法,也对基于页面等级所产生的搜索结果产生了怀疑。然而,更多迹象表明页面等级技术仍然在被使用,虽然有更多的页面等级操纵技巧被熟知。
 虽然页面等级是有用的,你还是应该小心不要过高估计它的用处和能力。你最后的网页排序由许多因素共同决定,页面等级只是其中的一个。稍后,我们将更加详细的讨论页面等级与其他因素的不同以及页面等级何时会被使用。更具讽刺性的是,页面等级的加权值正逐渐减小。因为本书的第一版给出了页面等级的详细信息,使得页面等级技术被被更多人所了解,也就使得人为改变页面等级的可能性增加了,这可能是导致页面等级加权值减小的一个原因。
页面等级对于网页的质量是一种好的评价方法吗?
要弄清页面等级到底有何价值,首先让我们看看提出页面等级技术的前提和其准确性。其基本前提是:
如果一个网页提供另一个网页的链接,则为那个网页增加了所拥有的票值,而票值的多少代表了一个网页质量的好坏。
如果很多网页对一个网页提供了链接,则认为这个网页有很高的价值。
 基本假设是:人们只会去链接他们认为好的网页。
 很容易就可以证明这个前提是错误的,因为下面所述的原因,一个网页可能会向另一个网页提供链接,但链接的原因并不是因为喜欢那个网页。
互相提供链接。“如果你给我提供链接,我也将给你提供链接”,双方受益。
提出链接要求。“要用我网页上的内容就必须提供对我网页的链接”或者“如果你提供对我网页的链接将得到一定的回报”。
人情链接。向另一个网页提供链接只是因为“这是我朋友的网站”或者“这是我父亲的网站,这是我母亲的网站,这是我小狗的网站”等。
 另外,一些排名靠前的网站也会寻求新网站的链接,这并不一定意味这个网站就是好的(虽然大部分是好的)。假设一个网站管理员建立了一个新的网站,正在寻求别的网站向它的网站提供链接。现在,他首先要做的就是去Google上查找与其网站内容相似的网站。最后得到的向他们提供链接的网站并不一定是最好的,而是它能够最容易找到的。在其他网站提供对新网站的链接后,新的网站也会随后提供对那些网站的链接。如果页面等级确实对网页排序有影响,那么新网站的这种做法就更增加了用页面等级来判断一个网页质量的不准确性。如果新的网站用Google的页面等级查看工具来寻找提供链接的网站也会出现这种结果。
让我们用另外一种方法来解释这个问题:
一个网页的页面等级是由其他网站对它提供的链接数来决定的。但是如果页面等级本身就对这种链接数有影响,那么也就会影响对网页质量的评价(循环影响)。链接不再仅仅取决与对网页好坏的判断,而只是为了取得链接而链接。为了提高其网站的页面等级,网站管理员会仅仅通过Google搜索或者通过Google的页面等级查看工具来挑选要链接的网页。而这样也会导致相应网页页面等级的提高,这种页面等级的提高并不是因为这个网页质量得到了提高,而只是因为它有一个较高的页面等级,所以其它网页都愿意向他提供链接以换取它的链接。
Google的前1000个搜索结果
  记住,仅仅页面等级的提高并不能使你的网站在Google搜索结果排序中有一个靠前的位置。前面提到过,页面等级是一个乘数,所以如果一个网页的其他影响网站排名的因素都为0,即使它的页面等级是200亿,你的网站分数仍然是0。当然这也并不是说页面等级没有用,但是页面等级何时才有价值确是一个令人困扰的问题。也正是这个问题导致了很多对页面等级所具有的价值错误解释。唯一能澄清这种误解的方法是找出页面等级何时无用。
  如果你在Google上做一次大范围的搜索,你可能会得到几千条搜索结果。然而,最终你可能会仅仅浏览前1000条记录。理解了这一点,就可以解释为什么想提高子集网站在搜索结果排序名次时你应该先考虑网页本身的因素,然后才是页面等级。
  假设在一次搜索中你得到了200,000条搜索结果,如果在对搜索结果排序时要考虑所有的影响因素,你认为这可能仅仅在0.34秒内完成吗?为了加快搜索速度,首先要找到一个与搜索内容有联系的所有的网页的子集。这个子集应该小于搜索结果数,假设是2000。搜索引擎要做的就是用2-3个影响因素查询数据库,用这2-3个影响因素对所有搜索结果进行排序,找到排名最前面的2000条结果记录(不要忘了最后要显示200,000条搜索结果)。然后搜索引擎对这2000条记录的每一条应用所有影响因素并据此排名。排序后,在子集后面部分的搜索结果质量(不是网页质量)有所降低,所以只是显示前1000条结果记录。可以确定的说在产生搜索结果子集时,页面等级并不是被考虑的2-3个影响因素之一。这是因为在产生2000个搜索结果的子集时,这些搜索结果应该必须要与搜索内容有联系,如果我们用页面等级作为一个产生子集的影响因素,那么就可能会产生很多页面等级很高却与搜索内容无关的结果,这不是我们所想要的。
 所以你必须好好组织你的网页内容以便当搜索你选择的关键词时可以使你的网页进入前2000个搜索结果,否则你的页面等级再高也没有用。如果网页的其他影响因素不足以使其进入开始的搜索子集,那么页面等级就是没有任何用处的。
 页面等级与其他影响因素的区别
为了知道页面等级何时才显得重要,就必须明白页面等级与其他影响因素有什么不同。下面列出了影响网页排名的因素以及它们的影响。

Pages: Prev 1 2 3 Next