GOOGLE页面等级技术解密(1)
chris riding 是pagerank explained(页面等级解密)原作者。以前是客户搜索引擎的程序员,搜索引擎专家,搜索引擎优化论坛的创始人(http://www.supportforums.o…,营销软件工具(marketing software tools)一书的作者。Chris riding 利用他的编程经验和有关算法的知识对比较隐秘的搜索引擎工作原理做了一个深入的了解。
Mike Shishigin博士,是一位有名的搜索引擎专家,他的哲学体系使他总是能用严谨的事实材料来支持他的观点,这些事实都是来之于他深厚的应用数学知识,作为Ridiocom 有限公司的技术主管,Mike始终用抽样分析的方法来认识自然界的事物,并且提供website CEO的用户以杰出的网站提升组建(http://www.websiteceo.com),因此也提供给他们最可能的搜索结果,Mike掌握了Website CEO内的所有的研发和搜索引擎研究。他最近的兴趣是页面等级技术,因为它与图论很相似,这是它最喜欢的大学课程。他憎恨的是搜索引擎垃圾邮件,这是网络时代致命的罪恶。Mike通过启发website CEO用户和对垃圾邮件进行常规性的扫除来无情的打击他们。
由Jill Whalen编辑,他是High Rankings 的主人 和 High Rankings免费周邮件时事通讯顾问的主席(http://www.highrankings.co…),自从1995年开始,Jill就已经在为大批的客户进行满意的搜索引擎优化。相对于页面等级的担忧,jill宁愿选择帮助网站做到最好,这样就可以为他们存储大量的入境链接(因此有了高的页面等级)
YuriBaranov 是技术编辑:他是Radiocom有限公司的营销主管。他主要研究一般网站的优化和搜索引擎优化。Yuri对于搜索引擎营销有一个极富想象力的认识,并且竭尽全力使它跟普通人更和谐和更易于普通人理解。目前,他整理所有的搜索引擎研究,设定目标和评价结果。他也对人体工程学和可用性问题感兴趣。Yuri同意担任这篇论文的技术主编,因为 他对google可谓情有独钟,他认为google永远是最好的搜索引擎。
引言
以前的页面等级解密文献已经过期一段时间了。它第一次以一种普通人能够理解的方式表达出了许多思想。你可能想知道为什么有必要出一这文献的新版本。原因是很简单的,原来文献中的内容都是理论性的和易于改变的。在作者进一步研究google是如何作用以及读者对这一课题如何思考的过程中,发现这些变化已经出现了。在文章的结尾,你将会发现增加了另外一个作者和技术编辑。Mike Shishigin 杰出的数学才能使我们能够进入到一些以前从没有提及的页面等级的领域。我们尽力以一种易于理解的方式来为您解释您所需要的所有页面等级技术。文章的结尾也提供了包含一些更先进技术信息的章节,如果你需要更深入的了解页面等级技术。
我们感到欣慰的是,以前的页面等级解析文档所提出的原则已经在搜索引擎优化领域得到了广泛的承认。后来出现的一篇好似批评的文章,恰恰详细解释了解析文档中每一点的正确性。我们也很高兴的看到自从解析文档出版以来,出现了大量关于网络等级的文章。
不管怎么样,从前版解析文档出版到现在,很多事情发生了改变,并且仍然有很多重要的或者不重要的关于网络等级的误解。在新的解析文档中,我们增加了一些章节来澄清这些误解,另外一些新的章节来解释出现的新的情况。并且尽力使以前的内容更容易被理解和接受。这个文档非常的详细以便有更多的人可以看懂。另外这个文档是很多大学课程的重要参考书,这就更需要文档尽可能的详细。如果你只具有一般水平,在开始更为深入内容之前请先好好了解页面等级的基本原则。
最后来看看Google是如何利用网络等级技术的。当然Google不会直接用我们前面所提出的网络等级技术,因为他们有自己的网络等级技术。可是我们可以从他们的说法中得到更多启发。当我们问Barry Schnitt,Google的发言人,一些关于网络等级方面的问题时,他非常热心的给出了回答。你可以在后面的章节中看到这些内容。
什么是页面等级?
互联网发展早期的搜索引擎,对web页面的排序,是根据搜索的词组(短语)在页面中的出现次数(occurence ),并用页面长度和html标签的重要性提示等进行权重修订。链接名气(link popularity)技术通过其它文档链接到当前页面(inbound links)的链接数量来决定当前页的重要性,这样可以有效地抵制被人为加工的页面欺骗搜索引擎的手法。 PageRank计算页面的重要性,对每个链入(inbound)赋以不同的权值,链接提供页面的越重要则此链接入越高。当前页的重要性,是由其它页面的重要性决定的。
页面等级是Google用来评价一个网站重要程度的方法。当考虑完其他的因素,如标题和关键词,Google就利用页面等级技术来判断一个网站的重要程度以决定这个网站在用户搜索结果中应处于什么位置。
下面是Google搜索引擎工作的基本步骤:
找出符合搜索关键词的所有网页。
根据网页内容如关键词对搜索结果排序。
根据页面等级分数调整查询结果的排序。
当然实际操作还要复杂的多,在后面对此还要做更深入的讨论。但是就目前来说,上面的描述已经足够了。因为页面等级是一个乘数而不是简单与其他分数相加,所以如果你的页面等级分数是零,那么你的页面总分数也就为0,在搜索结果中你的网页就会排在最后的位置。
如何决定页面等级?
在Google的页面等级算法中,如果网页A提供网页B的链接则假设网页A认为网页B是重要的。一个网页的等级分数会考虑到对这个网页提供链接的其他网页的重要性,如果很多重要的网页提供对这个网页的链接,那么这个网页就被认为是重要的,这个网页的等级分数也会大大提高。同时这个网页所链接的其他网页也随之变得重要。而网页中的实际内容则与页面等级没什么联系。
如何知道一个网页的等级?
如果想知道一个网页的页面等级,你可以从http://toolbar.google.com下载一个能够嵌入在Internet浏览器里的页面等级查看工具。安装好后,在浏览器的上方会有一个图案条,它可以显示你正在浏览网页的页面等级。把鼠标移到图案条上时,图案条上会显示一个从一到十的数字。这就是你所浏览网页的页面等级。如果你不能看到所浏览网页的页面等级,你可能安装了一个旧版本的页面等级查看工具。这时你需要先卸载所安装的页面等级查看工具,重新启动计算机。然后安装最新版本的页面等级查看工具。做完这一切后,你就可以从工具中看到你正在浏览的网页的页面等级。
页面等级查看工具显示值是否准确?
在显示所浏览网页的实际页面等级的时候,Google的页面等级查看工具并不是很准确的。但是到现在为止也只能从它来得到对页面等级的一些人士。只要你知道这个工具的局限性,至少可以知道你在看什么。
Google的页面等级查看工具的两个主要局限:
页面等级查看工具的结果具有猜测性:如果你打开一个网页,这个网页并没有存在于它的网页列表中。但是网页列表中存在一个与你打开的相似的网页,它就会据此来猜测你打开网页的等级。这种猜测的结果对于我们是没有价值的,因为任何页面等级算法都不会这样做。想要知道所显示的页面等级是不是猜测的只有一个方法,把你所查看网页的URL输入Google的搜索框。如果在搜索结果中没有你所查看的网页,那么这个页面等级就是猜测的。
网页查看工具的结果只是实际页面等级的一种线性表示:网页查看工具的结果是线性的,而页面等级在Google里实际上是用非线性图来描述的。这样,在网页查看工具里,从等级2到等级3所提高的网页分数实际上要小于从等级3提高到等级4所提高的网页分数。我们可以从下面的对比表格里看到这种现象,Google里实际使用的标准还是保密的。
If the actual
PageRank is The Toolbar Shows
between
0.00000001 and 5 1
6 and 25 2
25 and 125 3
126 and 625 4
626 and 3125 5
3126 and 15625 6
15626 and 78125 7
78126 and 390625 8
390626 and 1953125 9
1953126 and infinity 10
在Google目录(http://directory.google.co… 里显示的页面等级也同样有这样的问题。Google目录里显示的页面等级使用了不同的标准,我们可以得到这两个标准之间的一个关系。可是由于它们是非线性的,所以你并不能从这个关系中知道更多的东西。
值得注意的是,一个程序员曾开发出一个脱离Internet浏览器的页面等级查看工具。这个工具得到的结果与Google工具的结果是符合的。为了保护本身数据,Google改变了本身的工具,所以现在这两种工具所得到的结果已经不一样。但这给了我们一个提示:
你在工具条上看到的页面等级可能与网页的实际等级更本就没有关系,Google在工具条上可以给一个网页任何等级。
页面等级有什么意义?
在搜索引擎算法中,任何因素存在的意义取决于这个因素所提供的信息的质量。一个因素的重要性可以作为它的加权值。如果想知道加权值是怎样得到的,我们先离开页面等级的讨论一会,来看看Meta标签。首先,如果是一个新的Meta标签关键词,你可以在你的文档中写入下面的文字:
algorithms”>
理论上来说,Meta标签的关键词是对网页内容最好的概括。然而,正如我们所知道的,Meta标签中的关键词对加权值毫无用处。这主要是因为下面两个原因:
网站管理员可以轻易的操作Meta标签中的关键词。
网站管理员对它的操作级别过高。
Meta标签的关键词与页面等级是两个不同的因素,可是就人的本性来说,越容易改变的东西也就越容易被改变。这些原因共同决定了加权值的大小-即我们可以对一个因素所提供信息的信任程度。
现在我们可以先来看看这些因素与页面等级的关系。
毫无疑问,页面等级是网站管理员最难操纵的因素之一。然而,如果利用链接域和留言板则可以比较容易的让其他网站提供对你网站的链接从而认为影响页面等级的评定。Google一直对此方法的滥用非常头痛,现在很多网站用这种方法来提升他们的页面等级。不得不说,这种方法的滥用现在非常普遍并且对页面等级产生了很大影响。所以,虽然不太容易,页面等级也是可以被操纵的。
现在页面等级被操纵的程度已经发生了改变。大部分人不再相信Google先前的页面等级不能被人为改变的说法,也对基于页面等级所产生的搜索结果产生了怀疑。然而,更多迹象表明页面等级技术仍然在被使用,虽然有更多的页面等级操纵技巧被熟知。
虽然页面等级是有用的,你还是应该小心不要过高估计它的用处和能力。你最后的网页排序由许多因素共同决定,页面等级只是其中的一个。稍后,我们将更加详细的讨论页面等级与其他因素的不同以及页面等级何时会被使用。更具讽刺性的是,页面等级的加权值正逐渐减小。因为本书的第一版给出了页面等级的详细信息,使得页面等级技术被被更多人所了解,也就使得人为改变页面等级的可能性增加了,这可能是导致页面等级加权值减小的一个原因。
页面等级对于网页的质量是一种好的评价方法吗?
要弄清页面等级到底有何价值,首先让我们看看提出页面等级技术的前提和其准确性。其基本前提是:
如果一个网页提供另一个网页的链接,则为那个网页增加了所拥有的票值,而票值的多少代表了一个网页质量的好坏。
如果很多网页对一个网页提供了链接,则认为这个网页有很高的价值。
基本假设是:人们只会去链接他们认为好的网页。
很容易就可以证明这个前提是错误的,因为下面所述的原因,一个网页可能会向另一个网页提供链接,但链接的原因并不是因为喜欢那个网页。
互相提供链接。“如果你给我提供链接,我也将给你提供链接”,双方受益。
提出链接要求。“要用我网页上的内容就必须提供对我网页的链接”或者“如果你提供对我网页的链接将得到一定的回报”。
人情链接。向另一个网页提供链接只是因为“这是我朋友的网站”或者“这是我父亲的网站,这是我母亲的网站,这是我小狗的网站”等。
另外,一些排名靠前的网站也会寻求新网站的链接,这并不一定意味这个网站就是好的(虽然大部分是好的)。假设一个网站管理员建立了一个新的网站,正在寻求别的网站向它的网站提供链接。现在,他首先要做的就是去Google上查找与其网站内容相似的网站。最后得到的向他们提供链接的网站并不一定是最好的,而是它能够最容易找到的。在其他网站提供对新网站的链接后,新的网站也会随后提供对那些网站的链接。如果页面等级确实对网页排序有影响,那么新网站的这种做法就更增加了用页面等级来判断一个网页质量的不准确性。如果新的网站用Google的页面等级查看工具来寻找提供链接的网站也会出现这种结果。
让我们用另外一种方法来解释这个问题:
一个网页的页面等级是由其他网站对它提供的链接数来决定的。但是如果页面等级本身就对这种链接数有影响,那么也就会影响对网页质量的评价(循环影响)。链接不再仅仅取决与对网页好坏的判断,而只是为了取得链接而链接。为了提高其网站的页面等级,网站管理员会仅仅通过Google搜索或者通过Google的页面等级查看工具来挑选要链接的网页。而这样也会导致相应网页页面等级的提高,这种页面等级的提高并不是因为这个网页质量得到了提高,而只是因为它有一个较高的页面等级,所以其它网页都愿意向他提供链接以换取它的链接。
Google的前1000个搜索结果
记住,仅仅页面等级的提高并不能使你的网站在Google搜索结果排序中有一个靠前的位置。前面提到过,页面等级是一个乘数,所以如果一个网页的其他影响网站排名的因素都为0,即使它的页面等级是200亿,你的网站分数仍然是0。当然这也并不是说页面等级没有用,但是页面等级何时才有价值确是一个令人困扰的问题。也正是这个问题导致了很多对页面等级所具有的价值错误解释。唯一能澄清这种误解的方法是找出页面等级何时无用。
如果你在Google上做一次大范围的搜索,你可能会得到几千条搜索结果。然而,最终你可能会仅仅浏览前1000条记录。理解了这一点,就可以解释为什么想提高子集网站在搜索结果排序名次时你应该先考虑网页本身的因素,然后才是页面等级。
假设在一次搜索中你得到了200,000条搜索结果,如果在对搜索结果排序时要考虑所有的影响因素,你认为这可能仅仅在0.34秒内完成吗?为了加快搜索速度,首先要找到一个与搜索内容有联系的所有的网页的子集。这个子集应该小于搜索结果数,假设是2000。搜索引擎要做的就是用2-3个影响因素查询数据库,用这2-3个影响因素对所有搜索结果进行排序,找到排名最前面的2000条结果记录(不要忘了最后要显示200,000条搜索结果)。然后搜索引擎对这2000条记录的每一条应用所有影响因素并据此排名。排序后,在子集后面部分的搜索结果质量(不是网页质量)有所降低,所以只是显示前1000条结果记录。可以确定的说在产生搜索结果子集时,页面等级并不是被考虑的2-3个影响因素之一。这是因为在产生2000个搜索结果的子集时,这些搜索结果应该必须要与搜索内容有联系,如果我们用页面等级作为一个产生子集的影响因素,那么就可能会产生很多页面等级很高却与搜索内容无关的结果,这不是我们所想要的。
所以你必须好好组织你的网页内容以便当搜索你选择的关键词时可以使你的网页进入前2000个搜索结果,否则你的页面等级再高也没有用。如果网页的其他影响因素不足以使其进入开始的搜索子集,那么页面等级就是没有任何用处的。
页面等级与其他影响因素的区别
为了知道页面等级何时才显得重要,就必须明白页面等级与其他影响因素有什么不同。下面列出了影响网页排名的因素以及它们的影响。
没有评论▼