« »
2007-08-06搜索引擎

3,607 views

搜索蜘蛛是如何工作的

蛛人是如何工作的

你应该知道在搜索引擎结果页面中排得较高是怎样的重要。但是,你的网站还没有排到前三页,并且你也不了解是为什么。有种可能是,蜘蛛人想索引到你的网页时你却把它搞糊涂了。那你怎么能发现这个情况呢?别着急,继续往下看。

你有个很不错的网站,也有很多相关的内容,却总也不能在搜索结果页上排名很高。你也知道,如果你的网站不排在前面几页,查询者很有可能是发现不了这个网页的。你不能理解为什么对google 和别的主要搜索引擎网页不可视。而你竞争对手的网页还没你的好,却排在比你高的位置上。

搜索引擎不是人类。为了处理成百万的包含在万维网上的网页,搜索引擎公司已经几乎完全使得这个程序自动化了。一个软件程序不会像人眼那样看待你的网页。这并不是说你不需要有个可以带给访问者快乐的网站。这意味着你需要意识到搜索引擎“看”你网页时是不一样的,要根据这个安排。

尽管网络很复杂,而且还要迅速处理所有的数据,搜索引擎事实上履行的是短短的操作,以把相关的结果反馈给使用者。这四个操作的每一个都可能出错。这不是说搜索引擎本身自己会出现错误,它可能只是遇到了一些没有程序来处理的东西。或者它被编程的方式来处理一切遇到的东西会产生不理想的效果。

理解搜索引擎是如何操作可以帮你理解什么会发生错误。所有的搜索引擎都是履行四大任务:

        网站抓取。搜索引擎发送自动程序,一些时候称为“蜘蛛人”,蜘蛛人用网页超链接结构爬到网页上。根据我们的一些最好估计,搜索引擎蜘蛛人已经爬上了现在网上已有的一边的网页上。
        文件检索。蜘蛛人爬到某一个网页后,它的内容要变成一个模板,当使用者询问搜索引擎的时候,会很容易回复。如此,网页就被屯放在一个巨大的紧密管理的组成搜索引擎索引的数据库中。这些索引包括数十亿的文件,不到一秒钟就可以呈现给使用者。
        询问程序。当一个使用者使用一个搜索引擎时,引擎检查它的索引以发现与之相匹配的文件。从表面上看起来极为相似的询问会产生很不同的结果。举个例子:搜索“田野和河流杂志”,如果不加引号,google会产生400万多结果。加上引号,google 仅仅反馈19600个结果。这只是搜索者可以用来缩小搜索量并得到相关结果的一个方法。
        排名结果。Google不会把所有的19600个结果都显示给你看,而且即使是那样,它也需要一些方法来决定哪些要排在前面。所以搜索引擎运行了一个算法,来计算哪些是与搜索的东西最相关。这些被最先列出来,其余的按相关程度向下排。

现在你对整个过程应该有些印象了。就需要花些时间来近距离看看每个。这个会帮助你理解事情怎样向好的发展,怎样和为什么有些任务向坏的方向发展。这篇文章会关注网页抓取。

不抓取,却阻止

当你开始网站航行时是主要考虑你的现实访问者,当然也是应该的。但是有些导航结构可能会阻止搜索引擎蜘蛛,使得他们不太容易在第一位置发现你的网页。作为一个另外的红利,许多你对网页做的事情会使得蜘蛛人更容易找到网站内容,使得访问者在网页上更容易找到方向。

顺便说一下,你可能不想要蜘蛛人有能力索引到你网页上的所有内容,这个你值得记在心里。如果有个网页是要缴费才能进入的,你可能就不希望google 抓取到你的内容来显示给任何输入关键词的人看。有很多方法可以人为地阻止蜘蛛人抓到这些内容。

动态的URL是对搜索引擎蜘蛛人的一个最大的阻止。特别是,有两个及以上的动态参数的网页会给与蜘蛛人装备。你看到一个动态的URL的时候能够认出来,它经常会有许多的“垃圾”符号比如问号、等号、和号(&)和百分号。这些网页对于人类使用者是很好的,他们会通过设定一些参数得到。比如说,在weather.com搜索框中输入一个邮政编码,将会反馈一个特殊地区的天气情况的页面和一个有着动态的URL的页面位置。

还有很多别的方法蜘蛛人不喜欢。比如,相同网址上的网页有超过一百个超链接会使得他们看一眼就累了。蜘蛛人不会追随这些链接。如果你是想建造一个网站地图,有更好的方法来阻止他。

页面上藏着从你的主页上来的多于三个链接也会不被抓取。因为这个会使得许多人类在面对网页上那么多链接又没有导航的情况下搞晕。

要求“身份验证”等的网页也不会被抓取。蜘蛛人不是扫描器,也不是都有相同的能力。他们也许不能够保持相同形式的验证。

另一个阻止的是分割成框架的网页。许多网页设计者喜欢框架;它使得访问者即使在内容中转悠的时候都保持在同一个页面中,但是蜘蛛人发现框架网页很困惑。对它们而言,内容就是内容,它们不知道哪个网页应该出现在搜索结果页面上。直率的讲,许多用户也不喜欢框架,只不过是提供一个更干净的页面。

上面讲的大部分阻止蜘蛛人工作的东西是一些你意外地放在页面上的。下面要来讲一些网站管理员故意用的来阻止蜘蛛人的。前面我提到过一个最主要的原因,内容需要用户付费才可看到,还有一些别的,比如内容可能是免费的,但不是每个人都可以轻易得到的。

填完一些表格并提交才能进入的网站很有可能会蜘蛛人是关门的。他们是无法得到按钮或类型的。同样,要求使用下拉菜单的网页可能是搜索不到的,只能通过一个搜索框才能得到的文件也一样。

故意阻止的文件一般是抓取不到的。

现在你了解到了什么可以让蜘蛛人窒息,你怎样鼓励他们去任何他们想去的地方。关键就是要提供直接的HTML链接到每个你想蜘蛛人去的页面。还有,给他们一个浅的池子去玩耍。蜘蛛人一般从主页开始,如果你的网页的部分不能从那儿进入,机会就是蜘蛛人不会看到。这个时候网站地图的使用就是无价的。

蜘蛛人在超链接中看到什么?

我假设你对HTML相当的熟悉。如果你看过HTML页面的代码,你可能会注意到超链接出现地方的文本,<a href=http://www.etcis.com>seo Chat</a>
当网站浏览器读到这儿的时候,它会知道文本“seo chat”应该是个超链接http://www.etcis.com 网页的。附随的,在这个例子中“seo chat”是链接的引导词。当蜘蛛读到这个文本的时候,它会想,“OK,页面www.etcis.com”是于当前页面上的文本相关的,而且与“SEO CHAT”极为相关。

现在来看点复杂的:
<a href=http://www.etcis.com
Title=”great site for seo info”
Rel=”nofollow”>seo chat</a>

现在怎样?引导词没有变化,所以当网页浏览器展示到这儿的时候,链接看起来还是一样。但是一个蜘蛛人会想,“OK,不仅仅这个网页与’seochat’是相关的,它还与短语‘great site for seo info’相关。而且,我现在在的这个网页和这个超链接还有关系。它显示这个链接不是作为那个网页的投票,那就不会增加PR值了。”

最后的那一点,关于这个链接不作为那个网页的投票,是标签“rel=nofollow”反映的。这个标签演变成解决人们提交相关评论到博客“欢迎访问我的药品网站”的链接。这种评论方法是种试图提高他自己网页在搜索排名位置的方法。这个被称为“评论垃圾”。大多数搜索引擎不喜欢评论垃圾,因为它歪斜了它们的结果,使得他们相关性下降。你可能会猜到,“nofollow”属性对于搜索引擎是特别的,它在那儿是不会被别人注意到的。雅虎,MSN, google, 认出它,但是askjeeves不支持nofollow, 它的蜘蛛人只是简单的忽视掉这个标签。

在一些情况中,链接可能是到一个图片的。超链接会包括照片的名称,还可能包括一些“alt”属性的备用文本,这些对于盲人用的声音浏览器有帮助。它也同时对于蜘蛛人有助,因为它给与了另一个页面描述的证据。

超链接在网页上可能还有别的形式,但是总的来说,这些形式不通过排名或蜘蛛人价值。总而言之,链接越接近<a href=”URL”>text</a>的形式, 那么蜘蛛人也容易抓住链接,反之亦然。

日志信息 »

该日志于2007-08-06 08:35由 阿猎 发表在搜索引擎分类下, 你可以发表评论。除了可以将这个日志以保留源地址及作者的情况下引用到你的网站或博客,还可以通过RSS 2.0订阅这个日志的所有评论。

相关日志 »

相关日志

  • 哇!恭喜您找到了一个独一无二的文章。

40条评论

  1. 蜘蛛是按照算法固定的进行工作的,所以看谁的算法先进点,工作也就更有效率了

  2. Helpful info discussed I am really pleased to read this particular post..many thanks with regard to providing all of us nice information.Great walk-through. I truly appreciate this article.

  3. you are really a excellent webmaster. The site loading pace is amazing. It seems that you are doing any unique trick. In addition, The contents are masterpiece. you’ve performed a magnificent activity in this matter!

  4. I simply want to say I am just all new to weblog and certainly loved this blog site. Probably I’m likely to bookmark your site . You definitely come with amazing stories. Many thanks for sharing your web-site.

  5. Manchester 说:

    Howdy! Someone in my Facebook group shared this site with us so I came to give it a look. I’m definitely enjoying the information. I’m book-marking and will be tweeting this to my followers! Excellent blog and brilliant style and design.

  6. hi. I see that you’re most likely interested in hair growth tips

  7. Kitty Basta 说:

    Wonderful blog! I found it while browsing on Yahoo News. Do you have any tips on how to get listed in Yahoo News? I’ve been trying for a while but I never seem to get there! Thanks

  8. Tristan Omar 说:

    I would like to get across my gratitude for your kindness giving support to individuals who really need assistance with this important matter. Your special dedication to passing the message across had become particularly advantageous and has enabled somebody like me to attain their dreams. Your new important instruction indicates a great deal a person like me and still more to my office workers. Regards; from each one of us.

  9. emagrecer 说:

    That’s what i call “great post”. Thank you so much.

  10. Awsome site! I am loving it!! Will come back again. I am bookmarking your feeds also.

  11. Continuous effort – not strength or intelligence – is the key to unlocking our potential. – Winston Churchill

  12. Alfred Lord Tennyson – is suspected having asserted There lives more faith in honest doubt believe me than in half the creeds.

  13. That’s what i call “great post”. Thank you so much.

  14. Cyril Reilley 说:

    I in addition to my buddies have been reading through the nice pointers on your web site and so instantly got a horrible feeling I had not expressed respect to the blog owner for those secrets. All of the women are already for that reason happy to learn them and have undoubtedly been tapping into those things. Appreciate your indeed being very helpful and also for choosing some high-quality guides millions of individuals are really desirous to understand about. Our honest apologies for not expressing appreciation to you earlier.

  15. Directory 说:

    Perfectly written subject matter, Really enjoyed examining .

  16. A’kum Tun & pembaca2 blog Chedet,

  17. This is a nice post where we feel comfirt and tension free to stay .

  18. I really appreciate the writer’s skills over here as he has presented the facts in the right manner. Also he has kept the content simple, engaging and concise.

  19. That’s a great post. Thank you so much.

  20. Thats great, I never knew before this blog.

  21. However beautiful the strategy, you should occasionally look at the results. – Winston Churchill

  22. Wonderful job right here. I definitely enjoyed what you had to say. Keep heading because you absolutely bring a new voice to this topic. Not many people would say what youve said and still make it interesting. Well, at least Im interested. Cant wait to see more of this from you.

  23. sacoche homme 说:

    Thanks for helping out, wonderful info .

  24. robot menager 说:

    Some truly prize blog posts on this website , saved to bookmarks .

  25. Thank you for sharing excellent informations. Your site is so cool. I am impressed by the details that you have on this blog. It reveals how nicely you perceive this subject. Bookmarked this web page, will come back for more articles. You, my pal, ROCK! I found simply the info I already searched everywhere and just could not come across. What a great web-site.

  26. I like this web site its a master peace ! Glad I detected this on google. “Americans will put up with anything provided it doesn’t block traffic.” by Dan Rather.

  27. Only a smiling visitant here to share the love (:, btw great layout.

  28. Really nice layout and superb articles , nothing else we need : D.

  29. I just want to tell you that I am all new to blogging and site-building and certainly loved you’re web-site. Very likely I’m want to bookmark your blog post . You really have tremendous articles. Thanks a lot for sharing your website.

  30. Hello there! Fabulous weblog! I’m a frequent website visitor (a bit more like addict :P ) to your website although I had a trouble. I am not really for sure whether it is the right site to ask, but you’ve got no spam comments. I get comments day to day. Possibly can you help me? Bless you!

  31. You are my aspiration , I have few blogs and rarely run out from to brand.

  32. here 说:

    Hi, i believe that i noticed you visited my weblog thus i came to “return the want”.I am attempting to in finding things to enhance my website!I suppose its good enough to use some of your ideas!!

  33. Someone essentially assist to make severely posts I’d state. That is the very first time I frequented your web page and up to now? I amazed with the analysis you made to make this actual submit amazing. Wonderful job!

  34. Yeah bookmaking this wasn’t a bad determination outstanding post!

  35. cliquez ici 说:

    I think this web site holds very wonderful indited content material blog posts.

  36. I gotta bookmark this site it seems invaluable very useful

  37. That you are my intake , I own couple of web logs and often run out from to brand : (.

  38. Outstanding post, I conceive blog owners should acquire a lot from this weblog its really user pleasant. So much excellent information on here :D .

  39. trancheuse 说:

    Loving the info on this internet site, you have done great job on the blog posts.

  40. sorbetière 说:

    I like this web blog it’s a master piece! Glad I discovered this on google.

发表评论 »

返回顶部