« 人肉搜索引擎的未来商业化道路 如何确定有用的外部链接 »
2008-09-08SEO

2,279 views

淘宝屏蔽百度蜘蛛

最近淘宝实施大淘宝战略,利用robot.txt对百度的蜘蛛进行屏幕,那么我们来看看什么叫Robot,互联网中的页面在被搜索引擎检索的时候是通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
每个网站的站长都可以在网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。robots.txt文件应该放在网站根目录下。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

       当我打开http://www.taobao.com/robots.txt时候,浏览器出现

        User-agent: Baiduspider
        Disallow: /

       User-agent: baiduspider
       Disallow: /

       每种搜索引擎都有自己的搜索爬行,百度的爬虫叫做baiduspide,淘宝这样做的后果是屏蔽百度的蜘蛛爬行,google的蜘蛛叫做Googlebot,那么下一步大家跟我一起来看看规范的robots.txt文件的格式:
       “robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:”<field>:<optionalspace><value><optionalspace>”。

       在淘宝使用ROBOTS屏蔽了百度的蜘蛛之后,百度会不会另外命名一种蜘蛛去爬行淘宝的内容呢?我们不得而知,等百度的C2C上线,我们拭目以待。同时也说明淘宝的用户基数大,今后会有更多的成熟网站拒绝搜索引擎的

日志信息 »

该日志于2008-09-08 21:30由 阿猎 发表在SEO分类下, 你可以发表评论。除了可以将这个日志以保留源地址及作者的情况下引用到你的网站或博客,还可以通过RSS 2.0订阅这个日志的所有评论。

相关日志 »

相关日志

  • 哇!恭喜您找到了一个独一无二的文章。

3条评论

  1. 闯子 说:

    感觉很新鲜,学到新知识了!
    多谢!!

  2. ddload 说:

    原来是这样,学习了

  3. 青岛SEOMM 说:

    淘宝开始对百度宣战了……

发表评论 »

返回顶部