淘宝屏蔽百度蜘蛛

2008-09-08  |  分类:baidu  |  标签:  |  999 views
最近淘宝实施大淘宝战略,利用robot.txt对百度的蜘蛛进行屏幕,那么我们来看看什么叫Robot,互联网中的页面在被搜索引擎检索的时候是通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
每个网站的站长都可以在网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。robots.txt文件应该放在网站根目录下。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

       当我打开http://www.taobao.com/robots.txt时候,浏览器出现

        User-agent: Baiduspider
        Disallow: /

       User-agent: baiduspider
       Disallow: /

       每种搜索引擎都有自己的搜索爬行,百度的爬虫叫做baiduspide,淘宝这样做的后果是屏蔽百度的蜘蛛爬行,google的蜘蛛叫做Googlebot,那么下一步大家跟我一起来看看规范的robots.txt文件的格式:
       “robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:”<field>:<optionalspace><value><optionalspace>”。

       在淘宝使用ROBOTS屏蔽了百度的蜘蛛之后,百度会不会另外命名一种蜘蛛去爬行淘宝的内容呢?我们不得而知,等百度的C2C上线,我们拭目以待。同时也说明淘宝的用户基数大,今后会有更多的成熟网站拒绝搜索引擎的

喜欢本文,那就收藏到: Del.icio.us Google书签 Digg Live Bookmark Technorati Furl Yahoo书签 Facebook 百度搜藏 新浪ViVi 365Key网摘 天极网摘和讯网摘 博拉网 POCO网摘 添加到饭否 QQ书签 Digbuzz我挖网

相关日志

  • 哇!恭喜您找到了一个独一无二的文章。

8条评论 关于 “淘宝屏蔽百度蜘蛛”

  1. 闯子 发表于: 09月 9th, 2008

    感觉很新鲜,学到新知识了!
    多谢!!

  2. ddload 发表于: 09月 12th, 2008

    原来是这样,学习了

  3. 青岛SEOMM 发表于: 09月 14th, 2008

    淘宝开始对百度宣战了……

  4. 青岛SEO 发表于: 09月 18th, 2008

    感觉要打仗了。。。有点苗头

  5. milez 发表于: 10月 8th, 2008

    学习了

  6. woshilang 发表于: 11月 13th, 2008

    我还是不懂,为什么要拒绝呢

  7. minke 发表于: 12月 17th, 2008

    非常感谢,学习了不少东西,成长的路上我还需要更多,希望多指点。

  8. 阿猎 发表于: 01月 2nd, 2009

    minke:不用谢,有空路多多交流的


发表您的评论