淘宝屏蔽百度蜘蛛

2008-09-08   |  分类:baidu
最近淘宝实施大淘宝战略,利用robot.txt对百度的蜘蛛进行屏幕,那么我们来看看什么叫Robot,互联网中的页面在被搜索引擎检索的时候是通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
每个网站的站长都可以在网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。robots.txt文件应该放在网站根目录下。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

       当我打开http://www.taobao.com/robots.txt时候,浏览器出现

        User-agent: Baiduspider
        Disallow: /

       User-agent: baiduspider
       Disallow: / 全文阅读 »