淘宝屏蔽百度蜘蛛
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
当我打开http://www.taobao.com/robots.txt时候,浏览器出现
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
每种搜索引擎都有自己的搜索爬行,百度的爬虫叫做baiduspide,淘宝这样做的后果是屏蔽百度的蜘蛛爬行,google的蜘蛛叫做Googlebot,那么下一步大家跟我一起来看看规范的robots.txt文件的格式:
“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:”<field>:<optionalspace><value><optionalspace>”。
在淘宝使用ROBOTS屏蔽了百度的蜘蛛之后,百度会不会另外命名一种蜘蛛去爬行淘宝的内容呢?我们不得而知,等百度的C2C上线,我们拭目以待。同时也说明淘宝的用户基数大,今后会有更多的成熟网站拒绝搜索引擎的























感觉很新鲜,学到新知识了!
多谢!!