淘宝屏蔽百度蜘蛛
最近淘宝实施大淘宝战略,利用robot.txt对百度的蜘蛛进行屏幕,那么我们来看看什么叫Robot,互联网中的页面在被搜索引擎检索的时候是通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
每个网站的站长都可以在网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。robots.txt文件应该放在网站根目录下。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
当我打开http://www.taobao.com/robots.txt时候,浏览器出现
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
每种搜索引擎都有自己的搜索爬行,百度的爬虫叫做baiduspide,淘宝这样做的后果是屏蔽百度的蜘蛛爬行,google的蜘蛛叫做Googlebot,那么下一步大家跟我一起来看看规范的robots.txt文件的格式:
“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:”<field>:<optionalspace><value><optionalspace>”。
在淘宝使用ROBOTS屏蔽了百度的蜘蛛之后,百度会不会另外命名一种蜘蛛去爬行淘宝的内容呢?我们不得而知,等百度的C2C上线,我们拭目以待。同时也说明淘宝的用户基数大,今后会有更多的成熟网站拒绝搜索引擎的
3条评论▼