<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>SEO博客：SEO项目管理分享&#187; yahoo</title>
	<atom:link href="http://www.etcis.com/tge/yahoo/feed" rel="self" type="application/rss+xml" />
	<link>http://www.etcis.com</link>
	<description>SEO技术探索者，SEO博客的重点不是为了SEO而博客,而是分享SEO技术,传播搜索引擎优化知识。让更多网站能对搜索引擎友好，对用户友好！</description>
	<lastBuildDate>Tue, 10 Aug 2010 13:37:39 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.4</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>如何利用robots限定yahoo蜘蛛爬行</title>
		<link>http://www.etcis.com/post/273</link>
		<comments>http://www.etcis.com/post/273#comments</comments>
		<pubDate>Tue, 12 Aug 2008 07:46:40 +0000</pubDate>
		<dc:creator>阿猎</dc:creator>
				<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[robots]]></category>
		<category><![CDATA[yahoo]]></category>

		<guid isPermaLink="false">http://www.etcis.com/?p=273</guid>
		<description><![CDATA[yahoo蜘蛛频繁爬行给公司系统部带来了巨大的麻烦,因为蜘蛛的频繁爬行直接导致系统反应过慢,那么如何才能降低yahoo的蜘蛛爬行抓取速度呢?
在yahoo的帮助定义:
在robots.txt 里，YST有一个特定的扩展名，可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示，其中，“XX”是指在crawler程序两次进入站点时，以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担，您可以将这个延时设定为任何您认为恰当的数字，例如1或10。
    例如，您想设定一个2秒的延时，语句如下：
    User-agent: Slurp
    Crawl-delay: 2
他们给出的帮助建议是设定为2,这个设定为2用来告诉Slurp蜘蛛2次访问之间的间隔，单位是秒.但对于大型网站设定2秒肯定是不合适的,因为雅虎美国和雅虎中国有2套蜘蛛在运行，每个蜘蛛都是遵循Crawl-delay间隔的，因此为了进一步降低Slurp压力，希望达到10秒一次请求的频道 实际的Crawl-delay配置就要*2。
Slurp来源于40多个IP网段，同网段内的蜘蛛协调抓取频度。因此：实际的Slurp设置，需要设置为10*40 = 400秒，才能达到期望的Slurp每10秒访问一次频度。
那么要想限定YAHOO蜘蛛的爬行,那么robots.txt可以写成
 
User-agent: *
Disallow:
User-agent: slurp
Disallow:
Crawl-delay: 100
 
定义说明:
1. 添加了User-agent: *属性。允许所有蜘蛛访问。
2. 更正了Slurp数值,1000为25秒,如果需要,可以设定成10000
3. 添加了sitemaps地址,将b2b网站的新旧sitemasps加入robots,便于蜘蛛抓取.
 
 
本说明来源于雅虎官方日志:
如何控制Yahoo! Slurp蜘蛛的抓取频度
http://ysearchblog.cn/2006/07/yahoo_slurp.html
相关日志

robots.txt屏蔽搜索抓取

]]></description>
			<content:encoded><![CDATA[<p>yahoo蜘蛛频繁爬行给公司系统部带来了巨大的麻烦,因为蜘蛛的频繁爬行直接导致系统反应过慢,那么如何才能降低yahoo的蜘蛛爬行抓取速度呢?<br />
在yahoo的帮助定义:</p>
<p>在robots.txt 里，YST有一个特定的扩展名，可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示，其中，“XX”是指在crawler程序两次进入站点时，以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担，您可以将这个延时设定为任何您认为恰当的数字，例如1或10。</p>
<p>    例如，您想设定一个2秒的延时，语句如下：</p>
<p>    User-agent: Slurp<br />
    Crawl-delay: 2</p>
<p>他们给出的帮助建议是设定为2,这个设定为2用来告诉Slurp蜘蛛2次访问之间的间隔，单位是秒.但对于大型网站设定2秒肯定是不合适的,因为雅虎美国和雅虎中国有2套蜘蛛在运行，每个蜘蛛都是遵循Crawl-delay间隔的，因此为了进一步降低Slurp压力，希望达到10秒一次请求的频道 实际的Crawl-delay配置就要*2。<br />
Slurp来源于40多个IP网段，同网段内的蜘蛛协调抓取频度。因此：实际的Slurp设置，需要设置为10*40 = 400秒，才能达到期望的Slurp每10秒访问一次频度。</p>
<p>那么要想限定YAHOO蜘蛛的爬行,那么robots.txt可以写成</p>
<p> </p>
<p>User-agent: *<br />
Disallow:</p>
<p>User-agent: slurp<br />
Disallow:<br />
Crawl-delay: 100</p>
<p> </p>
<p>定义说明:</p>
<p>1. 添加了User-agent: *属性。允许所有蜘蛛访问。<br />
2. 更正了Slurp数值,1000为25秒,如果需要,可以设定成10000<br />
3. 添加了sitemaps地址,将b2b网站的新旧sitemasps加入robots,便于蜘蛛抓取.</p>
<p> </p>
<p> </p>
<p>本说明来源于雅虎官方日志:<br />
如何控制Yahoo! Slurp蜘蛛的抓取频度<br />
<a href="http://ysearchblog.cn/2006/07/yahoo_slurp.html">http://ysearchblog.cn/2006/07/yahoo_slurp.html</a><br />
<h3>相关日志</h3>
<ul class="related_post">
<li><a href="http://www.etcis.com/post/157" title="robots.txt屏蔽搜索抓取">robots.txt屏蔽搜索抓取</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.etcis.com/post/273/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
