<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>SEO博客,在SEO中实战中的阿猎SEO项目管理博客&#187; baiduspider</title>
	<atom:link href="http://www.etcis.com/tge/baiduspider/feed" rel="self" type="application/rss+xml" />
	<link>http://www.etcis.com</link>
	<description>SEO技术探索者，SEO博客的重点不是为了SEO而博客,而是分享SEO技术,传播搜索引擎优化知识。让更多网站能对搜索引擎友好，对用户友好！</description>
	<lastBuildDate>Mon, 18 Apr 2011 10:08:21 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.4</generator>
		<item>
		<title>众里寻她千百度,蓦然回首,却是一头笨猪</title>
		<link>http://www.etcis.com/post/308</link>
		<comments>http://www.etcis.com/post/308#comments</comments>
		<pubDate>Thu, 26 Jun 2008 07:27:52 +0000</pubDate>
		<dc:creator>阿猎</dc:creator>
				<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[baiduspider]]></category>
		<category><![CDATA[webtrend]]></category>

		<guid isPermaLink="false">http://www.etcis.com/?p=308</guid>
		<description><![CDATA[由于网站的历史遗留问题，网站存有大量动态url地址（如info_list.php?）,而且参数非常混乱。动态url地址由于存在时间较长，已被搜索引擎大量收录，存于搜索引擎的索引数据库中，且有了很高的权重。 使用webtrends对日志进行了spider爬行分析得出，这些动态url地址有很高的排行优先权，多次都是spider通过这些动态url从数据库中直接爬行至网站，进行抓取。由于spider是通过如info_list.php?此类动态页面爬行至此，在抓取的过程中spider一直在动态网页中循环抓取（因为参数比较混乱，spider会根据参数排列逻辑自己排列组合进行抓取，且不是返回404，所以导致了动态页面无穷多，严重浪费了spider的抓取效率），无法抓取到网站的伪静态页面。 对此情况采取了以下措施： 1、对全站url进行静态化处理，限制不同参数的排列组合，固定参数非正确的排列组合返回404. 2、对静态化的页面进行META规则制定，每个页面拥有自己独立的META信息，避免造成这些页面被收录后，在索引数据库中本站关键词竞争，可以突出重点词。 3、制作静态化页面sitemap.xml ，且通过robots.txt屏蔽各个动态目录。 4、通过google管理员工具删除已存在于google索引数据库中的动态url地址，可以删除整个动态目录。 通过以上方法，经过约1个月时间，目前google.com索引数据库中动态url地址已全部删除。site:该目录以为0. 通过webtrends对日志spider爬行的分析，目前已经批量抓取静态页面。原有排名的动态url页面，已被静态页面取代。spider抓取、索引数据库中的静态页面排名已趋于正常。 通过此次操作，又再次体会出google.com比baidu.com智能的多，其中最重要一点包括google.com可以通过管理员工具很方便的与站长沟通，即能帮助站长解决问题又能节省自己的spider抓取资源。而百度呢？baiduspider根本就不能控制，乱抓。也不明白站长的意思。技术含量极低&#8230; &#8230; 排序规则、更新规则中又夹杂着n多人为因素。 众里寻她千百度,蓦然回首,却是一头笨猪. 相关日志哇！恭喜您找到了一个独一无二的文章。]]></description>
			<content:encoded><![CDATA[<p>由于网站的历史遗留问题，网站存有大量动态url地址（如info_list.php?）,而且参数非常混乱。动态url地址由于存在时间较长，已被搜索引擎大量收录，存于搜索引擎的索引数据库中，且有了很高的权重。<br />
    使用webtrends对日志进行了spider爬行分析得出，这些动态url地址有很高的排行优先权，多次都是spider通过这些动态url从数据库中直接爬行至网站，进行抓取。由于spider是通过如info_list.php?此类动态页面爬行至此，在抓取的过程中spider一直在动态网页中循环抓取（因为参数比较混乱，spider会根据参数排列逻辑自己排列组合进行抓取，且不是返回404，所以导致了动态页面无穷多，严重浪费了spider的抓取效率），无法抓取到网站的伪静态页面。<br />
对此情况采取了以下措施：<br />
1、对全站url进行静态化处理，限制不同参数的排列组合，固定参数非正确的排列组合返回404.<br />
2、对静态化的页面进行META规则制定，每个页面拥有自己独立的META信息，避免造成这些页面被收录后，在索引数据库中本站关键词竞争，可以突出重点词。<br />
3、制作静态化页面sitemap.xml ，且通过robots.txt屏蔽各个动态目录。<br />
4、通过google管理员工具删除已存在于google索引数据库中的动态url地址，可以删除整个动态目录。<br />
     通过以上方法，经过约1个月时间，目前google.com索引数据库中动态url地址已全部删除。site:该目录以为0. 通过webtrends对日志spider爬行的分析，目前已经批量抓取静态页面。原有排名的动态url页面，已被静态页面取代。spider抓取、索引数据库中的静态页面排名已趋于正常。<br />
     通过此次操作，又再次体会出google.com比baidu.com智能的多，其中最重要一点包括google.com可以通过管理员工具很方便的与站长沟通，即能帮助站长解决问题又能节省自己的spider抓取资源。而百度呢？baiduspider根本就不能控制，乱抓。也不明白站长的意思。技术含量极低&#8230; &#8230; 排序规则、更新规则中又夹杂着n多人为因素。 </p>
<p>     众里寻她千百度,蓦然回首,却是一头笨猪.</p>
<h3  class="related_post_title">相关日志</h3><ul class="related_post"><li>哇！恭喜您找到了一个独一无二的文章。</li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.etcis.com/post/308/feed</wfw:commentRss>
		<slash:comments>22</slash:comments>
		</item>
	</channel>
</rss>

