众里寻她千百度,蓦然回首,却是一头笨猪

由于网站的历史遗留问题,网站存有大量动态url地址(如info_list.php?),而且参数非常混乱。动态url地址由于存在时间较长,已被搜索引擎大量收录,存于搜索引擎的索引数据库中,且有了很高的权重。
使用webtrends对日志进行了spider爬行分析得出,这些动态url地址有很高的排行优先权,多次都是spider通过这些动态url从数据库中直接爬行至网站,进行抓取。由于spider是通过如info_list.php?此类动态页面爬行至此,在抓取的过程中spider一直在动态网页中循环抓取(因为参数比较混乱,spider会根据参数排列逻辑自己排列组合进行抓取,且不是返回404,所以导致了动态页面无穷多,严重浪费了spider的抓取效率),无法抓取到网站的伪静态页面。
对此情况采取了以下措施:
1、对全站url进行静态化处理,限制不同参数的排列组合,固定参数非正确的排列组合返回404.
2、对静态化的页面进行META规则制定,每个页面拥有自己独立的META信息,避免造成这些页面被收录后,在索引数据库中本站关键词竞争,可以突出重点词。
3、制作静态化页面sitemap.xml ,且通过robots.txt屏蔽各个动态目录。
4、通过google管理员工具删除已存在于google索引数据库中的动态url地址,可以删除整个动态目录。
通过以上方法,经过约1个月时间,目前google.com索引数据库中动态url地址已全部删除。site:该目录以为0. 通过webtrends对日志spider爬行的分析,目前已经批量抓取静态页面。原有排名的动态url页面,已被静态页面取代。spider抓取、索引数据库中的静态页面排名已趋于正常。
通过此次操作,又再次体会出google.com比baidu.com智能的多,其中最重要一点包括google.com可以通过管理员工具很方便的与站长沟通,即能帮助站长解决问题又能节省自己的spider抓取资源。而百度呢?baiduspider根本就不能控制,乱抓。也不明白站长的意思。技术含量极低... ... 排序规则、更新规则中又夹杂着n多人为因素。

众里寻她千百度,蓦然回首,却是一头笨猪.

暂无评论

发表评论

您的电子邮件地址不会被公开,必填项已用*标注。

相关推荐

移动端网站SEO指南-APP篇

    APP是移动端重要的入口,很多互联网公司都在增加移动互联网的预算,不停的在进行移动互联网的应用研发及 ...

移动端网站SEO指南-适配篇

将PC网站转换到移动端,并且针对移动端进行优化,第一个问题就是适配的问题,针对适配也是传统PC站的一个难题,我重点 ...

移动端网站SEO指南-WAP篇

移动互联网的使用人数的增加,网站通过移动搜索来的流量也越来越多,但不可否认的是,现阶段许多PC端网站copy成简单的 ...

微信扫一扫,分享到朋友圈

众里寻她千百度,蓦然回首,却是一头笨猪