日志分类:搜索引擎

如何针对百度优化

2008-11-20   |  分类:baidu

在与一些站长沟通的过程中,他们经长就百度seo优化的问题进行咨询,这些问题包括:1.让百度更好的收录网站内容;2.百度将网站拔毛之后会有那些救急措施。那么我就这两个问题在SEO博客对这些内容进行详细的阐述。在网站中,具有复杂结构的网页可能无法顺利登录百度。所以在进行网页设计时应尽量:
1. 给每个网页加上标题
网站首页的标题,建议您使用您的网站名称或公司名称,其它网页的标题建议与每个网页内容相关,内容不同的网页不用相同的标题。 尽量不要出现全网站统一的title情况,这个问题在我新公司的网站中非常明显,我正在尽我全力去解决这个问题。

 2. 不要把整个网页做成一个Flash或是一张图片
百度是通过识别网页源代码中的汉字来认识每一个网页的。如果您的整个网页是一个Flash或一张图片,百度在网页中找不到汉字,就有可能不收录您的网页。 其次减少图片的使用,因为图片搜索中,百度并不能对图片内容进行识别,而图片的spider也是通过汉字来识别的。

全文阅读 »

淘宝屏蔽百度蜘蛛

2008-09-08   |  分类:baidu
最近淘宝实施大淘宝战略,利用robot.txt对百度的蜘蛛进行屏幕,那么我们来看看什么叫Robot,互联网中的页面在被搜索引擎检索的时候是通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
每个网站的站长都可以在网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。robots.txt文件应该放在网站根目录下。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

       当我打开http://www.taobao.com/robots.txt时候,浏览器出现

        User-agent: Baiduspider
        Disallow: /

       User-agent: baiduspider
       Disallow: / 全文阅读 »

这篇文章主要介绍人肉搜索引擎的商业化过程,介绍google等网站如何将搜索结合人工来对信息处理完善,为用户提供精品的内容,当然,关注搜索引擎优化的朋友可以略过不读

在我之前的文章中分别写了人肉搜索的前世,现状,这篇关于人肉搜索未来的文章也该出现了……这种人肉搜索这种人找人、人问人、人碰人、人挤人、人挨人,一人提问、八方回应、一石激起千层浪,一声呼唤惊醒万颗真心”的搜索方式也因其不受约束的强大攻击性而引发众多的忧虑与争议。 争议声中,将“人肉搜索”商业化的进程却高歌猛进。猫扑、腾讯等知名网站纷纷开始招兵买马,组织专门从事“人肉搜索”服务的“正规军”。 然而,专家学者对网站此举大多表示忧虑。从自发组织起来惩恶扬善的“网络福尔摩斯”,到受雇于商业网站服务于商业模式的“赏金猎人”,频频侵犯现实社会中法规和道德因而造成人身伤害的“人肉搜索”,能否将它强大的震慑力与杀伤力约束在某种准绳之内?

全文阅读 »

百度各个站点收录数量减半揭秘

2008-08-19   |  分类:baidu

昨天,知情人士对记者爆料称,百度正在大规模拆空搜索服务器的硬盘,而这些硬盘一向用来存放百度可以搜索到的全部中文网页和搜索请求。

 据了解,在近一个月内,百度已将其安置于网通机房内的搜索服务器的硬盘全数拆除,搬运一空。记者从百度技术部门人士处了解到,拆空硬盘的行为有可能意味着百度已经放弃传统搜索的物理存储而开发一种新的存储介质和存储方式,以提高搜索速度的质量。但是,不依靠传统硬盘的存储方式在业内人士听来仍属“诡异”。

在百度内部,这一行动也似乎进行得非常绝密,记者多次询问百度公关部,得到的回复都是不置可否。

据百度相关技术负责人介绍,与当前各个公司广泛采用的普通硬盘存储相比,百度配备的基于闪存的存储卡,将可使得单台存储设备的内部读写性能提升100倍,响应速度提升3倍,整机性能提升1倍,而能耗却要大大低于普通的硬盘存储。此外,由于闪存内部不存在机械设计,传统硬盘所惧怕的震动、尘埃侵入、高能耗等问题也迎刃而解。
难道这就是门户各个站点收录减少一半的原因吗?从6月22日开始百度对各个门户的收录数量拦腰减半,但系统日志上显示百度的蜘蛛访次并未减少,而从百度过来的流量却减少了很多.现象很怪异

yahoo蜘蛛频繁爬行给公司系统部带来了巨大的麻烦,因为蜘蛛的频繁爬行直接导致系统反应过慢,那么如何才能降低yahoo的蜘蛛爬行抓取速度呢?
在yahoo的帮助定义:

在robots.txt 里,YST有一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,例如1或10。

    例如,您想设定一个2秒的延时,语句如下:

    User-agent: Slurp
    Crawl-delay: 2

他们给出的帮助建议是设定为2,这个设定为2用来告诉Slurp蜘蛛2次访问之间的间隔,单位是秒.但对于大型网站设定2秒肯定是不合适的,因为雅虎美国和雅虎中国有2套蜘蛛在运行,每个蜘蛛都是遵循Crawl-delay间隔的,因此为了进一步降低Slurp压力,希望达到10秒一次请求的频道 实际的Crawl-delay配置就要*2。
Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。

那么要想限定YAHOO蜘蛛的爬行,那么robots.txt可以写成

 

User-agent: *
Disallow:

User-agent: slurp
Disallow:
Crawl-delay: 100

 

定义说明:

1. 添加了User-agent: *属性。允许所有蜘蛛访问。
2. 更正了Slurp数值,1000为25秒,如果需要,可以设定成10000
3. 添加了sitemaps地址,将b2b网站的新旧sitemasps加入robots,便于蜘蛛抓取.

 

 

本说明来源于雅虎官方日志:
如何控制Yahoo! Slurp蜘蛛的抓取频度
http://ysearchblog.cn/2006/07/yahoo_slurp.html

百度腰砍门户

2008-06-28   |  分类:baidu

搜索引擎惩罚网站,是搜索引擎为了保证搜索质量,保证用户体验的重要方法,昨天早上起来听SEO圈子的朋友讨论百度惩罚网站的事,查了一下自己负责的网站,收录被降了一半!拦腰斩断,各位门户的SEO也纷纷讨论.一个网站一下损失几百万的收录,让人很无奈这次腰斩事件,导致了很多门户(阿里巴巴从4500万下降到2280万,分类信息网站58同城.赶集,金融界)等等在这次腰斩事件中纷纷受到大规模的打击.阿里巴巴2千万收录一下全没了,很多人都在猜测百度这是怎么了?

其实对于更多的SEO从业人员更多的是无奈,对与那些主要靠搜索引擎带来流量生存的个人站长来说,这样的惩罚无疑是致命打击!以后更多人应该从自身内容上进行努力,从内容上留住客源,例如现在的SNS网站facebook完全屏蔽了搜索引擎的抓取,靠口碑得到了更多人的认同.
同时个人也认为,百度这么一个中文搜索引擎也是为了满足用户日益增长的搜索需求,用户的潜在搜索要求非常重要,因为人的思维是不段发展的,欲望也是无穷无尽的.当人们满足了一个搜素需求之后,又将会有下一个搜索需求!而搜索引擎都是机器组成的,有时候很难满足每一个人的具体需求,而这时候还有更多被优化上的词和内容充斥着搜索引擎的结果页,这些结果,这时候搜索引擎就会通过调整自己的算法来调整页面内容出现的顺序!

 

有关于百度新闻搜索的答疑

2008-06-28   |  分类:baidu

最近一直在着手处理百度新闻搜索抓取的问题,通过与各位主编坚持不懈的努力,终于有了一点点收获,以下将百度回复的信件发布在BLOG上以帮助更多的朋友改善自己的网站内容,提高原创新闻质量

百度使用自动的spider程序抓取互联网上的网页,大多数情况下,网站都能被百度自动收录。虽然百度希望尽可能多的抓取互联网上的网页,但为了
确保用户的搜索体验以及某些不确定的原因,仍会有少数网站无法被百度收录,如果您
的网站未被收录,通常是由以下原因引起的:

 1. 您的网站所在服务器不稳定,被百度暂时性去除,稳定之后,问题会得到解决。

2. 您的网站有设计缺陷,导致spider无法正常抓取。

3. 您的网页不符合用户的搜索体验。

4. 网页是复制自互联网上的高度重复性的内容。

5. 网页做了很多针对搜索引擎而非用户的处理,使得用户从搜索结果中看到的内容与
页面实际内容完全不同,或者使得网页在搜索结果中获得了不恰当的排名,从而导致用
户产生受欺骗感觉。

6. 您的网页内容有不符合国家法律和法规规定的地方。

7. 您网站的robots协议禁止百度抓取。

8. 其他技术性问题。

 

由于网站的历史遗留问题,网站存有大量动态url地址(如info_list.php?),而且参数非常混乱。动态url地址由于存在时间较长,已被搜索引擎大量收录,存于搜索引擎的索引数据库中,且有了很高的权重。
使用webtrends对日志进行了spider爬行分析得出,这些动态url地址有很高的排行优先权,多次都是spider通过这些动态url从数据库中直接爬行至网站,进行抓取。由于spider是通过如info_list.php?此类动态页面爬行至此,在抓取的过程中spider一直在动态网页中循环抓取(因为参数比较混乱,spider会根据参数排列逻辑自己排列组合进行抓取,且不是返回404,所以导致了动态页面无穷多,严重浪费了spider的抓取效率),无法抓取到网站的伪静态页面。
对此情况采取了以下措施:
1、对全站url进行静态化处理,限制不同参数的排列组合,固定参数非正确的排列组合返回404.
2、对静态化的页面进行META规则制定,每个页面拥有自己独立的META信息,避免造成这些页面被收录后,在索引数据库中本站关键词竞争,可以突出重点词。
3、制作静态化页面sitemap.xml ,且通过robots.txt屏蔽各个动态目录。
4、通过google管理员工具删除已存在于google索引数据库中的动态url地址,可以删除整个动态目录。
通过以上方法,经过约1个月时间,目前google.com索引数据库中动态url地址已全部删除。site:该目录以为0. 通过webtrends对日志spider爬行的分析,目前已经批量抓取静态页面。原有排名的动态url页面,已被静态页面取代。spider抓取、索引数据库中的静态页面排名已趋于正常。
通过此次操作,又再次体会出google.com比baidu.com智能的多,其中最重要一点包括google.com可以通过管理员工具很方便的与站长沟通,即能帮助站长解决问题又能节省自己的spider抓取资源。而百度呢?baiduspider根本就不能控制,乱抓。也不明白站长的意思。技术含量极低… … 排序规则、更新规则中又夹杂着n多人为因素。

众里寻她千百度,蓦然回首,却是一头笨猪.

Pages: 1 2 3 4 5 Next