人肉搜索引擎的未来商业化道路

这篇文章主要介绍人肉搜索引擎的商业化过程,介绍google等网站如何将搜索结合人工来对信息处理完善,为用户提供精品的内容,当然,关注搜索引擎优化的朋友可以略过不读

在我之前的文章中分别写了人肉搜索的前世,现状,这篇关于人肉搜索未来的文章也该出现了……这种人肉搜索这种人找人、人问人、人碰人、人挤人、人挨人,一人提问、八方回应、一石激起千层浪,一声呼唤惊醒万颗真心”的搜索方式也因其不受约束的强大攻击性而引发众多的忧虑与争议。 争议声中,将“人肉搜索”商业化的进程却高歌猛进。猫扑、腾讯等知名网站纷纷开始招兵买马,组织专门从事“人肉搜索”服务的“正规军”。 然而,专家学者对网站此举大多表示忧虑。从自发组织起来惩恶扬善的“网络福尔摩斯”,到受雇于商业网站服务于商业模式的“赏金猎人”,频频侵犯现实社会中法规和道德因而造成人身伤害的“人肉搜索”,能否将它强大的震慑力与杀伤力约束在某种准绳之内?

继续阅读 »

2008-08-19SEO

1条评论
2,303 views

百度各个站点收录数量减半揭秘

昨天,知情人士对记者爆料称,百度正在大规模拆空搜索服务器的硬盘,而这些硬盘一向用来存放百度可以搜索到的全部中文网页和搜索请求。

 据了解,在近一个月内,百度已将其安置于网通机房内的搜索服务器的硬盘全数拆除,搬运一空。记者从百度技术部门人士处了解到,拆空硬盘的行为有可能意味着百度已经放弃传统搜索的物理存储而开发一种新的存储介质和存储方式,以提高搜索速度的质量。但是,不依靠传统硬盘的存储方式在业内人士听来仍属“诡异”。

在百度内部,这一行动也似乎进行得非常绝密,记者多次询问百度公关部,得到的回复都是不置可否。

据百度相关技术负责人介绍,与当前各个公司广泛采用的普通硬盘存储相比,百度配备的基于闪存的存储卡,将可使得单台存储设备的内部读写性能提升100倍,响应速度提升3倍,整机性能提升1倍,而能耗却要大大低于普通的硬盘存储。此外,由于闪存内部不存在机械设计,传统硬盘所惧怕的震动、尘埃侵入、高能耗等问题也迎刃而解。
难道这就是门户各个站点收录减少一半的原因吗?从6月22日开始百度对各个门户的收录数量拦腰减半,但系统日志上显示百度的蜘蛛访次并未减少,而从百度过来的流量却减少了很多.现象很怪异

如何利用robots限定yahoo蜘蛛爬行

yahoo蜘蛛频繁爬行给公司系统部带来了巨大的麻烦,因为蜘蛛的频繁爬行直接导致系统反应过慢,那么如何才能降低yahoo的蜘蛛爬行抓取速度呢?
在yahoo的帮助定义:

在robots.txt 里,YST有一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,例如1或10。

    例如,您想设定一个2秒的延时,语句如下:

    User-agent: Slurp
    Crawl-delay: 2

他们给出的帮助建议是设定为2,这个设定为2用来告诉Slurp蜘蛛2次访问之间的间隔,单位是秒.但对于大型网站设定2秒肯定是不合适的,因为雅虎美国和雅虎中国有2套蜘蛛在运行,每个蜘蛛都是遵循Crawl-delay间隔的,因此为了进一步降低Slurp压力,希望达到10秒一次请求的频道 实际的Crawl-delay配置就要*2。
Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。

那么要想限定YAHOO蜘蛛的爬行,那么robots.txt可以写成

 

User-agent: *
Disallow:

User-agent: slurp
Disallow:
Crawl-delay: 100

 

定义说明:

1. 添加了User-agent: *属性。允许所有蜘蛛访问。
2. 更正了Slurp数值,1000为25秒,如果需要,可以设定成10000
3. 添加了sitemaps地址,将b2b网站的新旧sitemasps加入robots,便于蜘蛛抓取.

 

 

本说明来源于雅虎官方日志:
如何控制Yahoo! Slurp蜘蛛的抓取频度
http://ysearchblog.cn/2006/07/yahoo_slurp.html

2008-08-07杂文

没有评论
2,104 views

做SEO的幸福感

seo每天要关注网站的排名,流量,一个网站突然不能访问,对于seo的影响是巨大的,损失的不仅仅是流量
1.我博客被人攻击什么文章都没了,空间商的答复让我很无奈,辛苦经营的BLOG停当,数据的安全性淹没了我的幸福感,结果我的御用设计师的努力,帮助我把blog转到了自己的服务器上了.
 
2.周末开了两天的会,公司全体中层集中在慧聪园,牺牲自己的幸福感换来工作的肯定,很值得
 
3.晚上11点,一个人在豆大的小屋写着感性的文字.这个时候的我是有幸福感的,而且很惬意
 
4.在5g这个圈子,偶尔来看看美女,发发牢骚,认识不少志同道合的朋友,这是我在5g的幸福感!我还活着.还健康,还年轻,这是我的现状,而我什么都明白,但是我还是抵挡不了那种孤独带来的不安.不安把我变成傻瓜.出乘现丑,做尽蠢事.
 
5.保持不变不是宇宙的规律,永恒的爱情也不是警世名言,能得到的就是当下的幸福感,在5G,我觉得很幸福,谢谢各位!
6.我的博客由于
返回顶部