人肉搜索引擎的未来商业化道路

这篇文章主要介绍人肉搜索引擎的商业化过程,介绍google等网站如何将搜索结合人工来对信息处理完善,为用户提供精品的内容,当然,关注搜索引擎优化的朋友可以略过不读

在我之前的文章中分别写了人肉搜索的前世,现状,这篇关于人肉搜索未来的文章也该出现了……这种人肉搜索这种人找人、人问人、人碰人、人挤人、人挨人,一人提问、八方回应、一石激起千层浪,一声呼唤惊醒万颗真心”的搜索方式也因其不受约束的强大攻击性而引发众多的忧虑与争议。 争议声中,将“人肉搜索”商业化的进程却高歌猛进。猫扑、腾讯等知名网站纷纷开始招兵买马,组织专门从事“人肉搜索”服务的“正规军”。 然而,专家学者对网站此举大多表示忧虑。从自发组织起来惩恶扬善的“网络福尔摩斯”,到受雇于商业网站服务于商业模式的“赏金猎人”,频频侵犯现实社会中法规和道德因而造成人身伤害的“人肉搜索”,能否将它强大的震慑力与杀伤力约束在某种准绳之内?

继续阅读 »

2008-08-19SEO

1条评论
2,303 views

百度各个站点收录数量减半揭秘

昨天,知情人士对记者爆料称,百度正在大规模拆空搜索服务器的硬盘,而这些硬盘一向用来存放百度可以搜索到的全部中文网页和搜索请求。

 据了解,在近一个月内,百度已将其安置于网通机房内的搜索服务器的硬盘全数拆除,搬运一空。记者从百度技术部门人士处了解到,拆空硬盘的行为有可能意味着百度已经放弃传统搜索的物理存储而开发一种新的存储介质和存储方式,以提高搜索速度的质量。但是,不依靠传统硬盘的存储方式在业内人士听来仍属“诡异”。

在百度内部,这一行动也似乎进行得非常绝密,记者多次询问百度公关部,得到的回复都是不置可否。

据百度相关技术负责人介绍,与当前各个公司广泛采用的普通硬盘存储相比,百度配备的基于闪存的存储卡,将可使得单台存储设备的内部读写性能提升100倍,响应速度提升3倍,整机性能提升1倍,而能耗却要大大低于普通的硬盘存储。此外,由于闪存内部不存在机械设计,传统硬盘所惧怕的震动、尘埃侵入、高能耗等问题也迎刃而解。
难道这就是门户各个站点收录减少一半的原因吗?从6月22日开始百度对各个门户的收录数量拦腰减半,但系统日志上显示百度的蜘蛛访次并未减少,而从百度过来的流量却减少了很多.现象很怪异

如何利用robots限定yahoo蜘蛛爬行

yahoo蜘蛛频繁爬行给公司系统部带来了巨大的麻烦,因为蜘蛛的频繁爬行直接导致系统反应过慢,那么如何才能降低yahoo的蜘蛛爬行抓取速度呢?
在yahoo的帮助定义:

在robots.txt 里,YST有一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,例如1或10。

    例如,您想设定一个2秒的延时,语句如下:

    User-agent: Slurp
    Crawl-delay: 2

他们给出的帮助建议是设定为2,这个设定为2用来告诉Slurp蜘蛛2次访问之间的间隔,单位是秒.但对于大型网站设定2秒肯定是不合适的,因为雅虎美国和雅虎中国有2套蜘蛛在运行,每个蜘蛛都是遵循Crawl-delay间隔的,因此为了进一步降低Slurp压力,希望达到10秒一次请求的频道 实际的Crawl-delay配置就要*2。
Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。

那么要想限定YAHOO蜘蛛的爬行,那么robots.txt可以写成

 

User-agent: *
Disallow:

User-agent: slurp
Disallow:
Crawl-delay: 100

 

定义说明:

1. 添加了User-agent: *属性。允许所有蜘蛛访问。
2. 更正了Slurp数值,1000为25秒,如果需要,可以设定成10000
3. 添加了sitemaps地址,将b2b网站的新旧sitemasps加入robots,便于蜘蛛抓取.

 

 

本说明来源于雅虎官方日志:
如何控制Yahoo! Slurp蜘蛛的抓取频度
http://ysearchblog.cn/2006/07/yahoo_slurp.html

2008-08-07杂文

没有评论
2,104 views

做SEO的幸福感

seo每天要关注网站的排名,流量,一个网站突然不能访问,对于seo的影响是巨大的,损失的不仅仅是流量
1.我博客被人攻击什么文章都没了,空间商的答复让我很无奈,辛苦经营的BLOG停当,数据的安全性淹没了我的幸福感,结果我的御用设计师的努力,帮助我把blog转到了自己的服务器上了.
 
2.周末开了两天的会,公司全体中层集中在慧聪园,牺牲自己的幸福感换来工作的肯定,很值得
 
3.晚上11点,一个人在豆大的小屋写着感性的文字.这个时候的我是有幸福感的,而且很惬意
 
4.在5g这个圈子,偶尔来看看美女,发发牢骚,认识不少志同道合的朋友,这是我在5g的幸福感!我还活着.还健康,还年轻,这是我的现状,而我什么都明白,但是我还是抵挡不了那种孤独带来的不安.不安把我变成傻瓜.出乘现丑,做尽蠢事.
 
5.保持不变不是宇宙的规律,永恒的爱情也不是警世名言,能得到的就是当下的幸福感,在5G,我觉得很幸福,谢谢各位!
6.我的博客由于
2008-07-29杂文

3条评论
1,816 views

我们这些搞SEO的,只能把头一扭.

朋友在某地移动上班,这天来了个新同事,跟他一样都是业务员,工资1300
第一天,朋友带他跑业务,开公司的面包车
这位仁兄见了面包车直摇头,“这车空调太弱,会很热的,干脆坐我的车”
朋友:“哟?你开了车来上班的嗦?车在哪呢?”
他:(抬头、努嘴)“呐,那辆黑色的”

奔驰S600

朋友痛苦的捂住脸扭向一边
后来他们经理看不下去了,觉得这样会影响团结。就把他叫去谈话。
经理:“你能不能低调一点?在这很多人都是走关系进来的,但是大家都很低调,你不要搞特殊化嘛”
他:“恩恩恩”(相当的诚恳)
于是第二天

银灰色宝马

经理觉得输人不能输气势,又把他叫去谈话
“你能不能再低调一点?”
“恩恩恩”(相当的诚恳)

第三天

凯美瑞

经理痛苦的捂住脸扭向一边
朋友就很好奇啊,问他,“你条件这么好,为啥还来我们这公司上班喃?杂不直接跟着父母做生意哦?”
你们猜杂回答的?

 
“我不想依靠父母”

5GSNS的SEO如何开展

泡在5G已经有好些日子.加入5g酒协,参加了5G线下聚会,感谢5G带给我这么多朋友,谢谢刘老师,炳叔.
 
我是做SEO的,自然想为5G出点点子,所以,还是先看数据吧,各位前辈,我说的比较直接,如果有啥不对的地方,请指教!
 
5G域名2008年6月注册,那么先来看看一些基本的SEO收录
 
一个月的时间,能有如此成绩,说明搜索引擎的蜘蛛对5G很敏感,蜘蛛抓取的量也非常大!
 
大家再看一下蜘蛛到底什么时候频率爬行一次呢!
上图分别是百度和google的截图,说明以下问题
 
1.百度快照显示的日期是2008年7月14日.说明百度蜘蛛最后爬行的日期是7月14日.
2.google的更新速度明显快与百度,说明google的蜘蛛更加勤奋.更加注重相关性
 
百度和GOOGLE的收录不同结果很明显说明两者抓取内容的差异,综合以上的内容我给出几点SEO建议:
 
1.重点向搜索引擎公开博客的内容,鼓励原创日志,首发5G,同时限制搜索对于内容页评论信息的抓取
2.搜索引擎对优质的内容敢兴趣,所以屏蔽一些乱七八糟的行为轨迹(具体的措施波波联系我)
3.提炼精华评论,让精华评论与内容产生比较强的相关性(因为搜索引擎根据链接,相关性,内容质量来决定排名)
 
具体还有待补充,今天先写到这里.
2008-07-23杂文

没有评论
1,590 views

5gsns酒协聚会

5GSNS酒协线下聚会,和炳叔的亲密接触

沙发旁边的美女合影

 

裤子上有酒…

 

1.最近SNS很火,阿猎上周参加5GSNS酒协第一次线下活动

2.5GSNS是最近很火的一地方,IT人脉圈子.有上5G的可以查找阿猎加我好友

3.SNS程序很简单,戴志康把他开源了,从5G上的火爆程度来看,运营思路很重要

4.SNS比bbs的运营困难十倍.聚和一个圈子,然后产生高质量的内容,重点是思想和人

5.智商是145的aywawa在5GSNS.敢兴趣的可以去找

另:谢谢炳叔的教诲……..

 

 

返回顶部