g.cn上线

2007-11-05   |  分类:google

谷歌的网站导航、热榜还有谷歌拼音,都是Google在国内市场发展的新开通的服务,虽然和Google有了点儿距离,但这些相对符合国内市场和用户的需求,公交搜索和生活搜索也都是符合本地化需求的。包括Google Reader的汉化等,都是对Google本地化非常有帮助的举措。

G.cn上线,我身边的朋友就有记不住“Google”拼写的,现在好了,g.cn已经简单的不能再简单了,当初Google花重金买下google.cn这个域名,不知道g.cn是不是也花了重金购买。搜索仍旧是谷歌的第一入口,g.cn指向谷歌的搜索页面,类似daohang.google.cn的地址也应该会有daohang.g.cn的地址,全拼加上g.cn的组合,应该是比较适合国内用户使用的。

   就目前谷歌的产品来看,除了搜索和输入法,别的本地化产品我几乎没有使用过,而Blogger、YouTube、FeedBurner则是我比较期待本地化的Google产品,我使用最频繁的Gmail、Google Reader也都没有真正的本地化。这些是Google搜索以外我最喜欢、最常用的Google产品,其实它们也是谷歌的近路。

 在与新浪合作后,Google在国内门户出现的频率也随之增加。谷歌并没有太大的经营压力,百度的市场份额节节攀升与谷歌的下滑,这才是谷歌目前最大的压力。网站导航和热榜在国内早就有成功的先例,谷歌回过头来,只不过是打扫一下剩余的战场,光是g.cn的流量就是个问题,对于访问上亿的网站而言,一个好域名能起到的作用微乎其微,这不是争夺市场的制胜法宝。虽然Google是一个让用户尽快离开的网站,可并不意味着谷歌目前并不需要流量。 Gmail之所以能够为E-mail市场重新掀起波澜,并不是因为它的名字,而是因为用户从中得到了实实在在的好处,让用户看到了Google的技术和魄力,几年的时间里它一直在孜孜不倦的力求完美。谷歌拼音有些Gmail的样子,从问世到现在一直都在改进,虽然搜狗拼音和QQ拼音都不错,但我认为这才是谷歌的近路。 Google出色的技术天才们将他们的理想主义色彩通过产品传递给用户,并让用户也跟着他们一起理想主义着,所以才会有那么多GFans,才会有那么多对Google的渴求,才会有这许多报道Google的blog。近路其实一直都存在着,只是看你要用什么眼光去看它,用什么态度去对待,用什么方法走过罢了。

作者:阿猎
原载:阿猎的SEO博客
版权所有,转载请以链接形式注明作者及原始出处。

用户的搜索行为对于关键词分析的意义在seo中,用户的搜索行为分析非常重要。因为只有更清晰地了解用户的搜索行为,才能避开激烈的竞争,选择与目标搜索用户最匹配的搜索关键词,并将最终搜索结果以用户最喜欢的方式呈现出来。

如果不对用户的搜索行为有深入分析,则无法正确地选择最有价值的关键词,无法正确地跟踪,提升站点在搜索引擎上的表现。有人甚至提出,经过用户搜索行为分析,而实施的seo策略,等于变性地提升站点的排名。以符合搜索行为方式呈现的结果,即使排名靠后,但可能吸引的点击比相对靠前的仍占优势。

用户搜索行为三大变化趋势

1. 搜索引擎得到了用户忠诚度

82%的用户在第一次搜索不成功时,并不更换搜索引擎,而是用更多的关键词重新搜索。搜索引擎技术方面的差异性似乎已经不如品牌差异性那么明显。

2.用户愈加采用长尾查询

用关键词更多、更长的查询(对营销者来说,不仅要定向到简单关键词,还有更多关键词的词语);对于seo来说,这是一个好消息。相比那些竞争激烈的核心关键词,长尾关键词的排名要容易得多。

3.用户选择不同的搜索引擎完成不同的搜索需求

尽管搜索引擎得到了用户忠诚度,但是更多的人还是习惯用不同的搜索引擎完成不同的搜索需求。这也反映了不同的搜索引擎的品牌有不同的涵义。比如百度更娱乐化,而Google相对更有商业价值。人们习惯用百度搜索MP3,用Google搜索国际论文。随着不同领域的垂直搜索的诞生,这一趋势更为明显。

除了上述三点之外,还有一些值得提到的信息是:

4. 90%的用户的点击几种在搜索结果前3页。如果在前三页找不到所需要的搜索结果,将近90%的用户会修正搜索关键词或者转向另一搜索引擎。

5.搜索引擎的用户信任有所提升,使用更多关键词的搜索也有所增多。

6.那些出现在自然搜索结果前列的公司,被认为有更多品牌公信力,说明搜索引擎也有助于实现品牌目标。

作者:阿猎
原载:阿猎的SEO博客
版权所有,转载请以链接形式注明作者及原始出处。

GOOGLE PR十月大波动

2007-10-31   |  分类:google

10月初,GOOGLE对买卖链接的网站进行了一系列的惩罚,导致很多网站的PR值降低了,包括一些知名的大网站,GOOGLE对付费链接的惩罚以及很明显,但是并未删除网址或进行人工降权,Google 和大多数其他搜索引擎都是使用链接来确定声誉。网站在 Google 搜索结果中的排名位置取决于对链接所指向网站的分析结果。基于链接的分析是一种极为重要的衡量网站价值的方法,它大大提高了网络搜索的质量。链接的数量和质量都会影响评级,而质量更为重要。

10月末Google Toolbar 上面的绿块,随着很多站的PR都的刷新,这是很多seoer期待已久的事情,许多网站的PR都得到不同的提升。

这一震动的迹象表明,google为了给用户提供更好的搜索结果,对本身的算法进行更新,同时也加强了人工干预的力度,那么我想与大家讨论一下页面等级到底有何价值,是不是因为PR值高那么他的网页价值就高呢?页面等级对于网页的质量是一种好的评价方法吗?

首先让我们看看提出页面等级技术的前提和其准确性。其基本前提是:

1. 如果一个网页提供另一个网页的链接,则为那个网页增加了所拥有的票值,而票值的多少代表了一个网页质量的好坏。2. 如果很多网页对一个网页提供了链接,则认为这个网页有很高的价值。

基本假设是:人们只会去链接他们认为好的网页。

很容易就可以证明这个前提是错误的,因为下面所述的原因,一个网页可能会向另一个网页提供链接,但链接的原因并不是因为喜欢那个网页。

1.互相提供链接。“如果你给我提供链接,我也将给你提供链接”,双方受益。

2. 提出链接要求。“要用我网页上的内容就必须提供对我网页的链接”或者“如果你提供对我网页的链接将得到一定的回报”。

3. 人情链接。向另一个网页提供链接只是因为“这是我朋友的网站”或者“这是我父亲的网站,这是我母亲的网站,这是我小狗的网站”等。

另外,一些排名靠前的网站也会寻求新网站的链接,这并不一定意味这个网站就是好的(虽然大部分是好的)。假设一个站长建立了一个新的网站,正在寻求别的网站向它的网站提供链接。现在,他首先要做的就是去Google上查找与其网站内容相似的网站。最后得到的向他们提供链接的网站并不一定是最好的,而是它能够最容易找到的。

在其他网站提供对新网站的链接后,新的网站也会随后提供对那些网站的链接。如果页面等级确实对网页排序有影响,那么新网站的这种做法就更增加了用页面等级来判断一个网页质量的不准确性。如果新的网站用Google的页面等级查看工具来寻找提供链接的网站也会出现这种结果。

让我们用另外一种方法来解释这个问题:

一个网页的页面等级是由其他网站对它提供的链接数来决定的。但是如果页面等级本身就对这种链接数有影响,那么也就会影响对网页质量的评价(循环影响)。链接不再仅仅取决与对网页好坏的判断,而只是为了取得链接而链接。为了提高其网站的页面等级,网站管理员会仅仅通过Google搜索或者通过Google的页面等级查看工具来挑选要链接的网页。而这样也会导致相应网页页面等级的提高,这种页面等级的提高并不是因为这个网页质量得到了提高,而只是因为它有一个较高的页面等级,所以其它网页都愿意向他提供链接以换取它的链接。

由10月的波动看,所以说页面等级不是评判网页质量的唯一标准,GOOGLE为了在最段的时间用户搜出最需要的内容,google会采取一些措施,比如:GOOGLE对一些PR高但是网页质量不高的网站进行降低PR的处理; 对购买链接的网站进行降权,例如对DMOZ的人工降权,因为DMOZ有作弊的嫌疑 ,综上所述:建议网站管理员在交换链接的时候采用合理的链接策略,以保证你网站的PR或者网页价值得到最大化。

WordPress的SEO方案

2007-10-28   |  分类:SEO方案

我们可以对自己网站的模板进行一些简单处理以达到SEO的目的。跟着我的脚步来开始SEO优化吧!本方案只针对wordpress撰写的。


 
 
网页设计
 
 
当访客第一次点击你的网站时,首先他就会对你的网站的样式产生第一印象。所以选择简单的模版是最重要的,对于SEO的优化,我们最好选择的是2栏的模板。因为对网站内容的抓取一般是从左到右,从上到下的。如果你的左侧刚好有几个侧栏,那么搜索网站会先抓取你的链接,RSS,另外还得要提网站设计对访客的友好性。我看到一些网站,在我浏览单篇文章时候,竟然找不到继续浏览下一篇的导航按钮。那我怎样做,我只有离开了。这是一个例子,我们的网站的功能也必需从访客角度进行设计,从简单的是导航的设计,再到其它功能。比如在单篇文章旁边列出更多相关主题的文章以吸引来客。网站首页的内容
 
 
当搜索引擎从外部链接找到你的网站时,它首先就会搜索你的网站首页。所以,为了更好的SEO,我们会把一些重要的栏目,如文章的分类列表放置在首页。你还可以把你认为值得推荐或者有价值的文章列表同样放置在网站的首页上。
 
Titlemeta的处理
 
在对SEO的优化中,Title 是最直接有效的,它就是你文章的标题。所以在决定写一篇文章前,必需对标题的字眼着重考虑,以使搜索引擎能方便的找到你的文章,理解你文章的内容。当然,要更好的利用 Title 以达到 SEO优化,我们可以使用如All in One SEO Pack这些插件来帮助我们。
 
 
其实meta就是一些简单的语句,我们用它来更准确的告诉搜索引擎关于网站的信息。当你用编辑工具打开主题模板的header.php文件,你会看到有如下类似的信息:
 
  <meta name=”generator” content=”WordPress <?php bloginfo(’version’); ?>” />
 
 
其实这就是一条meta信息,它告诉了搭建网站的WordPress版本号。这只是个例子,我们可以参照它自己多添加几条meta语句,更准确的描述自己的网站,如:
 
  <meta name=”keywords” content=”
请在这里填写你网站的关键词” />
  <meta name=”description” content=”
请在这里填写你的网站描述概要”/>
  <meta name=”Author” content=”
网站作者名字” />
 
 
上面的三条就是最基本的meta信息了。有了它们,当你的网站在搜索引擎内被查看时候,就会显示你自己设定的信息,这样会让信息查找者更好的了解你的网站。
 
 
但可能你会觉得这样还不够,因为它只是对网站的综合信息描述,而我们应该把meta的描述更准确地应用到各篇文章或者各个单独页面内。所以为了更好地利用meta进行SEO,这里我推荐使用 All in One SEO Pack插件。插件的使用很简单,上传-激活就行。然后你会在编辑文章时候看到三个填写框,
  

使用该插件后,现在我们就可以为各篇文章和单独页面添加适宜的meta描述了。
 
 
在这里要注意一点:当按上面的方法添加使用meta后,在单独文章的页面内查看meta信息时,你会发现出现两个”keywords”和两个 “description”meta信息。这是由于除了你利用上面插件为单独文章设定的meta外,系统还加载了header.phpmeta信息。如何处理?只要把header.php内的meta信息稍稍更改后即可:
 
 
<?php if ( is_home() || is_category() || is_search() ) { print
  ‘<meta name=”keywords” content=”
请在这里填写你网站的关键词” />
  <meta name=”description” content=”
请在这里填写你的网站描述概要” />’; } ?>
  <meta name=”Author” content=”
网站作者名字” />
 
 
这样,就保证了meta信息的唯一性和准确性了。
 
内部链接的优化
 
WordPress可以让我们方便的自由设置文章的永久链接类型。我们要做得就是到WordPress的后台-设置(Options)-永久链接 (Permalinks)处设置一个合适的链接样式。然后在发表文章前,给文章取个合适的post-plug(这个东西会出现在地址栏上)。根据别人使用的经验,如果把永久链接设置成带日期和文章名的样式,如/%year%/%monthnum%/%day%/%postname%/SEO的效果会比简单的只有文章名如/%postname%/来得更好。
 
 
按大家的经验,现在比较流行推介用如yousite.com/%category%/%postname%.html这种链接形式。当然你也可以按自己喜好再加上文章发表的时间函数。但我个人觉得,加上时间函数的话,对搜索引擎的搜索优化意义不大,谁会记住你的文章是何年何日发表的啊?而且再加上日间日期的会让链接地址变得过于烦锁。相对来说,还是文章的题目(链接的地址)更容易吸引网络爬虫。
 
 
在友好链接地址的设置中,我们一般会用到如下三个 插件,这里我整理一下并列出各插件的使用条件,让大家有个较为清晰的了解:
 
 
. Permalink Redirect
 
 
使用条件:只要你的WordPress设定了友好链接地址,就是除了/?p=123的这种情况下,都应该使用该插件。因为一般情况下,你的文章地址会有两种链接访问的可能,即 /?p=123 /%category%/%postname%.html 同时指向同一篇文章并同时可能被搜索引擎收录。而使用该插件后,可以避造成复制内容而影响搜索引擎结果排名(原文),并且让文章的链接地址达到唯一的目的。
 
 
.  Permalinks Migration
 
 
使用条件:你的网站已经设置为友好链接地址后,而某天你突然想更换链接的形式,比如从 /post/%postname%.html 更改为 /%category%/%postname%.html 。为了不让读者及搜索引擎在访问你的旧地址时候出现404错误而找不到页面,继而掉失访问流量及网站排名,你就应该使用该插件。因为它能够自动地把从旧地址访问你网站的来客及搜索引擎转向你刚设置的新地址,无缝操作,让你安全放心。
 
 
. Redirection
 
使用条件:当你把网站的域名进行更改时候,如从 yoursite.com/blog 改为 yoursite.com/ 的时候,这个插件就派上用场了。
 
外部链接的策略
 
 
通常来说,在众多影响网站排名的因素中,链接的质量显得格外的重要。什么是链接的质量?简单来说就是你的网站被哪些人引用了,你的网址出现在哪些人的文章中。如果这些引用你的网站或者引用你文章链接地址的是一个排名很高的网站,那么这些链接就是有质量的。所以一般博客们都会互相链接以增加自己网站的链接数,另外还得要注意选择一些排名比自己高的网站被引用,自己网站得到的效果也会更好。因为搜索引擎很容易就通过引用你网址的地方搜索到你的网站了,尤其通过pagerank已经很高的网站找到你。
 
网站地图
 
 
制作XML版本的网站地图,利用插件Google Sitemaps 来安装生成XML版本的网站地图提交给GOOGLE,为了方便大家的使,我已经将汉化版本提供给大家下载了。大家只需要按照这个插件安装完激活了,便可以进行设置。
 
 
最后:介绍一下原创文章发布,互联网每天的信息都不计其数,但是原创的内容更容易引起搜索引擎的关注。所以希望朋友们写更多的原创文章,来吸引蜘蛛的爬行
 
 
robots.txt
 
在继续说明如何采用实际方法进行 WordPressSEO优化前,我插入了这一篇:robots.txt
 
 
什么是robots.txt?其实它只是一个放在网站根目录内,并且记了些文字的文本文件罢了。但它是如何在网站的SEO优化中起到作用的呢?简单的说就是,搜索引擎会根据robots.txt的内容按规操作。哪些内容应该搜索,哪些内容不应该搜索,全部都由robots.txt来指挥。
 
 
那我们应该如何设置robots.txt的内容呢?以下是我自己的设定,适合WordPress使用的:
 
 
User-agent: *
  # disallow all files in these directories
  Disallow: /cgi-bin/
  Disallow: /z/j/
  Disallow: /z/c/
  Disallow: /stats/
  Disallow: /dh_
  Disallow: /about/
  Disallow: /contact/
  Disallow: /tag/
  Disallow: /wp-admin/
  Disallow: /wp-includes/
  Disallow: /contact
  Disallow: /manual
  Disallow: /manual/*
  Disallow: /phpmanual/
  Disallow: /category/
  Disallow: /wp-
  Disallow: /feed/
  Disallow: /trackback/
  Disallow: */feed*
  Disallow: */trackback
 
 
User-agent: Googlebot
  # disallow all files ending with these extensions
  Disallow: /*.php$
  Disallow: /*.js$
  Disallow: /*.inc$
  Disallow: /*.css$
  Disallow: /*.gz$
  Disallow: /*.wmv$
  Disallow: /*.cgi$
  Disallow: /*.xhtml$
 
 
# disallow all files with ? in url
  Disallow: /*?*
 
 
# disable duggmirror
  User-agent: duggmirror
  Disallow: /
  # allow google image bot to search all images
  User-agent: Googlebot-Image
  Disallow:
  Allow: /*
 
 
# allow adsense bot on entire site
  User-agent: Mediapartners-Google*
  Disallow:
  Allow: /*
 
 
你可以把它复制,然后另存为robots.txt并放在你的WordPress根目录下就行了。
 
 
请注意下面的一句:
 
 
# disallow all files with ? in url
  Disallow: /*?*
 
 
上面的那句是让搜索引擎不去搜索所有带的网址。如果你的WordPress的链接形式是默认的那一种:yourweb.com/?pxx的形式的话,请把它删掉。
 
 
这样,搜索引擎在搜索我们的网站时才会显得更有效率,避免了浪费时间什么的去搜索一些无意义的目录,如是wp-admin/这一类目录。我们也能通过robots.txt更好的让自己的网站被收录。所以,如果你的WordPress还没有robots.txt,赶快设置一个吧!
  
  

  
  作者:阿猎
原载:阿猎的SEO博客
版权所有,转载请以链接形式注明作者及原始出处。

         数百年来,中国女性都被要求照料家庭、服侍丈夫。但是,这一切正在迅速改变,中国女性正变得前所未有的独立。据亚洲妇女论坛和北京大学妇女研究中心2004年进行的一项调查显示,45.3%的女性表示她们不必为家庭而放弃事业。 25岁的魏小姐自称是上海的一名企业家,像许多中国女性一样她并不急于为自己找一个丈夫。她说:“我总是追求完美,我能等下去。” 据国家人口与计划生育委员会估算,到2020年,中国将有3000万成年男性找不到妻子。现在很多男士正在努力工作,以避免这种窘境。有的说,“男人有更多钱是必须的。”还有的说,“最重要的是要有房子和车子。”
  而中国互动媒体集团的CEO洪晃则认为这两种说法都不对。中华全国妇联今年进行的一项调查发现,金钱和安全已不能吸引中国成功、繁忙的年轻女性了。她们认为个人品格和责任感是人生伴侣最重要的品质。事实上,她们中的2/3都不介意丈夫的收入低于自己。洪晃说:“这一数字值得引起男性的注意。”
   
      同时光棍过剩还会发生以下一系列的社会问题。第一,也就是说“寅吃卯粮”,通俗讲就是大男人婚配小女人,以弥补女性在同一年龄段上绝对数量的不足。由于各种复杂的社会历史原因,现在的中国社会事实上已经出现了一些老夫少妻、寅吃卯粮的现象,但还不具备普遍意义,具体原因也有所不同,比如大款抛弃糟糠之妻找小女人。随着3000万光棍汉在十年后列队式出现,男女婚配年龄上的继续“透支”现象就板上钉钉了,届时的中国夫妻当中,丈夫比妻子大过10~15岁将成为普遍现象,而不是个别现象。

第二,光棍汉或许“轮流坐庄”。由于男女性别比过大,3000万光棍汉仅仅通过女性年龄上的透支来解决显然也是杯水车薪,那么,其余相当数量的光棍汉怎么办?估计会出现“轮流坐庄”、“竞争上岗”现象,竞争的核心以当前的社会形态来看当然是光棍汉们的钱包了。物以稀为贵嘛,那时候女人当然“唯钞票是嫁”了。不过由于婚龄阶段的男人才刚刚踏入社会,新郎的身价一时难以做出准确判断,女人们届时对新郎的“钱途”产生误判也难以避免,因此,20~45岁这个年龄段的光棍汉之间将展开一轮十分“残酷”的婚配竞争,婚配的排列组合将面临剧烈的动态激荡,一个女人多次婚配将十分常见。对于男人们来说,婚配“战场”上“鹿死谁手”?“钱包决定老婆”可能就是答案。

第三,打击卖淫嫖娼将面临更为复杂的局面?3000万光棍汉是一个什么概念呢?它基本上相当于加拿大整个国家的总人口;3000万平均一个省一百万,也就是说平均每个省份都有一百万男人讨不到老婆。还应当重视也不必讳言的是,20~45岁这个年龄段的男人,最突出的问题当然是性问题,做光棍汉没所谓,可“床上”的事情它是人之常需,也是个现实问题,假如不能妥善处理,必然带来一系列更为复杂的社会问题,比如性犯罪率上升、性犯罪引发其它犯罪。怎么办呢?“国家人口发展战略研究报告”里看不到相应的答案。给性工作者一个合法的身份?这个问题媒体上也讨论了很久;不过,3000万光棍汉的到来它是一个不可以回避的事实,届时有立法的可能?但至少是可以继续讨论的。

作者:阿猎
原载:阿猎的SEO博客
版权所有,转载请以链接形式注明作者及原始出处。

SEO离搜索引擎营销有多远?

2007-10-22   |  分类:SEO

       许多网站通过SEO(搜索引擎优化)的方式来提高网站被搜索引擎搜索到的可能性,以及是检索结果排名靠前,因此SEO通常被认为是一种非常有效网络营销的营销方式,甚至被列为搜索引擎营销的一种。但是,目前SEO还远远达不到营销层面的高度,充其量只是提高网络营销或者搜索引擎营销的一种技巧。

  以通过搜索引擎开展网络营销活动为例,作为营销人员,需要了解搜索引擎使用的需求和使用心理、搜索引擎的功能和检索特点,以及本产品或服务的特性在网上的展现,这也是一个了解消费者、了解营销工具,以及了解自身产品的过程。事实上,这个过程就是开展搜索引擎营销的前提条件。涉及到三个关键环节:潜在消费者、搜索引擎和产品信息在网络上的展现。

  借助搜索引擎开展营销活动,首先需要有网络平台,无论是公司自身的网站还是借助其他网站提供的平台,这样就提供了一个让潜在消费者找到你的机会。没有这个平台,网络营销无从谈起。然后,要确保贵公司在这个平台的信息是建立在对消费者所需信息的预期的基础上的,并且这个信息是经过精心处理、比较充分、能够代表公司的产品和服务信息的正面形象,这些信息需要能够消除消费者的误会。

  在网络上充斥着各种关于贵公司产品或服务良莠不齐的信息的时候,更需要保持足够的警惕,这个时候就需要做一些SEO工作。必要时,还需要向诸如百度这样的搜索业务提供商购买一些竞价排名这类的服务:设计一些和贵公司产品或服务相匹配的关键词,以提高公司信息正确传达到潜在消费者的可能性。当公司出现公关危机的时候,更需要有这样的渠道来澄清一些误会,提供一个公众找到你的途径。

  没有精心处理好网站的信息就盲目开展SEO,所取得的效果无疑是负面的,开展SEO的一个前提是欲传达信息必须是正面、你所想传达信息,否则宁愿不要使用这种技巧。另外,搜索引擎的内部算法在不断调整,很多SEO的方法是建立在对现有搜索引擎工具算法的理解基础上的,这是一个动态的过程,也需要作出不断的调整。内容才是关键,不管怎么调整,确保产品和服务信息是你想要传达的。

大型网站策略

2007-10-22   |  分类:网站运营

一个小型的网站,比如个人网站,可以使用最简单的html静态页面就实现了,配合一些图片达到美化效果,所有的页面均存放在一个目录下,这样的网站对系统架构、性能的要求都很简单,随着互联网业务的不断丰富,网站相关的技术经过这些年的发展,已经细分到很细的方方面面,尤其对于大型网站来说,所采用的技术更是涉及面非常广,从硬件到软件、编程语言、数据库、WebServer、防火墙等各个领域都有了很高的要求,已经不是原来简单的html静态网站所能比拟的。

       大型网站,比如门户网站。在面对大量用户访问、高并发请求方面,基本的解决方案集中在这样几个环节:使用高性能的服务器、高性能的数据库、高效率的编程语言、还有高性能的Web容器。但是除了这几个方面,还没法根本解决大型网站面临的高负载和高并发问题。

       上面提供的几个解决思路在一定程度上也意味着更大的投入,并且这样的解决思路具备瓶颈,没有很好的扩展性,下面我从低成本、高性能和高扩张性的角度来说说我的一些经验。

1、HTML静态化

       其实大家都知道,效率最高、消耗最小的就是纯静态化的html页面,所以我们尽可能使我们的网站上的页面采用静态页面来实现,这个最简单的方法其实也是最有效的方法。但是对于大量内容并且频繁更新的网站,我们无法全部手动去挨个实现,于是出现了我们常见的信息发布系统CMS,像我们常访问的各个门户站点的新闻频道,甚至他们的其他频道,都是通过信息发布系统来管理和实现的,信息发布系统可以实现最简单的信息录入自动生成静态页面,还能具备频道管理、权限管理、自动抓取等功能,对于一个大型网站来说,拥有一套高效、可管理的CMS是必不可少的。

       除了门户和信息发布类型的网站,对于交互性要求很高的社区类型网站来说,尽可能的静态化也是提高性能的必要手段,将社区内的帖子、文章进行实时的静态化,有更新的时候再重新静态化也是大量使用的策略,像Mop的大杂烩就是使用了这样的策略,网易社区等也是如此。

       同时,html静态化也是某些缓存策略使用的手段,对于系统中频繁使用数据库查询但是内容更新很小的应用,可以考虑使用html静态化来实现,比如论坛中论坛的公用设置信息,这些信息目前的主流论坛都可以进行后台管理并且存储再数据库中,这些信息其实大量被前台程序调用,但是更新频率很小,可以考虑将这部分内容进行后台更新的时候进行静态化,这样避免了大量的数据库访问请求。

2、图片服务器分离

       大家知道,对于Web服务器来说,不管是Apache、IIS还是其他容器,图片是最消耗资源的,于是我们有必要将图片与页面进行分离,这是基本上大型网站都会采用的策略,他们都有独立的图片服务器,甚至很多台图片服务器。这样的架构可以降低提供页面访问请求的服务器系统压力,并且可以保证系统不会因为图片问题而崩溃,在应用服务器和图片服务器上,可以进行不同的配置优化,比如apache在配置ContentType的时候可以尽量少支持,尽可能少的 LoadModule,保证更高的系统消耗和执行效率。

3、数据库集群和库表散列

       大型网站都有复杂的应用,这些应用必须使用数据库,那么在面对大量访问的时候,数据库的瓶颈很快就能显现出来,这时一台数据库将很快无法满足应用,于是我们需要使用数据库集群或者库表散列。

       在数据库集群方面,很多数据库都有自己的解决方案,Oracle、Sybase等都有很好的方案,常用的MySQL提供的Master/Slave也是类似的方案,您使用了什么样的DB,就参考相应的解决方案来实施即可。

       上面提到的数据库集群由于在架构、成本、扩张性方面都会受到所采用DB类型的限制,于是我们需要从应用程序的角度来考虑改善系统架构,库表散列是常用并且最有效的解决方案。我们在应用程序中安装业务和应用或者功能模块将数据库进行分离,不同的模块对应不同的数据库或者表,再按照一定的策略对某个页面或者功能进行更小的数据库散列,比如用户表,按照用户ID进行表散列,这样就能够低成本的提升系统的性能并且有很好的扩展性。sohu的论坛就是采用了这样的架构,将论坛的用户、设置、帖子等信息进行数据库分离,然后对帖子、用户按照板块和ID进行散列数据库和表,最终可以在配置文件中进行简单的配置便能让系统随时增加一台低成本的数据库进来补充系统性能。

4、缓存

       缓存一词搞技术的都接触过,很多地方用到缓存。网站架构和网站开发中的缓存也是非常重要。这里先讲述最基本的两种缓存。高级和分布式的缓存在后面讲述。
架构方面的缓存,对Apache比较熟悉的人都能知道Apache提供了自己的缓存模块,也可以使用外加的Squid模块进行缓存,这两种方式均可以有效的提高Apache的访问响应能力。
网站程序开发方面的缓存,Linux上提供的Memory Cache是常用的缓存接口,可以在web开发中使用,比如用Java开发的时候就可以调用MemoryCache对一些数据进行缓存和通讯共享,一些大型社区使用了这样的架构。另外,在使用web语言开发的时候,各种语言基本都有自己的缓存模块和方法,PHP有Pear的Cache模块,Java就更多了,.net不是很熟悉,相信也肯定有。

5、镜像

       镜像是大型网站常采用的提高性能和数据安全性的方式,镜像的技术可以解决不同网络接入商和地域带来的用户访问速度差异,比如ChinaNet和EduNet之间的差异就促使了很多网站在教育网内搭建镜像站点,数据进行定时更新或者实时更新。在镜像的细节技术方面,这里不阐述太深,有很多专业的现成的解决架构和产品可选。也有廉价的通过软件实现的思路,比如Linux上的rsync等工具。

6、负载均衡

       负载均衡将是大型网站解决高负荷访问和大量并发请求采用的终极解决办法。
       负载均衡技术发展了多年,有很多专业的服务提供商和产品可以选择,我个人接触过一些解决方法,其中有两个架构可以给大家做参考。
       硬件四层交换
       第四层交换使用第三层和第四层信息包的报头信息,根据应用区间识别业务流,将整个区间段的业务流分配到合适的应用服务器进行处理。 第四层交换功能就象是虚 IP,指向物理服务器。它传输的业务服从的协议多种多样,有HTTP、FTP、NFS、Telnet或其他协议。这些业务在物理服务器基础上,需要复杂的载量平衡算法。在IP世界,业务类型由终端TCP或UDP端口地址来决定,在第四层交换中的应用区间则由源端和终端IP地址、TCP和UDP端口共同决定。
       在硬件四层交换产品领域,有一些知名的产品可以选择,比如Alteon、F5等,这些产品很昂贵,但是物有所值,能够提供非常优秀的性能和很灵活的管理能力。Yahoo中国当初接近2000台服务器使用了三四台Alteon就搞定了。

7、软件四层交换

       大家知道了硬件四层交换机的原理后,基于OSI模型来实现的软件四层交换也就应运而生,这样的解决方案实现的原理一致,不过性能稍差。但是满足一定量的压力还是游刃有余的,有人说软件实现方式其实更灵活,处理能力完全看你配置的熟悉能力。
       软件四层交换我们可以使用Linux上常用的LVS来解决,LVS就是Linux Virtual Server,他提供了基于心跳线heartbeat的实时灾难应对解决方案,提高系统的鲁棒性,同时可供了灵活的虚拟VIP配置和管理功能,可以同时满足多种应用需求,这对于分布式的系统来说必不可少。

       一个典型的使用负载均衡的策略就是,在软件或者硬件四层交换的基础上搭建squid集群,这种思路在很多大型网站包括搜索引擎上被采用,这样的架构低成本、高性能还有很强的扩张性,随时往架构里面增减节点都非常容易。这样的架构我准备空了专门详细整理一下和大家探讨。

       对于大型网站来说,前面提到的每个方法可能都会被同时使用到,我这里介绍得比较浅显,具体实现过程中很多细节还需要大家慢慢熟悉和体会

meta标签的运用。

2007-10-22   |  分类:SEO

在网页之间常加有很多的meta内容,它包含着关于你网页的一些隐藏信息,能让搜索引擎更好地理解你的网站内容的种类,那么常用的有哪些,他们起着什么作用,下面做个小整理

1、meta name=”keywords”
作用:十分重要,意为本页面设及关键字,真正的SEO 会建议你根据页面内容而去填有相关性的“关键字”,而非大量的的关键字堆积,当然大量的关键字堆积曾是种丰常有效的方法,但随搜索引擎工具日渐完善,keywords作用也被提升,你的堆积很有可能遭到搜索引擎工具直接删除的惩罚,是站长们最常用的meta内容;
建议:在选择关键词时,除了要考虑与网页核心内容相关之外,还应该是用户易于通过搜索引擎检索的,过于生僻的词汇不太适合做META标签中的关键词。


支持:现知搜索引擎工具都已支持
2、meta name=”description”
作用:本页面的描述内容,这里Blank是这样建议的,除非你有很强的文字归纳能力,否则还是请留空吧,虽然到现在他的作用已经是微不足道,但错误的描述对本页的影响还是有的!最好对每个网页有自己相应的描述(至少是同一个栏目的网页有相应的描述),而不是整个网站都采用同样的描述内容,因为一个网站有多个网页,每个网页的内容肯定是不同的,如果采用同样的description,显然会有一些网页内容没有直接关系,这样不仅不利于搜索引擎对网页的排名,也不利于用户根据搜索结果中的信息来判断是否点击进入网站获取进一步的信息。
支持:现知搜索引擎工具都已支持
3、meta name=”NOFOLLOW”
作用:告诉Google不要关注含此标签的网页里的特定链接。这是为了解决链接spam而设计的Meta标签。在对Link概念模糊的情况下,还请慎用!
支持:由Google发起
4、meta name=”NOINDEX”
作用:告诉Google不要索引含此标签的网页。但根据Blank实际经验,Google并非100%遵守
支持:由Google发起
5、meta name=”NOARCHIVE”
作用:告诉Google不要保存含此标签的网页的快照。一般用于专题页面中,当然若你要将你全站都设置成这样,那么请在你建站时就加入该标签,否则请给Google点缓冲的时间,他的效果不是即时生效的
支持:由Google发起
6、meta name=”NOSNIPPET”
作用:告诉Google不要在搜索结果页的列表里显示含此标签的网站的描述语句,并且不要在列表里显示快照链接;挺麻烦的标签,不怎么建议使用,具站长世界统计该功能也用得少
支持:由Google发起
7、meta Name=”NOODP”
作用:ODP即dmoz.org,而NOODP标签的作用就是防止搜索引擎调用ODP上面的描述性语句
使用:你可以在网页的头部加入:META NAME=”ROBOTS” CONTENT=”NOODP” 或者META NAME=”Slurp” CONTENT=”NOODP”;来阻止搜索引擎使用ODP描述。其中第一个对Google、Live Search及Yahoo!均有效,而第二个只对Yahoo!有效。
支持:于2006年7月,由Google和微软MSN搜索(即现在的live search)联合发起
8、meta name=”robots”
作用:表示所有的搜索引擎,现有搜索引擎工具蜘蛛列表Baiduspider—baidu.com、scooter—altavista.com、ia_archiver—alexa.com、Googlebot—google.com、Fast-Webcrawler—alltheweb.com、Slurp—inktomi.com、msnbot—search.msn.com;content部分有四个指令选项:index、noindex、follow、nofollow,指令间别忘了以“,”分隔,否则是没有效果的,以{META NAME=”googlebot” CONTENT=”index,follow,noarchive”}为列,其意思是说“表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照”
提示:该功能常与网站robots.txt联合使用,同时值得注意的是,为robots被更有效的读取,是建议把robots放在网站根目录中;robots.txt书写方式>>>>
支持:目前各搜索引擎工具对其都已经支持,但针对不同的老板,还需作适当的修改!
备注:
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

9、meta http-equiv=”……”
作用:HTTP-EQUIV用于向浏览器提供一些说明信息,从而可以根据这些说明做出相应。HTTP-EQUIV其实并不仅仅只有说明网页的字符编码这一个作用,常用的HTTP-EQUIV类型还包括:网页到期时间、默认的脚本语言、默认的风格页语言、网页自动刷新时间等
支持:

10、时下最新的标签有“unavailable_after”,在先前的“Adsense蜘蛛Mediapartner bot对网站收录的影响”中有提到他的用法,及设置方式
这里再作个简单的描述:
要使用“unavailable_after”标签,只需要在网页的头部加入以下的Meta语句即可:

其中的日期、时间、时区(缩写)分别用23-Jul-2007、19:18:17、EST这种格式。当Google的爬虫看到网页里包含这个标签时,它不仅会不再抓取这个网页,还会在一天左右的时间内将网页从Google的搜索结果里除去。值得注意的是,Google Cache里的相关的网页快照依然会存在。要想移除Google Cache里的记录,得给网页加上noarchive标签。

Pages: Prev 1 2 3 ...7 8 9 10 11 ...15 16 17 Next