存档

作者存档

浅谈SEO的关键:中文分词[转]

2009年8月1日

搜索引擎技术中,中文分词对于影响搜索引擎结果排序有着至关重要的作用。我们在实际的搜索引擎优化中,为了避免很多主关键词的大量竞争,也会使用到中文分词技术来做SEO优化。举个简单的例子,假如我们需要优化一个内容是“轴承”的网页,那么想要这个关键词在搜索引擎中排名更好,那就是很难的一件事了。因为“轴承”这个关键词热度太高,所以想要通过SEO手 段去将其优化到搜索结果的首页是一件非常难的事。在这个时候我们经常会使用长尾关键词去优化这样的高热度关键词,也就是说,我们经常会优化一些例如“北京 轴承销售商”、“北京进口轴承”等这样的关键词。而想要把这样的关键词做到搜索结果的前列,对于中文分词技术的把握和对于关键词的布局,有很大的重要性。

中 文分词在中国已经是有很久的历史了,明朝末年有一位画家叫做徐渭(文长),据说因为他家过于贫困,根本没有粮食可吃,因此只好跑到亲戚朋友家“蹭饭”。一 次两次亲戚朋友不觉得什么,但是时间长了,就感觉很厌恶徐渭。终于有一天,亲戚忍无可忍,不顾外面下着春雨就想把徐渭赶出去,于是在墙上写了一行字,委婉 的下了逐客令:

“下雨天留客天留人不留”

徐 渭看到那行字以后,心里自然明白亲戚的意思。但是到了晚上亲戚回到家一看,徐渭居然又在饭桌前等候。主人很奇怪,就问徐渭:“你看到墙上的字了吗?”徐渭 笑笑:“看到了,但是没想到你这么好客,既然这样,我也不客气了,就继续住下去吧!免得你自责招待不周。”说完,指指墙上的字,主人一看,差点气晕过去, 原来,徐渭在这行字上加了几个标点符号,主人无奈,只好让徐渭继续留下。徐渭是这么写的:

“下雨天,留客天。留人不?留。”

中国的文字博大精深,不同的标点符号,不同的断句就代表着不同的意思。所以,曾经有一位Google的科学家说:“如果可以做好中文搜索引擎,那么我们就不怕任何语种的搜索引擎研究了。”

那么中文分词在搜索引擎优化中到底具有怎样的意义呢?分词对SEO的影响是多方面的,最重要的就是对长尾流量的影响。例如说我们常常见到很多很想做的长尾关键词,例如广州进口轴承销售,上海进口轴承销售等等,但我们通过前文对于SEO的了解可以知道,一个页面做关键词不要超过三个,因为超过三个就会分散了每个关键词的权重,反而一个都做不好。但如果我们想超过三个又不影响呢?那么我们这时候就需要利用中文分词来对关键词进行组合了,例如<title>进口轴承销售-上海-广州<title>。这样分出来的结果可能没有广州进口轴承销售或上海进口轴承销售的关键词来的直接,但用这样分词的办法却使到很多词都获得不错的效果。多个词排名在搜索引擎结果页的首位,总是要比一个关键词排名在第一位的覆盖面要广。久而久之,因为 广州+进口轴承销售、上海+进口轴承销售这些页面让搜索引擎知道你的页面和“进口轴承销售”这个关键词相关度很高,因此进口轴承销售这个主关键词的排名也会相对提高。

当然,我们上面举得例子是还没有完全对于关键词进行完全的拆分。下面我们就对中文分词做一个粗略的讨论。

最早的中文分词办法是由北京航天航空大学的梁南元教授提出的,一种基于“查字典”的分词办法。例如这个句子:“著名导演张艺谋说国庆节晚上将安排十万人到天安门联欢。”

用 “查字典” 的分词方法,我们要做的就是把整个句子读一遍,然后把字典里有的词都单独标示出来,当遇到复合词的时候(例如北京大学),就找到最长的词匹配。遇到不认识的字符串就分割成单个文字。根据这样的办法,我们以上的文字可以切分为:

“著名 | 导演 | 张艺谋 | 说  |  国庆节 | 晚上 | 将 | 安排 | 十万人 | 到 | 天安门  | 联欢”

这样的分词办法虽然说可以应付很多的句子,但是由于细分的太多,在真正搜索引擎使用的过程中,到底哪一个词才是重点就无法表述,从而搜索引擎搜索出的结果也不能达到最大的相关度。于是在80年 代,哈尔滨工业大学计算机博士生导师王晓龙博士提出了“最少词数”的分词理论,即为,一句话应该是分词最少的字符串,这样会更多的让搜索引擎更明白这句话 到底是什么意思。但是这样的办法虽然更好,新的问题却也显现了出来。例如,我们在做“二义性”关键词组的时候,就不能说最长的分割就是最好的结果。举个例 子,“吉利大学城书店”这个关键词正确的分词应该是“吉利 |  大学城  |  书店”而不是词典中的“吉利大学 | 城 | 书店 ”

目前,主流的分词办法有两种,一种是基于统计模型的文字处理,另外一种是基于字符串匹配的逆向最大匹配法。

基于统计模型的文字处理

从 形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词 的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的 相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频 度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例 如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典 (常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词 典分词结合上下文识别生词、自动消除歧义的优点。(上文引自SEO专家论坛)

基于统计模型的文字处理,因为技术性比较高,而且只是使用在搜索引擎分词算法的过程中,如果学会,对于SEO的帮助会更大,各位可以加入我的SEO培训班进行深入讨论。这里更多的说一下基于字符串匹配的逆向最大匹配法。

一般来说,我们在SEO中使用最多的分词办法就是基于字符串匹配的逆向最大匹配法。这个办法其实很简单。我们以一个简单的例子来说明。

“瑞星一直以质量和服务开拓安全市场”。

如果这个句子我们以“查字典”的办法正向切分的话,就会切分成下面的句子。

“瑞\星\一直\以\质量\和服\务\开拓\安全\市场”

我们可以看到,正向切分出现了一个重大的错误“和服”,而“和服”这个关键词是日本的传统服饰,和这句话的意思根本没有任何关系,如果真的这样去分词的话,那么在真正搜索引擎索引的过程中,我们搜索“和服”也会出现这样的错误结果。

因此我们开始做逆向最大匹配法。从这句话的后面往前读(从右向左)

“瑞\星\一直\以\质量\和\服务\开拓\安全\市场”。

这个分词办法才是正确的。

对于中文分词还有很多的讨论,下一节我们接着说。

在搜索引擎运行的 机制中,有很多种中文分词的办法,例如上一篇文章中提到的正向最大匹配分词、逆向最大分析、基于统计的分词等。但是在实际的搜索引擎运行过程中,分词的办 法却没有这么简单了。因为搜索引擎不仅仅要去考虑到分词结果的正确性,还需要考虑到对于分不出来的词的处理。

首先我们来讨论分词结果的准确度,一般来说,搜索引擎是使用多种分词的方式构成一个混合分词方式来进行分词的,因为这样可以让词汇最大化的、更准确的分开。混合分词的原理是:先使用专业词典进行分词,之后再使用普通词库进行一次分词。以一个简单的例子来说明这个问题。

例如我们现在有这样一句话“电子邮件营销”如果我们的词库中有“电子邮件”这个关键词,那么就可能会被分成是“电子邮件/营销”,如果没有这个词的话,那么就有可能被分为:“电子\邮件\营销”这样我们就出现了一个问题,假如我们单纯的使用第一种分词方式和词库,那么我们如果单纯搜索“邮件”“营销”这样的关键词时,就找不到“电子邮件营销”这样的结果,同理,单纯的使用第二个词库,也找不到“电子邮件”这个词。

因此在这里我们就需要使用混合分词的办法了,我们拥有之上两个词库和两种以上的分词方法。同样的例子,如果我们加以综合,分词的结果就变成了下面的形式。

电子邮件营销=>电子邮件\邮件营销=>电子\邮件\营销

这样的分词方法,就可以帮助我们更多的获得准确的搜索结果

那么对于分不出来的词,搜索引擎又是如何操作的呢?

网络文化发展速度快的标志不仅仅是我们日益提高的硬件和网速,更多的是表现在新生词汇的诞生。那么新词刚刚出来的时候,搜索引擎并不知道怎么切分时,该怎么办呢?

例如前一段时间把百度百科推到风口浪尖的新词汇“草泥马”,这个新词的出现一定是百度所始料不及的,那么如果出现了下面的这样一句话,百度又是如何去分词的呢?

“草泥马是一种食草动物”

一般来说,搜索引擎遇到这样的关键词时,会采取一元分词+二元分词+混合分词+不分词的方式来解决这样的问题。如果是一元分词,那么这句话分出来的结果应该是:“草\泥\马\是\一种\食草\动物\”或者“草\泥\马\是\一种\食草动物\”或者“草\泥\马\是\一种\食\草\动物\”

但是显然,这样的结果如果我们单纯搜索“草泥马”这个关键词时,是不会准确的被认为是相关内容的。因此,继续使用二元分词的办法“草泥\泥马\是\一种\食草\动物”。有了这个分词方式以后,我们原来句子出现在索引结果中的概率就变大,但是这个依然不是最好的,于是搜索引擎还有第三种方式——干脆不分,以保持新词的完整性。

在经过了这一系列的分词程序后,实际分词的结果是如同下面这样的。

草泥\泥马\草泥马\是\一种\食草\食\草\动物\食草动物

OK ,我们现在已经知道了中文分词的一些办法,那么以上的两种分词办法对于我们的SEO有什么好处呢?

前文我们讨论过,掌握了中文分词技术,我们就可以让自己的网页有更多的长尾关键词,从而让更多的关键词可以排名在百度、Google的搜索结果前列,那么同上面的这两种分词方法,我们就可以根据更多的这样的分词理论去构建一个长尾的title,长尾的keywords等。让你的网站从更多的关键词中获得流量。

kevin 其他

Firefox 16个SEO 插件

2009年8月1日

Firefox跟WordPress一样,其魅力在于拥有无可限量的插件与扩展,只要你能想到的功能,就有人能够帮你实现。之前介绍了Wordpress SEO插件,今天介绍的是16款Firefox SEO相关插件,欢迎使用。

1. SEO for Firefox

seo-for-firefox

功 能强大。 可以显示PR,网站年龄,外链,Alexa,教育网链接等等一大堆 SEO 相关的资料。SEO for Firefox 可能是目前最强大的 Firefox SEO 插件了,由 SEObook 出品。 SEO for Firefox 功能非强强大,安装 SEO for Firefox 扩展后打开页面,会显示非常多的该网站的资料,如 PR 值,Delicious 上面的收藏数量, Technorati 反向链接情况,Alexa 排名,WhoIs 信息等几十个参数。

2. SeoQuake

seoquake

SeoQuake 曾被国内的站长称为 SEO 终极完美工具,功能也是非常之强大。安装 SeoQuake Firefox 扩展后可以显示 Google PR,Google,Yahoo 和 MSN 等搜索引擎的收录数量及反向链接等内容,而且具有很强的可定制性。

3. SEO Link Analysis

seo-link-analysis

SEO Analysis Tool 这个 Firefox SEO 插件可以在你使用 google 工具箱和 Yahoo! Site Explorer 的时候丰富链接的资料。例如,可以显示锚文本,反向链接是 nofollow 属性还是已经不存在了。

4. Rank Checker

rank-checker

Rank Checker 是 SeoBook 出品的另外一个 Firefox SEO 工具,这个 SEO 插件可以保存并跟踪任意一个网页在 Google,Yahoo 和 Live 三个搜索引擎里面的排名情况。因为这些结果都是保存在本地电脑上的,所以用户不用担心隐私等问题。

5. LinkDiagnosis Firefox Extension

link-diagnosis-firefox-extension

LinkDiagnosis Firefox 扩展可以让站长看到每一个反向链接的 PR 值,反向链接的使用的锚文本,最多使用的链接锚文本等。

6. Smart PageRank

smart-pagerank

Smart PageRank 是一个非常简单但是功能强大的 Firefox SEO 工具,可以显示当前你访问页面的 PR 值,alexa 排名,Whois 信息,反向链接的 PR 等。

7. RankQuest SEO Toolbar

rankquest

RankQuest SEO Toolbar Firefox 扩展可以让你一目了然的知道你的网站在 30 多个 SEO 工具里面的情况。

8. Quirk Search Status

search-status

SearchStatus 这个 Firefox 扩展可以在 Firefox 上显示很多 SEO 相关的数据,例如 Google PR 值, Alexa 排名,Compete 排名,moz 排名,Whois 信息,robos.txt 的链接地址,sitemap.xml 的链接地址等。

9. HTML Validator

html-validator

HTML Validator 这个插件不仅仅对于网页设计人员和开发人员非常有用,还是个非常有用的 SEO 工具。HTML Validator Firefox 扩展可以让你检测 HTML 代码中的错误,从而提高网站在搜索引擎中的排名。

10. SEOpen

seopen

Provides 提供了很多搜索引擎优化相关的数据,例如 google 里面的反向链接数量,Yahoo 里面的反向链接数量,Google PageRank 查询,http header 检测等。

11. Google Global Firefox Extension

google-global-firefox-extension

Google Global Firefox Extension 这个 FireFox 扩展可以允许你选择不同国家的 Google 自然搜索结果和付费搜索结果,对于所搜索引擎竞价排名非常有用。

12. Foxy SEO Tool

foxy-seo-tool

Foxy SEO Tool 是一款免费的,开源的 Firefox SEO 插件,网站主可以利用 Foxy SEO Tool 进行网络流量和页面分析。

13. Socialphile

socialphile

Socialphile Firefox 扩展可以让网站主搜索社会化新闻网站的结果,同时可以站长直接提交搜索结果到社会化新闻网站,目前仅支持 Digg.com,开发人员表示将会支持更多的社会化新闻媒体网站。

14. KGen

kgen

KGen Firefox SEO 扩展可以让你非常快速的指导一个网页上面密度最大的关键词是什么,对于网站主来统筹整个网页的关键词密度策略,或者与竞争对手的网页进行关键词密度分析非常有用。

15. Niche Watch Tool

niche-watch-tool

Niche Watch Firefox SEO 插件可以显示域名的反向链接数量,搜索引擎抓取数量,PageRank 值等等。

16. User Agent Switcher

user-agent-switcher

User Agent Switcher,一款非常有用的 Firefox SEO 扩展,用来伪装浏览器和操作系统的标识。

文章整理参考来源:

15+ Useful Firefox SEO Tools For Serious Bloggers And Web Designers

http://blog.csdn.net/phphot/archive/2009/07/16/4354330.aspx

Firefox 16个SEO 插件

http://www.alsong.info/funtwo/34.html

kevin 其他