当前位置:首页 > 技术支持

施展网络分享SEO分词技巧 如何分词 什么是分词

发布时间:2011/9/20  作者:郑州网络公司施展网络   打印  关闭

郑州网络公司施展网络最近遇到难题,因为公司ishizhan.com新站上线,正设置关键词等SEO参数,所以就研究了一下如何分词,什么是分词。

如何分词搜索引擎会承认,什么又是百度分词呢,分词大家容易理解。就是一段词用字符分开,比如标点符号,空格等。那什么叫分词技术呢?分词技术就是SE针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。

我们要理解分词技术先要理解一个概念。那就是查询处理,当用户向搜索引擎提交查询后,搜索引擎接收到用户的信息要做一系列的处理首先是到数据库里面索引相关的信息,这就是查询处理,那么查询处理又是如何工作的呢?很简单,把用户提交的字符串没有超过3个的中文字,就会直接到数据库索引词汇。

超过4个中文字的,首先用分隔符比如空格,标点符号,将查询串分割成若干子查询串。举个例子。“我喜欢天天短信网” 我们就会把这个词分割成“ 我喜欢,天天,短信网。”这种分词方法叫做反向匹配法。

然后再看用户提供的这个词有没有重复词汇。如果有的话,会丢弃掉,默认为一个词汇。接下来检查用户提交的字符串,有没有字母和数字。如果有的话,就把字母和数字认为一个词。
分词技术现今非常成熟了。他分为3种技术。
1.字符串匹配的分词方法
2.词义分词法。
3.统计分此法。
先说第一种。
也是常用的分词法,百度就是用此种分词。字符串匹配的分词方法,他又分为3中分词方法。

1.正向最大匹配法

举个例子。
“最新搞笑手机短信”
这句话采用正向最大匹配法是如何分的呢?“最新,搞笑,手机,短信”与正向最大匹配法相对应的是反向最大匹配发。

2.反向最大匹配法

来分上面我举的例子是如何分的呢 "不知道你在说什么"。反向最大匹配法来分上面这段是如何分的。“最,新,搞笑,手机,短信”,这个就分的比较多了,反向最大匹配法就是从右至左。

3.最短路径分词法。

这个什么理解呢 ,就是说 我一段话里面要求切出的词数是最少的。
“最新搞笑手机短信”最短路径分词法就是指,我把上面哪句话分成的词要是最少的。最新搞笑,手机,短信,这就是最短路径分词法,分出来就只有3个词了 。比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。

4.词义分词法。
这种其实就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟。处在测试阶段。

5.统计的分词方法。

这个很简单,就是根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符。这样来分词。比如,“他的,你的,也许的,哪里,这儿,那里”。等等,这些词出现的比较多,就从这些词里面分开来。好了,分词技术讲完了。
6.我们可以利用分词技术来增加我们站点长尾词。这样就可以获取流量排名。
不但这些分出来的长尾词能够获取一定的排名,也能够推动站点的目标关键词获取很好的排名。

郑州网络公司施展网络整理发布。

本文由郑州网站建设公司施展网络原创发布,转载请注明出处。