您的当前位置:SEO培训教程学习网 > seo算法 > 中文分词的原理是什么?关键字中文分词技术是怎么回事

中文分词的原理是什么?关键字中文分词技术是怎么回事

分类: seo算法 发布时间: 2019-05-11 22:37

  一、什么是中文分词算法

  中文分词算法是指将一个汉字序列切分成一个一个单独的词,与英文以空格作为天然的分隔符不同,中文字符在语义识别时,需要把数个字符组合成词,才能表达出真正的含义。分词算法是文本挖掘的基础,通常应用于自然语言处理、搜索引擎、智能推荐等领域。

  二、 分词算法分类

  中文分词算法大概分为三大类,第一类是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,比如机械分词方法。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。第二类是基于统计以及机器学习的分词方法,它们基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行训练,在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。

中文分词的原理是什么?关键字中文分词技术是怎么回事

  三、 机械分词算法

  (1) 匹配方法

  机械分词方法按照扫描方向的不同,可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法如下:

  ①、 正向最大匹配法(由左到右的方向);如以例句“达观数据是一家大数据公司”,使用正向最大匹配法分词的结果为“达观/数据/是一/家/大数据/公司”

  ②、 逆向最大匹配法(由右到左的方向);同样以例句“达观数据是一家大数据公司”,使用逆向最大匹配法分词的结果为“达观/数据/是/一家/大数据/公司”

  ③、 最少切分(使每一句中切出的词数最小)。例句“达观数据是一家大数据公司”被分为“达观数据/是/一家/大数据公司”。

  四、中文分词算法在SEO优化中的应用:

  10个人有9个人不知道中文分词,也这是很多做SEO的硬伤,如果连最基本的搜索引擎中文分词技术算法都不知道,只能用一句摸着石头过河来形容了。深度了解百度中文技术可以让搜索引擎排名变得简单化,清晰化。那么如何理解中文分词技术是本文的核心课点。首先在了解百度中文技术以前要了解一个语义分析系统,搜索引擎不像人的大脑一样可以很直接的通用意识行为来判别一个网页的核心主题。

  比如我们作为一个用户看到一篇文章叫做我的父亲,对于用户而言,你最直观的感觉的就是该网页文章的核心关键词就是父亲,绝对不是我或者别的,之所以有这种感觉那是因为所谓用户来思考,父亲是一个名词,我是代词,的是助词。但是对于搜索引擎本身来讲它是不可能像人的大脑一样思考这个意识来决定网页核心主题的,对于中国人来说,语义分析和词性则是搜索引擎利用区别网页核心关键词的主要方式,比如我们都知道中文有名词、形容词、动词、介词、副词等等。并且不同的词性他的含义和作用也完全不一样,那么搜索引擎如何借助词性来判断关键词的核心主题呢?

  如果我们从大范围来讲,一个网页的主题包含的关键词不少,但是真正有价值的关键词其实就那么几个,并且这些有价值的词我们暂且称为核心关键词。从词性来看,多数这些有价值的词均为名词形态,如果不了解该词到底属于什么关键词词性可以通过语义分析系统去识别(网址:http://ictclas.nlpir.org/nlpir/),也可以对照一下自己网站的关键词,核心词绝对是以名词为主。

  一般来说,核心关键词定位多数都是名词+动词,或者名词+形容词,比如小明在奔跑,该标题对于用户来说,都知道核心关键词是小明,没了小明奔跑就没有任何价值了。但是对于搜索引擎来说肯定不理解,从上面我们所讲到的分词原理,可以了解到该词的核心关键词也是小明,因为小明是名词,奔跑是动词,也叫做名+动。当然定位核心关键词的首要条件是必须是词性的频次相等的情况下才会优先将名词定位核心关键词,比如漂亮_漂亮同义词_漂亮的含义,虽然该标题里面漂亮是形容词,并且也包含了其他名词,但是为何核心词是漂亮而不是其他名词,因为频次相同才会将名词定位核心词,频次不相同优先将频次最大的关键词定位核心关键词。