THERE IS NO END TO LEARNING

搜索引擎分词技术详解

分词技术是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔,搜索引擎索引(“预处理”也被称为“索引”,因为索引是预处理最主要的步骤)程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须分辨哪几个字组成一个词,哪些字本身就是一个词。比如“SEO分析师”将被分词为“SEO”和“分析师”两个词。

 

中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。

基于词典匹配的方法是指:将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。

按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。

词典匹配方法计算简单,其准确度很大程度上取决于词典的完整性和更新情况。

 

基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。

 

基于词典匹配和基于统计的分词各有优势,实际使用中的分词系统都是混合使用两种方法的,快速高效,又能识别生词、新词,消除歧义。

搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,所以SEO人员对分词所能做的很少。唯一能做的就是在页面上用某种形式提示搜索引擎,某几个字应该当做一个词处理,尤其是可能产生歧义的时候,比如在页面的标题、H1标签及黑体重出现关键词。这样搜索引擎对页面进行分析时就知道标为黑体的应该是一个词。

 

PS:写完博客后,去月光博客看到类似的文章。月光提到了另一种分词方法,基于理解的分词方法。

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。

在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

点赞
  1. 影楼营销说道:

    过来看看学习了啊

  2. 东东博客说道:

    不错的文章,喜欢这样的好文章。对搜索分词不甚了解,学习了。

  3. 狗粮价格说道:

    支持斑竹的技术文章。