分词的方法有哪些呢?

 SEO基础知识     |      2020年07月22日

分词是中文搜索引擎所特有的处理操作,这是因为英文等语言的单词与单词之间是有空格分隔的,而中文的词与词之间就没有任何的分隔符,所以搜索引擎必须要把一句话分解成很多个词语。

分词的方法有哪些呢?

分词的方法有很多,主要有基于字典的分词法、基于理解的分词法以及基于统计的分词法,目前主流的搜索引擎会结合这三种方法,构成一套分词系统。接下来就详细的了解一下这三种方法吧!


1、基于字典的分词法


这种分词法是指将待分析的一段文字与一个事先编制好的字典中的词条进行匹配,在待分析文字中扫描到字典中已有的词条则匹配成功,或者切分出一个单词。这种分词方法的准确性在很大程度上取决于字典的完整性。


这种分析法在进行分词的时候,应该遵循颗粒度越大越好、非字典词越少越好,单字词越少越好、总体词数越少越好的原则。


2、基于理解的分词法


这种分词方法主要是利用人工智能技术,并且结合汉语的语法、词义以及心理学的知识让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。


它通常包括三个部分:分词子系统、句法语义子系统以及总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等句法和语义信息来对分词歧义进行判断,从而模拟了人对句子的理解过程。


这种分词法需要使用大量的语言知识和信息,由于汉语语言知识的店笼统、复杂性,将各种语言信息组织成机器可直接读取的形式比较困难,因此这种分词法还处于测试阶段。


3、基于统计的分词法


这种分析法是指搜索引擎对大量的页面内容进行分析,计算出字与字之间相邻出现的概率,如果某几个字相邻出现的概率很大,这样就有可能形成一个单词。这种分词的优势就在于对新出现的词反应更加快速。


以上就是分词法的常用方法,希望对大家有所帮助。


原创·大金SEO http://www.dajinseo.com/p/563.html