你的位置:首页 > 软件开发 > 数据库 > 全文检索基本概念

全文检索基本概念

发布时间:2016-08-18 12:00:10
1.分词全文检索必须要分词,所谓分词就是把一句话切分成一个个单独的词。分词有很多算法,比如自然分词、n-gram分词、字典分词等等。对中文来说没有自然分隔符,一般采用字典分词,再加上对人名、地名的特殊处理,提高分词的准确性。我们使用ik分词组件,ik有两种分词策略:smart策略 ...

1.分词

全文检索必须要分词,所谓分词就是把一句话切分成一个个单独的词。分词有很多算法,比如自然分词、n-gram分词、字典分词等等。对中文来说没有自然分隔符,一般采用字典分词,再加上对人名、地名的特殊处理,提高分词的准确性。

我们使用ik分词组件,ik有两种分词策略:smart策略、max word策略。

例如这个句子:

1939年的德国,9岁的小女孩莉赛尔和弟弟被迫送往慕尼黑远郊的寄养家庭。6岁的弟弟不幸死在了路途中。在冷清的葬礼后,莉赛尔意外得到她的第一本书《掘墓人手册》。

 看一下分词的结果,先看smart策略:

1939年/德国/9岁/小女孩/莉/赛/尔/和/弟弟/被迫/送往/慕尼黑/远郊/寄养/家庭/6岁/弟弟/不幸/死/路/途中/冷清/葬礼/后/莉/赛/尔/意外/得/到她/第一/本书/掘墓人/手册

 

Elasticsearch支持分词接口,比如这个接口:

http://localhost:9200/index/_analyze?text=1939年的德国&analyzer=ik_smart

可以执行一个分词计算,使用的分词器是ik_smart。在分词结果中可以看到每个词的位置和类型。 

句子按照中文语法被分割成一个个词,仔细观察一下可以看到两个现象:

1. 标点符号都不见了

原标题:全文检索基本概念

关键词:

*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们: admin#shaoqun.com (#换成@)。

可能感兴趣文章

我的浏览记录