1.分词全文检索必须要分词,所谓分词就是把一句话切分成一个个单独的词。分词有很多算法,比如自然分词、n-gram分词、字典分词等等。对中文来说没有自然分隔符,一般采用字典分词,再加上对人名、地名的特殊处理,提高分词的准确性。我们使用ik分词组件,ik有两种分词策略:smart策略 ...
1.分词
全文检索必须要分词,所谓分词就是把一句话切分成一个个单独的词。分词有很多算法,比如自然分词、n-gram分词、字典分词等等。对中文来说没有自然分隔符,一般采用字典分词,再加上对人名、地名的特殊处理,提高分词的准确性。
我们使用ik分词组件,ik有两种分词策略:smart策略、max word策略。
例如这个句子:
1939年的德国,9岁的小女孩莉赛尔和弟弟被迫送往慕尼黑远郊的寄养家庭。6岁的弟弟不幸死在了路途中。在冷清的葬礼后,莉赛尔意外得到她的第一本书《掘墓人手册》。 |
看一下分词的结果,先看smart策略:
1939年/德国/9岁/小女孩/莉/赛/尔/和/弟弟/被迫/送往/慕尼黑/远郊/寄养/家庭/6岁/弟弟/不幸/死/路/途中/冷清/葬礼/后/莉/赛/尔/意外/得/到她/第一/本书/掘墓人/手册 |
Elasticsearch支持分词接口,比如这个接口: http://localhost:9200/index/_analyze?text=1939年的德国&analyzer=ik_smart 可以执行一个分词计算,使用的分词器是ik_smart。在分词结果中可以看到每个词的位置和类型。 |
句子按照中文语法被分割成一个个词,仔细观察一下可以看到两个现象:
1. 标点符号都不见了
原标题:全文检索基本概念
关键词:
*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们:
admin#shaoqun.com
(#换成@)。