Elasticsearch 7.X 中英混合分词器 Smart Chinese 使用
一、Smart ChineseSmart Chinese Analysis插件将Lucene的Smart Chinese分析模块集成到Elasticsearch中,用于分析中文或中英文混合文本。 支持的分析器在大型训练语料库上使用基于隐马尔可夫(Markov)模型的概率知识来查找简体中文文本的最佳分词。 它使用的策略是首先将输入文本分解为句子,然后对句子进行切分以获得单词。 该插件提供了一个称为s
·
一、Smart Chinese
Smart Chinese Analysis插件将Lucene的Smart Chinese分析模块集成到Elasticsearch中,用于分析中文或中英文混合文本。 支持的分析器在大型训练语料库上使用基于隐马尔可夫(Markov)模型的概率知识来查找简体中文文本的最佳分词。 它使用的策略是首先将输入文本分解为句子,然后对句子进行切分以获得单词。 该插件提供了一个称为smartcn分析器的分析器,以及一个称为smartcn_tokenizer的标记器。 请注意,两者均不能使用任何参数进行配置。
Smart Chinese对中文支持稍好,但扩展性差,扩展词库,禁用词库和同义词库等不好处理。
二、ES 安装 analysis-smartcn
进入es的安装目录的bin下,执行下面命令:
elasticsearch-plugin install analysis-smartcn
安装完成之后,重启es。
三、分词测试
向ES服务器发送GET请求:
http://127.0.0.1:9200/_analyze
请求内容:
{
"text": "中华人民共和国",
"analyzer":"smartcn"
}
喜欢的小伙伴可以关注我的个人微信公众号,获取更多学习资料!
更多推荐
已为社区贡献4条内容
所有评论(0)