一、 内置分词器

ElasticSearch 核心功能就是数据检索,首先通过索引将文档写入 es。查询分析则主要分为两个步骤:

  1. 词条化:分词器将输入的文本转为一个一个的词条流。
  2. 过滤:比如停用词过滤器会从词条中去除不相干的词条(的,嗯,啊,呢);另外还有同义词过滤器、小写过滤器等。

ElasticSearch 中内置了多种分词器可以供使用。

分词器作用
Standard Analyzer标准分词器使用于英语
Simple Analyzer简单分词器,基于非字母字符进行分词,将单词转化为小写字母
Whitespace Analyzer空格分词器,会依据空格进行分词
Stop Analyzer类似于简单分词器,但是添加了停用词的功能
KeyWord Analyzer关键词分词器,输入文本等于输出文本
Pattern Analyzer利用正则表达式切分
Language Analyzer正对于特定语言分词
Fingerprint Analyzer指纹分析仪分词器,通过创建标记进行重复检测

二、中文分词器

在 Es 中,使用较多的中文分词器是 elasticsearch-analysis-ik,这个是 es 的一个第三方插件,代码托管在 GitHub 上:

https://github.com/medcl/elasticsearch-analysis-ik

三、安装中文分词器

两种使用方式:(选择分词器版本是尽量选择和es版本一致的)

  • 第一种
1、首先打开分词器官网:https://github.com/medcl/elasticsearch-analysis-ik。
2、在 https://github.com/medcl/elasticsearch-analysis-ik/releases 页面找到最新的正式版,下载下来。我们这里的下载链接是 https://github.91chi.fun//https://github.com//medcl/elasticsearch-analysis-ik/releases/download/v7.16.0/elasticsearch-analysis-ik-7.16.0.zip。
3、将下载文件解压。
4、在 es/plugins 目录下,新建 ik 目录,并将解压后的所有文件拷贝到 ik 目录下。
5、重启 es 服务。
  • 第二种
./bin/elasticsearch-plugin install https://github.91chi.fun//https://github.com//medcl/elasticsearch-analysis-ik/releases/download/v7.16.0/elasticsearch-analysis-ik-7.16.0.zip

安装成功
在这里插入图片描述

四、测试中文分词器

  1. es 重启成功后,首先创建一个名为 test 的索引:
    在这里插入图片描述
  2. 在该索引中进行分词测试:
    不用分词器在这里插入图片描述
    使用分词器
    在这里插入图片描述
Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐