Elasticsearch专栏-5.es基本用法-分词查询

es 分词查询

zjun1001

14565人浏览 · 2022-04-25 19:22:42

zjun1001 · 2022-04-25 19:22:42 发布

es基本用法-分词查询

什么是分词

所谓分词，就是把一段语句，分割成一个个单词的过程。比如"717 Hendrickson Place"短语，分词后就是三个单词，即717、hendrickson、place。注意，分词后的单词默认都是小写。
分词查询，指的就是查询时，把要查询的语句（字符串）先进行分词，然后拿分词后的单词去文档集合中比对。只要包含分词后的任意一个单词，就算命中结果。

如何查看分词结果

1.查看指定短语分词结果

GET _analyze
{
  "analyzer":"standard",
  "text":"717 Hendrickson Place"
}

在这里插入图片描述
分词结果中，有几个关键字：token、start_offset、end_offset、position。它们的含义说明如下：

关键字	含义
token	分词后的单词，小写
start_offset	在整个短语字符串中的开始位置，相当于数组下标
end_offset	在整个短语字符串中的结束位置，相当于数组下标
position	单词在整个短语的位置，即第几个单词

2.查看索引下某个字段分词结果

GET /bank/_analyze
{
  "field":"address",
  "text":"717 Hendrickson Place" 
}

在这里插入图片描述

3.查看单个文档某个字段分词结果
原始文档数据

GET /bank/_doc/1

在这里插入图片描述

分词后数据

GET /bank/_doc/1/_termvectors?fields=address

在这里插入图片描述

分词涉及关键字说明

分词查询中，经常涉及几个关键字，如text、keyword、match、term。很多人都会混淆，不明白彼此间有何区别。下面就重点解释下。

text和keyword

text和keyword是数据类型，针对的是数据写入，写入到磁盘上是否进行分词。
text会分词，也就是说，在数据落盘时，会被分割成多个独立的单词，然后存入倒排索引中。分词查询时候，也是以单词维度进行匹配。
keyword不会分词，存的的是整个短语。

match和term

match和term，是两种搜索方式，针对的是数据查询，要查询的短语是否进行分词。
match搜索时候，会对被搜索的内容进行分词，然后拿分词后的内容，去倒排索引中查询。
term是不对被搜索内容进行分词，就是完全匹配。

举例说明

term+keyword：有结果

POST /bank/_search
{
	"query": {
		"term": {
			"address.keyword": "717 Hendrickson Place"
		}
	}
}

在这里插入图片描述
term+keyword：没有结果（这里改动了place）

POST /bank/_search
{
	"query": {
		"term": {
			"address.keyword": "717 Hendrickson Place01"
		}
	}
}

在这里插入图片描述
match+keyword：有结果

POST /bank/_search
{
	"query": {
		"match": {
			"address.keyword": "717 Hendrickson Place"
		}
	}
}

在这里插入图片描述
match+keyword：没有结果（这里改动了place）

POST /bank/_search
{
	"query": {
		"match": {
			"address.keyword": "717 Hendrickson Place01"
		}
	}
}

在这里插入图片描述
term+text：没有结果

POST /bank/_search
{
	"query": {
		"term": {
			"address": "717 Hendrickson Place"
		}
	}
}

在这里插入图片描述
match+text：有结果

POST /bank/_search
{
	"query": {
		"match": {
			"address": "717 Hendrickson Place"
		}
	}
}

在这里插入图片描述
match+text：有结果（这里改动了place）

POST /bank/_search
{
	"query": {
		"match": {
			"address": "717 Hendrickson Place01"
		}
	}
}

在这里插入图片描述
term+text：没有结果

POST /bank/_search
{
	"query": {
		"term": {
			"address": "Hendrickson"
		}
	}
}

在这里插入图片描述
term+text：有结果（Hendrickson改成小写hendrickson）

POST /bank/_search
{
	"query": {
		"term": {
			"address": "hendrickson"
		}
	}
}

在这里插入图片描述

分词查询：match_phrase

先看下例子，此时能查到结果

POST /bank/_search
{
  "query":{
    "match_phrase":{
      "address": "467 Hutchinson"
    }
  }
}

在这里插入图片描述
下面这种查不到结果（Hutchinson改为了Hutchinson01）

POST /bank/_search
{
  "query":{
    "match_phrase":{
      "address": "467 Hutchinson01"
    }
  }
}

在这里插入图片描述
同样的查询语句，此时改为match，能查到结果

POST /bank/_search
{
  "query":{
    "match":{
      "address": "467 Hutchinson01"
    }
  }
}

在这里插入图片描述

很多文章把match_phrase查询称为短语查询，只要结果中全部包含待查询语句即可。从现象来看，这种解释也没错，但很容易让人误以为match_phrase查询时，不对待查询语句进行分词，就是SQL中like的功能。这种是不对的。
从上面对比中可以看出来，match_phrase和match是不一样的。match是对待查询语句先分词，然后再去文档集合中查询。只要包含分词后的任意一个单词，就算是命中。但match_phrase不是这样，它也会先分词，不过查询时候必须全部包含分词后的所有单词，其单词前后顺序也要一样。
下面把上述短语中单词顺序调换下，在测试看

POST /bank/_search
{
  "query":{
    "match_phrase":{
      "address": "Hutchinson 467"
    }
  }
}

在这里插入图片描述
此时可以看到，单词顺序颠倒后，match_phrase是查不到结果的。match仍然可以。
总结：match_phrase和match查询时候，都会先分词再查询。match要求不高，只要匹配到分词后的任意一个单词，就算查到结果。而match_phrase要求严格，不仅要求，要能够匹配到分词后的所有单词，且分词后的单词顺序也要和命中结果中的顺序保持一致。这样才算查到结果