ES经典面试题:谈谈filter和query有什么区别?
ES经典面试题:谈谈filter和query有什么区别?
·
一、实战演示
1、创建索引
PUT my-index-000001
{
"mappings": {
"properties": {
"city": {
"type": "keyword"
}
}
}
}
2、添加测试数据
PUT my-index-000001/_doc/1
{
"city": "北京"
}
PUT my-index-000001/_doc/2
{
"city": "天津"
}
PUT my-index-000001/_doc/3
{
"city": "武汉"
}
3、通过query查询
GET my-index-000001/_search
{
"query": {
"bool": {
"must": [
{"term": {
"city": "北京"
}}
]
}
}
}
执行结果:
4、通过filter过滤器查询
GET my-index-000001/_search
{
"query": {
"bool": {
"filter": [
{"term": {
"city": "北京"
}}
]
}
}
}
执行结果:
结论:
由于数据量有限,查询性能方面看不出区别,只能得到以下结论:
1、filter和query查询都能正确获得预期的结果记录。
2、query查询会对匹配结果进行相关性打分,filter查询不会对结果记录进行打分。
二、filter和query的差别
官网中对query context和filter context的说明:
官网链接
filter和query的差别:
1、filter查询会缓存结果,不计算相关度分数,查询效率更高
2、query查询不缓存结果,且会计算相关度分数,查询效率会比filter查询低。
三、filter查询详解
- filter并不是每次执行都会进行cache,而是当执行一定次数的时候才会进行cache一个二进制数组,1表示匹配,2表示不匹配。这个次数是不固定的。
- filter会从优先过滤掉稀疏的数据中,保留匹配的cache数组。
- filter cache保存的是匹配的结果,不需要再从倒排索引中去查找比对,大大提高查询效率。
- filter一般会在query之前执行,过滤掉一部分数据,从而提高query速度。
- filter不计算相关度分数,在执行效率上较query更高。
- 当元数据发生改变时,cache也会更新。
- filter中不能使用match全文检索查询。
四、fitler和query的组合使用
在实际查询中,我们可以灵活选用fitler和query查询,并且二者还能组合在一起使用。
GET /_search
{
"query": {
"bool": {
"must": [
{ "match": { "title": "Search" }},
{ "match": { "content": "Elasticsearch" }}
],
"filter": [
{ "term": { "status": "published" }},
{ "range": { "publish_date": { "gte": "2015-01-01" }}}
]
}
}
}
说明:
过滤器filter查询目前也被放在了bool查询的条件中,ES权威指南中提到的filtered
关键字已经作废了。
filtered
过期写法:
## INCORRECT - DEPRECATED SYNTAX, DO NOT USE
GET _search
{
"query": {
"filtered": {
"query": {
"match": {
"text": "quick brown fox"
}
},
"filter": {
"term": {
"status": "published"
}
}
}
}
}
正确写法:
move the query and filter to the must and filter parameters in the bool query:
GET _search
{
"query": {
"bool": {
"must": {
"match": {
"text": "quick brown fox"
}
},
"filter": {
"term": {
"status": "published"
}
}
}
}
}
五、最佳实践
除了需要计算相关性打分的检索条件,其他的检索条件尽量采用filter过滤器查询,以提升查询性能。
更多推荐
已为社区贡献32条内容
所有评论(0)