elasticsearch 7.X全部版本的新特性与重大变化

全网最全 elasticsearch新特性整理。

水的精神 · 2022-06-24 01:17:58 发布

参考文档：

发现一个问题：es官网，不同版本，文档对新特性的描述不在一个位置。

你可以在这个文档找到所有的关于 ES 7.X的新特性：

What’s new in 7.17 | Elasticsearch Guide [7.17] | Elastic

因为不同版本，新特性和重大变化放在不同的位置

es 7.0 - 7.6 文档都是放在入下图所示：

highlights里边是放的当前版本的亮点（也叫做创新点），breaking changes里放的是重大变化（在原来的基础上发生了变化）。

Release highlights | Elasticsearch Guide [7.0] | Elastic

但是ES 7.7 以后的版本

创新点放在了如下图所示的位置，what is new 里边。重大变化还是放在了 breaking change里边

当然，我已经把这些都提取出来放在下边了。喜欢看英文的，你可以去看官网。这些都是我自己翻译的，不是机器翻译！

添加内存断路器。

修改了桶聚类返回的结果数限制，限制为10000。加上内存断路器。可以有效避免对集群执行毁灭性的查询，造成集群不可用。如果请求加上已经使用的内存大于95%的堆内存，则拒绝请求。

Circuit Breaker | Elasticsearch Guide [7.0] | Elastic
支持纳秒级时间戳
自带 OpenJDK ，7版本自带jdk11
JSON格式日志。

关闭的索引分片，可以用户复制和打快照。
distance_feature 距离查询，仅针对data类型、 date_nanos查询geo_point 类型字段的查询。比如可以获取更接近某个某个时间的数据。

修复的缩减分片时的bug。在7.7以前的版本，有可能在缩减分片以后，导致索引损坏。
减少段的打开，占用的内存。这意味着一样的内存可以维护更多的段数据。
机器学习，分类，从两个类到30多个类。
增加聚类时，对内存的控制，防止OOM。
增加异步搜索的API

Long-running searches | Elasticsearch Guide [7.7] | Elastic
boxplot 聚类：获取最小值、最大值中位数、第一四分位数（第 25 个百分位数）和第三个四分位数（第 75 个百分位数）值
top_metrics aggregation 聚类

Top Metrics Aggregation | Elasticsearch Guide [7.7] | Elastic
优化对时间的排序。

添加跨集群同步数据重试功能。解决因为断路器导致的异常
限制写入速度。 Elasticsearch 和 Lucene 使用堆内存进行缓冲。为了控制内存使用，Elasticsearch 根据您的索引缓冲区设置将数据从缓冲区移动到磁盘。如果持续索引的速度超过了将数据重新定位到磁盘的速度，那么 Elasticsearch 现在将限制索引
优化data_histograms，减少内存开销。
增加 wildcard字段类型

提升写的速度（说是20%）
ES7.9基于lucene8.7，优化了存储字段的压缩比率。优化了有0-10%
搜索时间点，保留数据现场。这样就可以做这样的优化，将查询和聚类分开，因为通常聚类是慢的，插叙是快的。如果没有查询时间点这个概念，可能数据在这段时间内已经发生改变了。
添加协调节点的断路器。
添加只用于系统索引的线程池。

combined_fields查询，用于将多个text字段作为组合字段进行搜索。您可以将 combined_fields查询用作multi_match查询 cross_fields类型选项的更简单替代方案。
terms聚合更快。

跨集群EQL搜索
异步SQL搜索
添加 reset job API
添加 match_only_text 类型字段
Composite aggregations 滚动聚类，更加节省内存，因为不再使用 global ordinals ，因为 global ordinals 可能会占用大量的堆内存。
添加 terms enum API ，该API可以用来做自动提示。
自动更新GeoIP库。用于根据ip获取国家省份城市等信息。