ES中的查询是近实时的,也就是说当数据添加到索引后并不能马上被查询到,等到索引刷新后才会被查询到,索引刷新相关字段为refresh_interval,默认为1s刷新一次。

为何说ES的查询是近实时的呢?首先先了解下ES写入数据的过程:

  1. ES写入数据是先把数据写进Luence的**"memory buffer"缓冲区**(同时也会把数据写一份到translog buffer,进行定时同步到磁盘的持久性操作),Elasticsearch 是基于 Lucene 实现的。ES 基于底层这些包,然后进行了扩展,提供了更多的更丰富的查询语句,并且通过 RESTful API 可以更方便地与底层交互。ES中的倒排索引、打分机制、全文检索原理、分词原理等技术都是Lucene提供的。
  2. 写进Luence的"memory buffer"缓冲区的数据还不能被查询,Luence会每1s调用refresh方法将缓冲区的数据刷新到FileSystemCache中,刷新时间可以修改,也就是可以修改refresh_interval参数。FileSystemCache是缓存层,会将数据生成segment文件,一旦生成segment文件,就能通过索引查询到了。segment文件就是倒排索引文件
  3. refresh完,memory buffer就清空了。每隔5s中,开始是保存到translog buffer到数据就会被flush到磁盘中
  4. 定期/定量从FileSystemCache中,结合translog内容flush index到磁盘中。做增量flush
    在这里插入图片描述
    总结:由上可知,es的查询是近实时的,写入到能查询的时间取决于refresh_interval参数设置

可以修改refresh_interval参数:(如果需要写入大量数据,可以先把刷新周期禁用,写完后再刷新;如果写入日志这种实时性不是很高的数据,可以把刷新周期设置长些)

设置刷新周期:
PUT /your_index/_settings
{
  "refresh_interval": 1s //毫秒:ms、秒:s、分:m
} 

重置refresh_interval:(把刷新周期变为默认,即1s)
PUT /your_index/_settings
{
  "refresh_interval": null
} 

禁止刷新:
PUT /your_index/_settings
{
  "refresh_interval": -1
} 

手动刷新:
POST /your_index/_doc?refresh
{
  //写入、修改数据
} 
Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐