今天在处理Elasticsearch集群间索引数据同步的时候使用到了内置提供的reindex命令,使用起来还算实用,这里简单介绍分享使用过程和错误经验:

工具介绍

【1】reindex是Elasticsearch提供的一个api接口,可以把数据从一个集群迁移到另外一个集群。
【2】需要在目标ES集群中配置reindex.remote.whitelist参数,指明能够reindex的远程集群的白名单
【3】本地索引更新Mapping实现索引层面迁移,或者跨集群的索引迁移

【语法】
POST _reindex
{
  "source": {
    "remote": {
      "host": "http://MyOldDNSName:9200"
    },
    "index": "test"
  },
  "dest": {
    "index": "test"
  }
}

Tips:注意这个命令执行是*在新的elasticsearch集群上的*,这个要是在旧的集群上执行是没用的。一般情况下同步数据都是从源端往目标端同步,但是这个却是反过来的,被坑好一会…

參考:
POST _reindex
{
  "source": {
    "remote": {
      "host": "http://ip:9200"
    },
    "index": "logstash-err-2022.08.01_copy22"
  },
  "dest": {
    "index": "logstash-err-2022.08.01_copy22"
  }
}

not whitelisted in reindex.remote.whitelist问题处理

这个需要在新的集群上配置添加白名单,配置的是旧的ES集群地址

参考:

reindex.remote.whitelist: "otherhost:9200, another:9200, 127.0.10.*:9200, localhost:*"

修改新的ES集群的配置,修改config/elasticsearch.yml ,添加上面的配置,修改完之后重新启动服务。

cluster.name: "docker-cluster"
network.host: 0.0.0.0
reindex.remote.whitelist: "xxx:9200"

这里的地址和上面的source.remote.host保持一致,不需要协议名称

POST _reindex 504 Gateway Timeout注意事项

虽然这个是返回了504网关超时错误,但是并不一定就是发生问题了,504的问题表示不能及时地从远程服务器获得应答,可能是这个请求后台处理时间过长,网关没有收到后台服务器及时响应,虽然返回了504错误,但是实际上后台还是在正常的处理任务在。

针对这种情况,我们可以先通过下面的命令查看下后台运行的任务情况

GET _tasks?actions=*reindex&detailed

在这里插入图片描述
如果要异步运行任务,也可以使用以下命令执行此操作:

POST _reindex?wait_for_completion=false

这将返回一个任务 ID,然后可以通过以下方式检查其进度:

GET _tasks/<task-id>

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐