一、DataX介绍:

DataX 是阿里开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

二、安装时环境

1、IDK1.8(我这个datax安装包需要jdk1.8以上)

2.python2.* (我没有安装python,使用的是liunx自带的python)

查看linux python版本:python -V

三、安装包下载

下载页面地址: https://github.com/alibaba/DataX

使用【Quick Start】--->【Download DataX下载地址】进行下载。

四、安装

1.在安装目录下解压datax.tar.gz安装包

tar -zxvf datax.datax.tar.gz

2.自检

python /software/DATAX/datax/bin/datax.py /software/DATAX/datax/job/job.json

执行自检脚本没有出错就安装成功了。

五、附加一个”elasticsearchreader“、”elasticsearchwriter“  插件plugin下载安装步骤(如果下载的datax没有读写es的plugin的话):

我是在码云上下载的,连接如下:

datax-elasticsearch: datax数据同步elasticsearch的reader和writer插件,支持一对多的扁平数据转换成es的嵌套对象,也支持嵌套对象的读取和ognl表达式过滤,理论上可以无限嵌套。 (gitee.com)

 

按照码云上的操作步骤就可以,把插件放到datax 相应目录下就可以了

 

 

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐