安装单机版Hadoop+ZooKeeper+HBase+Sqoop环境
系统环境:Ubuntu 16.04.6 LTS安装包版本:hadoop-2.7.7,zookeeper-3.4.14,hbase-1.0.1.1-bin,sqoop-1.4.6.bin__hadoop-2.0.4-alpha,jdk1.8.0_221。(注:可在所附的CSDN资源页下载以上包。)参考链接:(点击跳转查看)①安装包清华源②虚拟机搭建Hadoop集群(单机模式)③H...
系统环境:Ubuntu 16.04.6 LTS
安装包版本:hadoop-2.7.7,zookeeper-3.4.14,hbase-1.0.1.1-bin,sqoop-1.4.6.bin__hadoop-2.0.4-alpha,jdk1.8.0_221。(注:可在所附的CSDN资源页下载以上包。)
参考链接:(点击跳转查看)
⑦Hadoop学习---Zookeeper+Hbase配置学习
(0)安装Java jdk
安装好Java jdk,并配置好Jdk路径。
将路径写进个人home页(/home/User/)下的.profile或者.bash_profile如下:
export JAVA_HOME=/home/User/HTest/jdk1.8.0_221
export PATH=$JAVA_HOME/bin:$PATH
需要让该环境变量生效,执行如下代码:
source .profile
(1)Hadoop
①下载Hadoop包并解压
注:本文所有压缩包均放在HTest目录下,并在该目录下解压。
tar xzvf hadoop-2.7.7.tar.gz
mv hadoop-2.7.7 hadoop
②修改Hadoop配置文件
路径在./hadoop/etc/hadoop/,文件为hadoop-env.sh、core-site.xml、hdfs-site.xml。
打开hadoop-env.sh,将JAVA_HOME改为jdk路径,如下
# The java implementation to use.
# export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/home/User/HTest/jdk1.8.0_221
打开core-site.xml,在<configuration></configuration>标签中添加:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储路径 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/User/HTest/hadoop/temp</value>
</property>
</configuration>
打开hdfs-site.xml,在<configuration></configuration>标签中添加:
<configuration>
<!-- 设置hdfs副本数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
③修改个人profile配置
将Hadoop路径写进.profile或者.bash_profile。
export HADOOP_HOME=/home/User/HTest/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
需要让该环境变量生效,同样执行如下代码:
source .profile
输入如下命令来检查 Hadoop 是否可用,成功则会显示 Hadoop 版本信息:
hadoop version
④hdfs格式化
(注:第一次使用时必须先格式化hdfs)
执行命令
./hadoop/bin/hdfs namenode -format
⑤启动hadoop
./hadoop/sbin/start-all.sh
在提示输入密码时输入系统登录用户名对应的密码(此处需多次输入以启动各种服务,也可以配置ssh无密码登录,本文不讲,可自行查看本文开头参考链接③或⑩中的内容。)
成功启动后输入jps命令可以看到启动的各种服务。
(2)ZooKeeper
①下载ZooKeeper包并解压
tar xzvf zookeeper-3.4.14.tar.gz
mv zookeeper-3.4.14 zookeeper
②修改zookeeper配置文件
路径在./zookeeper/conf/,输入命令
cp zoo_sample.cfg zoo.cfg
,复制文件zoo_sample.cfg为zoo.cfg。
打开zoo.cfg,将dataDir改为其他路径(/tmp下的文件易被系统自动清理),如下
dataDir=/home/User/HTest/zookeeper/zkData
dataLogDir=/home/User/HTest/zookeeper/zkLogs
server.1=127.0.0.1:2888:3888
新建dataDir文件夹“zkData”,新建“myid”文件
vi myid
在文件中写“1”,保存。
③修改个人profile配置
即将zookeeper路径写进.profile或者.bash_profile。
export ZOOKEEPER_HOME=/home/User/HTest/zookeeper
export PATH=$ZOOKEEPER_HOME/bin:$PATH
需要让该环境变量生效,同样执行如下代码:
source .profile
④启动ZooKeeper
启动服务:
./zookeeper/bin/zkServer.sh start
查看状态:
./zookeeper/bin/zkServer.sh status
关闭服务:
./zookeeper/bin/zkServer.sh stop
成功启动后输入jps命令可以看到启动的相应服务“QuorumPeerMain”。
(3)HBase
①下载HBase包并解压
tar xzvf hbase-1.0.1.1-bin.tar.gz
mv hbase-1.0.1.1-bin hbase
②修改hbase配置文件
路径在./hbase/conf/,文件为hbase-env.sh、hbase-site.xml、regionservers。
打开hbase-env.sh,将JAVA_HOME改为jdk路径,如下
# The java implementation to use. Java 1.7+ required.
# export JAVA_HOME=/usr/java/jdk1.6.0/
export JAVA_HOME=/home/User/HTest/jdk1.8.0_221
增加HBase和Hadoop的环境变量:
export HBASE_CLASSPATH=/home/User/HTest/hadoop/etc/hadoop
export HADOOP_HOME=/home/User/HTest/hadoop
export HBASE_HOME=/home/User/HTest/hbase
修改pid文件存放地址:
# The directory where pid files are stored. /tmp by default.
# export HBASE_PID_DIR=/var/hadoop/pids
export HBASE_PID_DIR=/home/User/HTest/hbase/pids
设置是否使用自带的ZooKeeper:
# Tell HBase whether it should manage it's own instance of Zookeeper or not.
#export HBASE_MANAGES_ZK=true
export HBASE_MANAGES_ZK=false
打开hbase-site.xml,在<configuration></configuration>标签中添加:
<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://localhost:9000/hbase</value>
</property>
<property>
<name>hbase.tmp.dir</name>
<value>/home/User/HTest/hbase/hbase-tmp</value>
</property>
<!-- zk环境的地址 -->
<property>
<name>hbase.zookeeper.quorum</name>
<value>localhost</value>
</property>
<property>
<name>hbase.zookeeper.property.clientPort</name>
<value>2181</value>
</property>
<property>
<name>hbase.zookeeper.proprety.dataDir</name>
<value>/home/User/HTest/zookeeper/zkData</value>
</property>
<!-- 配置为true,否则还是启动自带ZK-->
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.master.maxclockskew</name>
<value>180000</value>
</property>
<property>
<name>hbase.master</name>
<value>localhost:60000</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
③修改个人profile配置
即将hbase路径写进.profile或者.bash_profile。
export HBASE_HOME=/home/User/HTest/hbase
export PATH=$HBASE_HOME/bin:$PATH
需要让该环境变量生效,同样执行如下代码:
source .profile
④启动hbase
./hbase/bin/start-hbase.sh
成功启动后输入jps命令可以看到启动的HMaster服务。
输入hbase shell,即可进入shell环境,在shell环境下输入list可以查看现有数据库情况(新装hbase时此处结果为空)。
(4)Sqoop
介绍:sqoop 是 Apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。
核心的功能有两个:
- 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统
- 导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HDFS,Hive 相比,并没有什么高深的理论。
sqoop版本说明:
- 绝大部分企业所使用的sqoop的版本都是 sqoop1(sqoop-1.4.6 或者sqoop-1.4.7);sqoop-1.99.4以上是 sqoop2。
- 本文使用sqoop-1.4.6版本sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
①下载Sqoop包并解压
tar xzvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha sqoop
②修改sqoop配置文件
路径在./sqoop/conf/,输入命令
cp sqoop-env-template.sh sqoop-env.sh
,复制文件sqoop-env-template.sh为sqoop-env.sh。
打开sqoop-env.sh,将各路径根据自己的安装路径进行填写:
#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/home/User/HTest/hadoop
#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/home/User/HTest/hadoop
#set the path to where bin/hbase is available
export HBASE_HOME=/home/User/HTest/hbase
#Set the path to where bin/hive is available
#export HIVE_HOME=
#Set the path for where zookeper config dir is
export ZOOCFGDIR=/home/User/HTest/zookeeper
③修改个人profile配置
即将sqoop路径写进.profile或者.bash_profile。
export SQOOP_HOME=/home/User/HTest/sqoop
export PATH=$SQOOP_HOME/bin:$PATH
需要让该环境变量生效,同样执行如下代码:
source .profile
④复制mysql-jdbc驱动包
复制mysql-connector-java-5.1.40-bin.jar到./sqoop/lib目录下。
⑤验证并使用
输入命令
sqoop version
查看是否安装成功。
安装成功后即可使用sqoop导入命令,从MySQL等关系数据库导入数据到HBase。
具体使用方式可参考本文开头中的参考链接④。
更多推荐
所有评论(0)