如何搭建一个完整的Hadoop集群(三台虚拟机)
创建一个完整Hadoop虚拟机基本步骤使用软件:VMwareLinuxcentos8jdk1.8hadoop2.71.首先是创建一个安装一个虚拟机(master)hostname:查看当前主机名hostnamectl set-hostname 修改后的名字//修改名字只是为了能够达到见名知意2.设置静态ip和本地网络设置(vmnet8)(具体是啥意思不懂!!!)然后进入/etc/syscofig/
创建一个完整Hadoop虚拟机基本步骤
使用软件:
VMware
Linux
centos8
jdk1.8
hadoop2.7
一.首先是创建一个安装一个虚拟机(master)
hostname
:查看当前主机名
hostnamectl set-hostname 修改后的名字
//修改名字只是为了能够达到见名知意
二.设置静态ip和本地网络设置(vmnet8)(具体是啥意思不懂!!!)
然后进入/etc/syscofig/network-scripts
编辑ens32/ens33(这个大家可以自己去搜一下,主要是我也不晓得怎么说)
为什么要配置静态IP:为了让虚拟机连接到外网
注意!!
由于我使用的是centos8所以无法使用systemcet/service restart network
,所以我就直接reboot
重启虚拟机
三.搭建Java环境(jvm1.8)
a.需要从本地上传文件到Hadoop上(我使用的是filezilla)
b.解压文件tar -zxvf 需要解压的文件地址 -C 解压到的位置
c.是配置环境变量vi ~/.bash_profile
在这个文件上加上
export JAVA_HOME=/opt/java7/jdk1.7.0_79
export CLASSPATH=$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
d.使配置文件生效
source ~/.bash_profile
e.查看安装后的JDK版本
java -version
四.安装Hadoop
上传hadoop文件并解压到/usr/local/hadoop
(这个自己设置)下
配置文件
1.输入cd /usr/local/hadoop/etc/hadoop
,进入hadoop
2.配置 hadoop-env.sh
导入jdk路径
export JAVA_HOME=/usr/local/src/jdk1.8.0_161
3.配置core-site.xml
<configuration>
<property>
<!--指定namenode的地址-->
<name>fs.defaultFS</name>
<value>hdfs://主机号:9000</value> #主机和端口
</property>
<property>
<!--用来指定使用hadoop时产生文件的存放目录-->
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/src/hadoop-2.6.1/tmp</value>
</property>
</configuration>
4.配置hdfs-site.xml
<configuration>
<property>
<!--为secondary指定访问ip:port-->
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<!--指定hdfs中namenode的存储位置-->
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/src/hadoop-2.6.1/dfs/name</value>
</property>
<property>
<!--指定hdfs中datanode的存储位置-->
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/src/hadoop-2.6.1/dfs/data</value>
</property>
<property>
<!--指定hdfs保存数据的副本数量-->
<name>dfs.repliction</name>
<value>3</value>
</property>
</configuration>
注意namenode和datanode的存放路径要一致!!!!
5.配置mapred-site.xml
<configuration>
<property>
<!--告诉hadoop以后MR(Map/Reduce)运行在YARN上-->
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
6.配置yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<!--nomenodeManager获取数据的方式是shuffle-->
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<!--客户端对ResourceManager主机通过 host:port 提交作业-->
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<!--ApplicationMasters 通过ResourceManager主机访问host:port跟踪调度程序获资源-->
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<!--NodeManagers通过ResourceManager主机访问host:port-->
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8035</value>
</property>
<property>
<!--管理命令通过ResourceManager主机访问host:port-->
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<!--ResourceManager web页面host:port.-->
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>
7.配置slaves(节点名称)
slave01
slave02
8.配置Hadoop的环境变量vi /etc/profile 并加上
export HADOOP_HOME=`/usr/local/hadoop/hadoop2`//解压Hadoop的位置
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
五.启动hadoop
1.格式化HDFS hadoop namenode -format
2.启动hadoop start-all.sh/sbin/start-dfs.sh
但是最好不用start-all.sh
3.检查是否启动成功jps
4.访问Hadoop
#访问HDFS页面
http://192.168.56.201:50070
#访问YARN的管理界面
http://192.168.56.201:8088
六.配置hadoop集群
1.使用克隆克隆两个slave节点
2.并修改其静态ip地址和hostname用户名
3.重启网络(reboot)
4.生成密钥,免密登录并远程连接
Hadoop集群中ssh免密登录设置教程
6.格式化HDFS并启动hadoop namenode -format
7.进入网址
namenode: 静态ip地址:50070
任务运行情况: 静态ip地址:8088
更多推荐
所有评论(0)