搭建Spark集群
本章将在上一章搭建的虚拟机上进行搭建。一、准备工作(1)软件准备<1>将hadoop、jdk和spark软件下载到本机。<2>本机通过远程连接连接win7虚拟机。连接成功后直接复制软件粘贴到win7。(2)利用SecureCRT登录四台虚拟机。添加域名解析ping 外网关闭防火墙...
本章将在上一章搭建的虚拟机上进行搭建。
目录
(2)将master虚拟机上安装的JDK以及环境配置文件分发到从节点
(3)配置hadoop环境配置文件 - hadoop-env.sh
(9)将master虚拟机上的hadoop分发到从节点(以slave01为例)
(2)编辑spark环境配置文件 - spark-env.sh
<1>把master虚拟机上的spark安装目录分发给slave1虚拟机
一、准备工作
(1)软件准备
<1>将hadoop、jdk和spark软件下载到本机。
<2>本机通过远程连接连接win7虚拟机。连接成功后直接复制软件粘贴到win7。
(2)利用SecureCRT登录四台虚拟机。
添加域名解析
ping 外网
关闭防火墙
修改主机名
关闭SeLinux安全机制
以上在从节点也要配置。
(3)设置免密登录
<1>配置ip-主机名映射
打开交互窗口(多窗口执行统一命令)
输入命令回车
逐个修改
<2>生成公钥
一直回车
分发公钥
同理将公钥分发给从节点
(4)安装lrzsz
执行命令:yum -y install lrzsz
三、安装jdk
(1.)在master上安装配置jdk
转移安装包
执行 tar -zxvf jdk-8u231-linux-x64.tar.gz -C /usr/local 解压到/usr/local
执行命令:vim /etc/profile
,配置环境变量
执行以下命令使配置生效,并查看java版本
(2)将master虚拟机上安装的JDK以及环境配置文件分发到从节点
分发jdk(以slave01为例)
查看成功与否
分发环境配置文件
执行命令:source /etc/profile
,让配置生效
查看jdk版本
同理完成其他从节点
四、安装hadoop
(1)、
利用rz
命令上传hadoop-2.7.1.tar.gz
执行命令:tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local解压到/usr/local
(2)、 配置hadoop环境变量
执行命令:vim /etc/profile
执行命令:source /etc/profile
,让配置生效
(3)配置hadoop环境配置文件 - hadoop-env.sh
进入hadoop配置目录
执行命令:vim hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_231
export HADOOP_HOME=/usr/local/hadoop-2.7.1
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
执行命令source hadoop-env.sh
,让配置生效
查看三个配置的三个环境变量
(4) 配置核心配置文件 core-site.xml
执行命令:vim core-site.xml
<configuration>
<!--指定hdfs的master-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<!--指定文件的存放目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.7.1/tmp</value>
</property>
</configuration>
(5)配置文件 - hdfs-site.xml
执行命令:vim hdfs-site.xml
(6)复制模板,配置文件 mapred-site.xml
执行命令:cp mapred-site.xml.template mapred-site.xml
执行命令:vim mapred-site.xml
(7) 配置文件 - yarn-site.xml
执行命令:vim yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
(8)编辑slaves文件(定名分)
通过slaves文件定义从节点
执行命令:vim slaves
(9)将master虚拟机上的hadoop分发到从节点(以slave01为例)
执行命令:scp -r $HADOOP_HOME root@slave1:$HADOOP_HOME
分发环境配置文件
执行命令:scp /etc/profile root@slave01:/etc/profile
切换到slave1虚拟机,执行命令:source /etc/profile
(10)
在master虚拟机上格式化名称节点
在master虚拟机上,执行命令:hdfs namenode -format
执行命令:start-dfs.sh
,启动hdfs服务
(11)启动与关闭Hadoop集群
查看master和从节点的进程
执行命令:start-yarn.sh
,启动YARN服务
执行命令jps
查看master虚拟机的进程,只有NameNode、SecondaryNameNode和ResourceManager
(12)查看hadoop集群的WebUI界面
在hw_win7虚拟机浏览器访问http://192.168.1.100:50070
查看数据节点信息
在HDFS上创建一个目录BigData
,执行命令:hadoop fs -mkdir /BigData
停止hadoop服务
五、安装配置Spark Standalone模式的集群
(1)
利用rz将hw_win7虚拟机上的spark安装包上传到master虚拟机/opt目录
将spark安装包解压到master虚拟机指定目录
执行命令:tar -zxvf spark-2.4.4-bin-hadoop2.7..tgz -C /usr/local
执行命令:source /etc/profile
,让配置生效
查看spark安装目录(bin
、sbin
和conf
三个目录很重要)
(2)编辑spark环境配置文件 - spark-env.sh
创建slaves文件,添加从节点
(3)从节点上安装配置Spark(slave01为例)
<1>把master虚拟机上的spark安装目录分发给slave1虚拟机
<2>在slave1虚拟机上让spark环境配置文件生效
在slave1虚拟机上,执行命令:source /etc/profile
执行命令:source spark-env.sh
(4)
启动hadoop的dfs服务
在master虚拟机上执行命令:start-dfs.sh
启动Spark集群
(5)访问Spark的WebUI
在hw_win7虚拟机上,访问http://192.168.177.100:8080
启动Scala版Spark Shell
执行命令:spark-shell --master spark://master:7077
更多推荐
所有评论(0)