搭建Spark集群

本章将在上一章搭建的虚拟机上进行搭建。一、准备工作(1)软件准备<1>将hadoop、jdk和spark软件下载到本机。<2>本机通过远程连接连接win7虚拟机。连接成功后直接复制软件粘贴到win7。（2）利用SecureCRT登录四台虚拟机。添加域名解析ping 外网关闭防火墙...

luog007

3051人浏览 · 2022-03-14 23:06:04

luog007 · 2022-03-14 23:06:04 发布

本章将在上一章搭建的虚拟机上进行搭建。

一、准备工作

(1)软件准备

（2）利用SecureCRT登录四台虚拟机。

（2）将master虚拟机上安装的JDK以及环境配置文件分发到从节点

四、安装hadoop

(1）、

(2)、配置hadoop环境变量

(3)配置hadoop环境配置文件 - hadoop-env.sh

（4）配置核心配置文件 core-site.xml

（5）配置文件 - hdfs-site.xml

（6）复制模板，配置文件 mapred-site.xml

（7）配置文件 - yarn-site.xml

(8)编辑slaves文件（定名分）

(9)将master虚拟机上的hadoop分发到从节点（以slave01为例）

（10）在master虚拟机上格式化名称节点

（11）启动与关闭Hadoop集群

（12）查看hadoop集群的WebUI界面

五、安装配置Spark Standalone模式的集群

（1）

(2)编辑spark环境配置文件 - spark-env.sh

(3)从节点上安装配置Spark(slave01为例)

<1>把master虚拟机上的spark安装目录分发给slave1虚拟机

<2>在slave1虚拟机上让spark环境配置文件生效

(4)

（5）访问Spark的WebUI

一、准备工作

(1)软件准备

<1>将hadoop、jdk和spark软件下载到本机。

<2>本机通过远程连接连接win7虚拟机。连接成功后直接复制软件粘贴到win7。

（2）利用SecureCRT登录四台虚拟机。

添加域名解析

ping 外网

关闭防火墙

修改主机名

关闭SeLinux安全机制

以上在从节点也要配置。

（3）设置免密登录

<1>配置ip-主机名映射

打开交互窗口(多窗口执行统一命令)

输入命令回车

逐个修改

<2>生成公钥

一直回车

分发公钥

同理将公钥分发给从节点

（4）安装lrzsz

执行命令：yum -y install lrzsz

三、安装jdk

（1.）在master上安装配置jdk

转移安装包

执行 tar -zxvf jdk-8u231-linux-x64.tar.gz -C /usr/local 解压到/usr/local

执行命令：vim /etc/profile，配置环境变量

执行以下命令使配置生效，并查看java版本

（2）将master虚拟机上安装的JDK以及环境配置文件分发到从节点

分发jdk（以slave01为例）

查看成功与否

分发环境配置文件

执行命令：source /etc/profile，让配置生效

查看jdk版本

同理完成其他从节点

四、安装hadoop

(1）、

利用rz命令上传hadoop-2.7.1.tar.gz

执行命令：tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local解压到/usr/local

(2)、配置hadoop环境变量

执行命令：vim /etc/profile

执行命令：source /etc/profile，让配置生效

(3)配置hadoop环境配置文件 - hadoop-env.sh

进入hadoop配置目录

执行命令：vim hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_231

export HADOOP_HOME=/usr/local/hadoop-2.7.1

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

执行命令source hadoop-env.sh，让配置生效

查看三个配置的三个环境变量

（4）配置核心配置文件 core-site.xml

执行命令：vim core-site.xml

<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.7.1/tmp</value>
</property>
</configuration>

（5）配置文件 - hdfs-site.xml

执行命令：vim hdfs-site.xml

（6）复制模板，配置文件 mapred-site.xml

执行命令：cp mapred-site.xml.template mapred-site.xml

执行命令：vim mapred-site.xml

（7）配置文件 - yarn-site.xml

执行命令：vim yarn-site.xml

<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>