Spark的配置和启动

准备工作:

安装Spark集群前,需要安装Hadoop环境,我们采用如下配置环境。

•Linux系统:CentOS_7的任意版本 ,因为6.几的版本现在停止维护了

•Hadoop:2.7.4版本

•JDK:1.8版本

•Spark:2.3.2版本

第一步,官网下载spark:

还要有三天虚拟机:VMware Workstation CentOS7.x

192,168.245.221 node (Master)

192,168.245.222 node (Worker)

192,168.245.223 node (Worker)

上传软件:WinSCP ,putty,XShell

在这里插入图片描述

我们一般用的是Spark的旧版本,最新版本是公司和测试人员用的,这里我们下载的是spark-2.3.2-hadoop

下面我们用winonds和虚拟机传输工具,传输spark下载包,也可以使用 rz命令去上传到虚拟机上。

在这里插入图片描述

首先将下载的spark-2.3.2-bin-hadoop2.7.tgz安装包上传到主节点hadoop01

的/export/software目录下,然后解压到/export/servers/目录,解压命令如下

tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C /export/server/

解压之后我们可以在自己解压的/export/server/查看一下有没有解压好的的软件包:

在这里插入图片描述

我们用:

mv spark-2.3.2-bin-hadoop2.7  spark   将软件包命名为spark更加方便
下面我们配置环境变量:
vi/etc/profile

export SPARK_HOME=/export/server/spark  #这个后面我们用重新命名的spark
export PATH=$PATH:$SPARK_HOME/bin

注意:我们这个要使环境变量生效:

source /etc/profile

下面我们修改spark-env.sh文件,因为没有这个文件,都是到spark的conf目录下面找到spark-env.sh文件重新命名改成spark-env.sh

#第一步:我们cd到spark目录下的conf目录
 cd /export/server/spark/conf/
我们ll查看命令,可以看到我们要找的spark-env.sh.template文件

再复制一份并且重新命名:
cp spark-env.sh.template spark-env.sh

进入编辑模式:

vi spark-env.sh
添加下面的内容:
#配置java环境变量
export JAVA_HOME=/export/servers/jdk
#指定Master的IP
export SPARK_MASTER_HOST=hadoop01
#指定Master的端口
export SPARK_MASTER_PORT=7077

下面我们进入slaves.template

复制一份并且重新命名:
添加其他2台虚拟机的主机名:

例如:
hadoop1
hadoop2

我们master节点配置完成,下面我们去分发到其他2个虚拟机:

scp -r  分发命令

scp -r /export/server/spark/ hadoop2:/export/server/
scp -r /export/server/spark/ hadoop2:/export/server/

启动Spark集群:

在spark目录下启动集群:
sbin/start-all.sh
出现如下进程成功启动集群:

在这里插入图片描述

我们也可以到谷歌浏览器查看集群是否启动:

在浏览器上输入:

主机名:8080

在这里插入图片描述

成功启动:

体验第一个Spark程序:计算圆周率

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://hadoop01:7077 --executor-memory 1G --total-executor-cores 1 examples/jars/spark-examples_2.11-2.3.2.jar 10

在这里插入图片描述

在网页查看:

在这里插入图片描述

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐