Spark的配置和启动
Spark的配置和启动文章目录Spark的配置和启动准备工作:下面我们配置环境变量:出现如下进程成功启动集群:准备工作:安装Spark集群前,需要安装Hadoop环境,我们采用如下配置环境。•Linux系统:CentOS_7的任意版本 ,因为6.几的版本现在停止维护了•Hadoop:2.7.4版本•JDK:1.8版本•Spark:2.3.2版本第一步,官网下载spark:还要有三天虚拟机:VMwa
Spark的配置和启动
准备工作:
安装Spark集群前,需要安装Hadoop环境,我们采用如下配置环境。
•Linux系统:CentOS_7的任意版本 ,因为6.几的版本现在停止维护了
•Hadoop:2.7.4版本
•JDK:1.8版本
•Spark:2.3.2版本
第一步,官网下载spark:
还要有三天虚拟机:VMware Workstation CentOS7.x
192,168.245.221 node (Master)
192,168.245.222 node (Worker)
192,168.245.223 node (Worker)
上传软件:WinSCP ,putty,XShell
我们一般用的是Spark的旧版本,最新版本是公司和测试人员用的,这里我们下载的是spark-2.3.2-hadoop
下面我们用winonds和虚拟机传输工具,传输spark下载包,也可以使用 rz命令去上传到虚拟机上。
首先将下载的spark-2.3.2-bin-hadoop2.7.tgz安装包上传到主节点hadoop01
的/export/software目录下,然后解压到/export/servers/目录,解压命令如下
tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C /export/server/
解压之后我们可以在自己解压的/export/server/查看一下有没有解压好的的软件包:
我们用:
mv spark-2.3.2-bin-hadoop2.7 spark 将软件包命名为spark更加方便
下面我们配置环境变量:
vi/etc/profile
export SPARK_HOME=/export/server/spark #这个后面我们用重新命名的spark
export PATH=$PATH:$SPARK_HOME/bin
注意:我们这个要使环境变量生效:
source /etc/profile
下面我们修改spark-env.sh文件,因为没有这个文件,都是到spark的conf目录下面找到spark-env.sh文件重新命名改成spark-env.sh
#第一步:我们cd到spark目录下的conf目录
cd /export/server/spark/conf/
我们ll查看命令,可以看到我们要找的spark-env.sh.template文件
再复制一份并且重新命名:
cp spark-env.sh.template spark-env.sh
进入编辑模式:
vi spark-env.sh
添加下面的内容:
#配置java环境变量
export JAVA_HOME=/export/servers/jdk
#指定Master的IP
export SPARK_MASTER_HOST=hadoop01
#指定Master的端口
export SPARK_MASTER_PORT=7077
下面我们进入slaves.template
复制一份并且重新命名:
添加其他2台虚拟机的主机名:
例如:
hadoop1
hadoop2
我们master节点配置完成,下面我们去分发到其他2个虚拟机:
scp -r 分发命令
scp -r /export/server/spark/ hadoop2:/export/server/
scp -r /export/server/spark/ hadoop2:/export/server/
启动Spark集群:
在spark目录下启动集群:
sbin/start-all.sh
出现如下进程成功启动集群:
我们也可以到谷歌浏览器查看集群是否启动:
在浏览器上输入:
主机名:8080
成功启动:
体验第一个Spark程序:计算圆周率
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://hadoop01:7077 --executor-memory 1G --total-executor-cores 1 examples/jars/spark-examples_2.11-2.3.2.jar 10
在网页查看:
更多推荐
所有评论(0)