Spark单节点安装-VirtualBox-Ubuntu-14.04

在虚拟机VirtualBox的ubuntu中安装spark单节点，步骤详细，适合初学者。

Erik_ly

2324人浏览 · 2016-09-08 15:16:09

Erik_ly · 2016-09-08 15:16:09 发布

实验环境：

Windows版本：Windows 10 家庭版中文版 1607

Virtualbox版本：5.0.22 中文版
Ubuntu版本：ubuntu-14.04.1-server-amd64
Xshell版本：Xshell 5

Spark版本：Spark-1.5.1-bin-hadoop2.6

1.环境准备

1.1 在VirtualBox中安装有Ubuntu-14.04-server版的虚拟机（可以参考：VirtualBox安装Ubuntu-14.04.1-server）。

1.2 装有以下服务：

ssh服务：进行远程连接

$sudo apt-get install openssh-server

vim编辑器：vi的加强版

$sudo apt-get install vim

lrzsz工具：上传和下载程序，rz命令：服务器从宿主机接收（received）文件；sz命令：服务器向宿主机发送（send）文件。

$sudo apt-get install lrzsz

1.3 下载好以下源文件

xshell 5 ：xshell官方下载或 https://yunpan.cn/cMCDTTY5Rb37D 访问密码 d3fe

jdk 1.8版本：jdk官方下载或https://yunpan.cn/cMCUi49u8rR36 访问密码 903c

scala 2.11.7：scala官方下载或 https://yunpan.cn/cMCDcHZavNByT 访问密码 87bd

spark-1.5.1-bin-hadoop2.6: spark官方下载或https://yunpan.cn/cMCD27UiZddLU 访问密码 05c7

以下操作均是使用Xshell连接到系统后操作的，均使用root用户。

2.安装配置jdk

创建存放jdk的文件夹，并上传jdk源文件

#mkdir /usr/lib/jdk
#cd /usr/lib/jdk
#rz

在弹出的对话框中选择刚下载好的jdk源文件jdk-8u91-linux-x64.gz

上传成功后查看文件

解压到当前文件夹

#tar -xzvf jdk-8u91-linux-x64.gz

查看解压后的文件，并修改配置文件

在末尾添加如下代码

#set jdk environment
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_91
export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH  
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

第二行等号后的为jdk的安装目录路径，如果文件夹不同可以使用pwd命令查看后根据实际情况修改。

生效配置文件

#source /etc/profile

查看java版本，如果有如下输入说明jdk已安装成功

至此，jdk配置完成。

3.安装配置scala
切换到/opt/目录，并上传scala源文件：scala-2.11.7.tgz

#cd /opt/
#rz

查看并解压

查看scala版本

出现以上版本信息说明scala已经安装完成。

4.安装Python及Ipython

#sudo apt-get install python ipython -y

查看版本信息

（spark 2.0及以后版本会去除对ipython的支持）

5.安装Spark

切换到/opt/文件夹并上传spark文件，上传成功后解压到当前文件夹

#cd /opt/
#rz
#ls
#tar -zxvf spark-1.5.1-bin-hadoop2.6.tgz

查看解压后的文件

然后配置日志级别，只显示警告以上信息

#cd /opt/spark-1.5.1-bin-hadoop2.6/conf
#cp log4j.properties.template log4j.properties
#vim log4j.properties

修改log4j.rootCategory为WARN, console，可避免测试中输出太多信息

接着基于模板创建配置文件

#sudo cp spark-env.sh.template spark-env.sh
#vim spark-env.sh

末尾加上如下内容，设置spark的环境变量

export SPARK_HOME=/opt/spark-1.5.1-bin-hadoop2.6
export SCALA_HOME=/opt/scala-2.11.7

等号后的内容分别为spark的安装目录和scala的安装目录，若安装路径不同可根据实际安装路径填写。

至此spark已经安装完成，最后执行测试下是否安装成功。

6.测试启动Spark

6.1 启动shell功能

进入spark的bin目录执行spark-shell

#cd /opt/spark-1.5.1-bin-hadoop2.6/bin/
#./spark-shell

退出使用Ctrl+D键。

进入pyspark

#./pyspark

同样可以使用Ctrl+D键退出。

使用IPython

#IPYTHON=1 ./pyspark

仍可用Ctrl+D键退出，spark 2.0后无ipyhton。

6.2 启动spark

启动主节点

#cd /opt/spark-1.5.1-bin-hadoop2.6/sbin/
#ls
#./start-master.sh

在网页端查看

http://192.168.56.101:8080

192.168.56.101为虚拟机ip地址，需根据自己实际ip地址更改，8080为端口号

启动从节点

#./start-slave.sh apark://spark:7077

spark://spark:7077是根据网页上的显示所定，一定要保持一致

启动从节点后刷新网页，会增加Workers Id

说明spark安装成功。

停止所有spark节点服务可以使用

#./stop-all.sh

至此spark已经安装完成，可以进行后续实验了。

参考文章

Spark 大数据动手实验：http://www.jianshu.com/p/27b6589cee32

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

cover

GaussDB技术解读——GaussDB架构介绍（四）

华为开发者空间

cover

一文解读GaussDB(DWS)监控运维诊断优化能力

华为开发者空间

cover

华为云数据仓库专业级开发者认证重磅发布

华为开发者空间

所有评论(0)

查看更多评论

Erik_ly

已为社区贡献4条内容