Spark、Hadoop大数据平台搭建

Spark、Hadoop大数据平台搭建，推荐使用VMWare虚拟机安装。首先，需要依次安装以下应用：Spark，Scala，Hadoop，Java，Zookeeper。

KevinAha

1141人浏览 · 2018-12-24 18:41:07

KevinAha · 2018-12-24 18:41:07 发布

下载安装包

Spark

分布式计算

spark-2.3.2-bin-hadoop2.7，安装包大小：220M

支持Hadoop 2.7以后的版本

Scala

Scala环境，Spark的开发语言

scala-2.12.8.tgz，安装包大小：20M

Hadoop

分布式存储（计算）

hadoop-2.7.7.tar.gz，安装包大小：209M

Java

Java环境

Java SE Development Kit 8u192，安装包大小：187M

ZooKeeper

注册中心

zookeeper-3.4.13.tar.gz，安装包大小：36M

配置

首先需要配置环境变量

环境变量

打开并编辑~/.bashrc文件，在末尾添加以下内容：

# java
JAVA_HOME=/opt/jdk1.8.0_192
export PATH=$PATH:$JAVA_HOME/bin

# hadoop
HADOOP_HOME=/opt/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin

# zookeeper
ZOOKEEPER_HOME=/opt/zookeeper-3.4.13
export PATH=$PATH:$ZOOKEEPER_HOME/bin

# scala
SCALA_HOME=/opt/scala-2.12.8
export PATH=$PATH:$SCALA_HOME/bin

# spark
SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

Host

这里需要设置Host，一个是Hadoop的Name-Node、Data-Node，一个spark的Master、Worker。

# hadoop
192.168.1.151 name-node
192.168.1.155 data-node-sa
192.168.1.156 data-node-sb
192.168.1.157 data-node-sc

spark

conf/slaves

worker-sa
worker-sb
worker-sc

待补充。。。

hadoop

etc/hadoop/slaves

data-node-sa
data-node-sb
data-node-sc

Python3安装

安装pyspark

cd /opt/spark-2.3.2-bin-hadoop2.7/python && python36 setup.py install

安装numpy

pip3 install numpy -i https://pypi.mirrors.ustc.edu.cn/simple/ --trusted-host pypi.mirrors.ustc.edu.cn

启动&停止

hadoop

sbin/start-all.sh
sbin/stop-all.sh

spark

sbin/start-all.sh
sbin/stop-all.sh

执行任务

提交任务

spark-submit --master spark://name-node:7077 --executor-memory 512m --total-executor-cores 2 client.py

几个管理页

Spark

http://name-node:8080/
http://name-node:4040/（执行任务时有效）

Hadoop

http://name-node:8088/
http://name-node:50070/（可查看集群内的文件列表）

测试数据

http://files.grouplens.org/datasets/movielens/
http://files.grouplens.org/datasets/movielens/ml-10m.zip(ratings.dat)

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

cover

解析openGauss账本数据库

华为开发者空间

cover

GaussDB高智能--库内AI引擎：模型管理&数据集管理

华为开发者空间

cover

GaussDB高智能--库内AI引擎：机器学习算法的训练和推理

华为开发者空间

所有评论(0)

查看更多评论

KevinAha

已为社区贡献4条内容