下载安装包

Spark

分布式计算

spark-2.3.2-bin-hadoop2.7,安装包大小:220M

支持Hadoop 2.7以后的版本

Scala

Scala环境,Spark的开发语言

scala-2.12.8.tgz,安装包大小:20M

Hadoop

分布式存储(计算)

hadoop-2.7.7.tar.gz,安装包大小:209M

Java

Java环境

Java SE Development Kit 8u192,安装包大小:187M

ZooKeeper

注册中心

zookeeper-3.4.13.tar.gz,安装包大小:36M

配置

首先需要配置环境变量

环境变量

打开并编辑~/.bashrc文件,在末尾添加以下内容:

# java
JAVA_HOME=/opt/jdk1.8.0_192
export PATH=$PATH:$JAVA_HOME/bin

# hadoop
HADOOP_HOME=/opt/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin

# zookeeper
ZOOKEEPER_HOME=/opt/zookeeper-3.4.13
export PATH=$PATH:$ZOOKEEPER_HOME/bin

# scala
SCALA_HOME=/opt/scala-2.12.8
export PATH=$PATH:$SCALA_HOME/bin

# spark
SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

Host

这里需要设置Host,一个是Hadoop的Name-Node、Data-Node,一个spark的Master、Worker。

# hadoop
192.168.1.151 name-node
192.168.1.155 data-node-sa
192.168.1.156 data-node-sb
192.168.1.157 data-node-sc

spark

conf/slaves

worker-sa
worker-sb
worker-sc

待补充 。。。

hadoop

etc/hadoop/slaves

data-node-sa
data-node-sb
data-node-sc

Python3安装

安装pyspark

cd /opt/spark-2.3.2-bin-hadoop2.7/python && python36 setup.py install

安装numpy

pip3 install numpy -i https://pypi.mirrors.ustc.edu.cn/simple/ --trusted-host pypi.mirrors.ustc.edu.cn

启动&停止

hadoop

sbin/start-all.sh
sbin/stop-all.sh

spark

sbin/start-all.sh
sbin/stop-all.sh

执行任务

提交任务

spark-submit --master spark://name-node:7077 --executor-memory 512m --total-executor-cores 2 client.py

几个管理页

Spark

http://name-node:8080/
http://name-node:4040/(执行任务时有效)

Hadoop

http://name-node:8088/
http://name-node:50070/(可查看集群内的文件列表)

测试数据

http://files.grouplens.org/datasets/movielens/
http://files.grouplens.org/datasets/movielens/ml-10m.zip(ratings.dat)

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐