Spark、Hadoop大数据平台搭建
Spark、Hadoop大数据平台搭建,推荐使用VMWare虚拟机安装。首先,需要依次安装以下应用:Spark,Scala,Hadoop,Java,Zookeeper。
下载安装包
Spark
分布式计算
spark-2.3.2-bin-hadoop2.7,安装包大小:220M
支持Hadoop 2.7以后的版本
Scala
Scala环境,Spark的开发语言
scala-2.12.8.tgz,安装包大小:20M
Hadoop
分布式存储(计算)
hadoop-2.7.7.tar.gz,安装包大小:209M
Java
Java环境
Java SE Development Kit 8u192,安装包大小:187M
ZooKeeper
注册中心
zookeeper-3.4.13.tar.gz,安装包大小:36M
配置
首先需要配置环境变量
环境变量
打开并编辑~/.bashrc
文件,在末尾添加以下内容:
# java
JAVA_HOME=/opt/jdk1.8.0_192
export PATH=$PATH:$JAVA_HOME/bin
# hadoop
HADOOP_HOME=/opt/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin
# zookeeper
ZOOKEEPER_HOME=/opt/zookeeper-3.4.13
export PATH=$PATH:$ZOOKEEPER_HOME/bin
# scala
SCALA_HOME=/opt/scala-2.12.8
export PATH=$PATH:$SCALA_HOME/bin
# spark
SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
Host
这里需要设置Host,一个是Hadoop的Name-Node、Data-Node,一个spark的Master、Worker。
# hadoop
192.168.1.151 name-node
192.168.1.155 data-node-sa
192.168.1.156 data-node-sb
192.168.1.157 data-node-sc
spark
conf/slaves
worker-sa
worker-sb
worker-sc
待补充 。。。
hadoop
etc/hadoop/slaves
data-node-sa
data-node-sb
data-node-sc
Python3安装
安装pyspark
cd /opt/spark-2.3.2-bin-hadoop2.7/python && python36 setup.py install
安装numpy
pip3 install numpy -i https://pypi.mirrors.ustc.edu.cn/simple/ --trusted-host pypi.mirrors.ustc.edu.cn
启动&停止
hadoop
sbin/start-all.sh
sbin/stop-all.sh
spark
sbin/start-all.sh
sbin/stop-all.sh
执行任务
提交任务
spark-submit --master spark://name-node:7077 --executor-memory 512m --total-executor-cores 2 client.py
几个管理页
Spark
http://name-node:8080/
http://name-node:4040/(执行任务时有效)
Hadoop
http://name-node:8088/
http://name-node:50070/(可查看集群内的文件列表)
测试数据
http://files.grouplens.org/datasets/movielens/
http://files.grouplens.org/datasets/movielens/ml-10m.zip(ratings.dat)
更多推荐
所有评论(0)