spark入门【大数据spark】

1. spark简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。2. Spark安装2.1 安装jdk2.2 配置spark官网下载spark安装包官网地址下载地址上传至虚拟机，修改配置文件spark-env.shexport JAVA_HOME=/root/app/langEnv/jdk8export SPARK_MASTE...

码农回忆录

3878人浏览 · 2020-04-07 15:56:13

码农回忆录 · 2020-04-07 15:56:13 发布

1. spark简介

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

2. Spark安装

2.1 安装jdk

2.2 配置spark

官网下载spark安装包
官网地址下载地址
上传至虚拟机，修改配置文件

spark-env.sh

export JAVA_HOME=/root/app/langEnv/jdk8
export SPARK_MASTER_HOST=hadoop-master
export SPARK_MASTER_PORT=7077

slaves

2.3 启动

命令： ./sbin/start-all.sh
jps: Master、worker
web： http://192.168.200.168:8080/

3. spark Hello World

利用spark自带程序计算π的值

命令

./bin/spark-submit --master spark://hadoop-master:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.4.5.jar 100

注意

默认每个executor使用一个G的内存，通过参数–executor-memory xxxmb指定（必须在jar之前）
默认一个任务会使用完所有的cpu核，通过参数–total-executor-cores num 指定

4.Spark-shell

启动本地模式
./bin/spark-shell
集群模式
- 默认他也是一个spark-submit，并且默认占用所有的核以及1G的内存
  ./bin/spark-shell --master spark://hadoop-master:7077
执行wordCount
- 注意：此处我是单机，如果是多机集群则每一个executor得机器上都需要对应的文件

sc.textFile("/root/testData/w.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect

统计hdfs文件夹内所有文件的词频

sc.textFile("hdfs://hadoop-master:9000/words").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

华为云：做厚算力“黑土地”，成就行业AI先锋

华为开发者空间

版本速递 | 华为云Versatile智能体平台新增特性介绍（2025年9月发布）

华为开发者空间

超节点架构创新，开源开放共筑全场景算力底座

华为开发者空间

所有评论(0)

查看更多评论

码农回忆录

@sui_feng_piao_guo

已为社区贡献6条内容