spark性能调优都有哪些方法

1、常规性能调优：分配资源、并行度。。。等2、JVM调优（Java虚拟机）：JVM相关的参数，通常情况下，如果你的硬件配置、基础的JVM的配置，都ok的话，JVM通常不会造成太严重的性能问题；反而更多的是，在troubleshooting中，JVM占了很重要的地位；JVM造成线上的spark作业的运行报错，甚至失败（比如OOM）。3、shuffle调优（相当重要）：spark在执行grou

韩利鹏

1420人浏览 · 2017-10-30 15:24:15

韩利鹏 · 2017-10-30 15:24:15 发布

1、常规性能调优：分配资源、并行度。。。等

$SPARK_HOME/bin/spark-submit\
--class cn.spark.sparkTest.WC\
--master yarn-client\
--driver-mamory 2G\
--num-excutor 3\
--excutor-mamory 4g
--excutor-cores 3\
--conf ----\
/usr/local/psarkTest-0.0.1-jar-with-dependens.jar\
args*

资源尽可能的分配大，如果资源足够大了，性能跟的上，就没有后面什么事了，后面的事情是在资源不够的情况下才做的，我们应该资源分配放在首位。

2、JVM调优（Java虚拟机）：JVM相关的参数，通常情况下，如果你的硬件配置、基础的JVM的配置，都ok的话，JVM通常不会造成太严重的性能问题；反而更多的是，在troubleshooting中，JVM占了很重要的地位；JVM造成线上的spark作业的运行报错，甚至失败（比如OOM）。

3、shuffle调优（相当重要）：spark在执行groupByKey、reduceByKey等操作时的，shuffle环节的调优。这个很重要。shuffle调优，其实对spark作业的性能的影响，是相当之高！！！经验：在spark作业的运行过程中，只要一牵扯到有shuffle的操作，基本上shuffle操作的性能消耗，要占到整个spark作业的50%~90%。10%用来运行map等操作，90%耗费在两个shuffle操作。groupByKey、countByKey。

4、spark操作调优（spark算子调优，比较重要）：groupByKey，countByKey或aggregateByKey来重构实现。有些算子的性能，是比其他一些算子的性能要高的。foreachPartition替代foreach。如果一旦遇到合适的情况，效果还是不错的。

1、分配资源、并行度、RDD架构与缓存
2、shuffle调优
3、spark算子调优
4、JVM调优、广播大变量。。。

在后面我会进行逐个详细的介绍的。