Spark-submit命令的内存参数

时间:2016-11-03 18:17:58

标签: apache-spark memory-management spark-submit

如何为spark-submit命令计算最佳内存设置?

我从Oracle中带来4.5 GB的数据并执行一些转换,例如使用Hive表连接并将其写回Oracle。我的问题是如何使用最佳内存参数来提出spark-submit命令。

spark-submit --master yarn-cluster --driver-cores 2 \
--driver-memory 2G --num-executors 10 \
--executor-cores 5 --executor-memory 2G \
--class com.spark.sql.jdbc.SparkDFtoOracle2 \
Spark-hive-sql-Dataframe-0.0.1-SNAPSHOT-jar-with-dependencies.jar

如何计算,驱动程序内存应该是什么,需要多少驱动程序/执行程序内存,需要多少内核等?

1 个答案:

答案 0 :(得分:1)

一般来说,这是一个没有银弹答案的复杂问题。最佳选择不仅取决于您的数据特征和操作类型,还取决于系统行为(Spark优化器等)。可以找到一些有用的提示here