了解Spark提交纱线客户端与群集模式

时间:2018-05-14 15:18:51

标签: apache-spark hadoop yarn

在我的用例中,在将应用程序作为spark-submit --master yarn --deploy-mode客户端提交时,作业运行正常。但是,当提交相同的spark-submit --master yarn --deploy-mode集群时,作业无法启动。

val conf = new SparkConf().setAppName("sample")
val sc = new SparkContext(conf)
val lines = sc.textFile("filepath")

据我所知,我需要将SparkSession与Spark版本> 2.0一起使用。然而,这可能是导致问题的唯一区别。我正在使用EMR来运行代码,配置

师父:1 核心:5个节点

通过一些博客/网站阅读的一些问题看起来无论Spark的提交模式如何以及驱动程序在两种提交模式下启动的事实都可以使用群集。但是,我似乎并不了解方法的确切差异。可以提供一些帮助,以了解什么真正减慢了执行速度,当"客户"使用模式与" cluster"。

相比

0 个答案:

没有答案