我们如何设置apache spark应用程序的执行参数

时间:2017-05-02 05:29:23

标签: apache-spark

我们已经设置了一个多节点集群,用于测试具有4个节点的Spark应用程序。 每个节点有250GB RAM,48个内核。 在一个节点上运行master,在slave上运行3个。

我们使用scala开发了一个spark应用程序。 我们使用spark-submit选项来运行作业。 现在,我们已经达到了这一点,需要进一步澄清才能继续下去。

查询1: 哪个是运行火花工作的最佳选择。 a)Spark作为主人 b)纱线作为主人 和差异。

查询2: 在运行任何spark任务时,我们可以提供执行器数量,内核数,执行程序内存等选项。

请问您能告诉我们这些参数的最佳值,以便在我的情况下获得更好的性能。

非常感谢任何帮助,因为对于以Spark开头的人来说会有所帮助:)

感谢。!!

1 个答案:

答案 0 :(得分:0)

Query1:YARN是一个更好的资源管理器,支持比Spark Master更多的功能。您可以访问更多 Apache Spark Cluster Managers

Query2:您只能在作业初始化时分配资源。有命令行标志可用。此外,如果您不希望通过spark-submit传递命令行标志,则可以在代码中创建spark配置时设置它们。 您可以使用查看可用的标志 spark-submit --help

有关更多信息,请访问Spark Configuration

选择资源主要取决于您要处理的数据大小和问题的复杂性。

请访问5 mistakes to avoid while writng spark applications