相似火花配置之间的区别

时间:2020-06-18 12:11:57

标签: apache-spark yarn

我对某些类似的火花配置感到困惑...

我调查了主要的参考链接为https://spark.apache.org/docs/latest/configuration.htmlhttps://spark.apache.org/docs/latest/running-on-yarn.html

但是我仍然对这些配置感到困惑...

有人可以帮助我找出主要区别吗?

非常感谢!

1。 spark.yarn.jarsspark.jars

spark.yarn.jars和spark.jars有什么区别?

哪个配置与--jars相同?

  • spark.yarn.jars:包含要分发到YARN容器的Spark代码的库列表。默认情况下,YARN上的Spark将使用本地安装的Spark jar,但是Spark jar也可以位于HDFS上的世界可读位置。这使YARN可以将其缓存在节点上,因此无需在每次运行应用程序时将其分发。例如,要指向HDFS上的jar,请将此配置设置为hdfs:/// some / path。允许使用globs。

  • spark.jars:以逗号分隔的jar列表,​​包括在驱动程序和执行程序类路径中。允许使用globs。

2。 spark.yarn.dist.archivesspark.yarn.archive

spark.yarn.dist.archives与spark.yarn.archive有什么区别?

哪些配置与--archives相同?

  • spark.yarn.dist.archives:用逗号分隔的归档列表,将其提取到每个执行程序的工作目录中。

  • spark.yarn.archive:一个存档,其中包含分发到YARN缓存所需的Spark jar。如果设置,则此配置将替换spark.yarn.jars,并且存档将在所有应用程序容器中使用。归档文件应在其根目录中包含jar文件。与以前的选项一样,存档文件也可以托管在HDFS上,以加快文件分发速度。

3。 spark.yarn.dist.filesspark.files

spark.yarn.dist.files和spark.files有什么区别?

哪些配置与--files相同?

  • spark.yarn.dist.files:用逗号分隔的文件列表,将其放置在每个执行程序的工作目录中。

  • spark.files:用逗号分隔的文件列表,将其放置在每个执行程序的工作目录中。允许使用globs。

0 个答案:

没有答案