我对某些类似的火花配置感到困惑...
我调查了主要的参考链接为https://spark.apache.org/docs/latest/configuration.html和https://spark.apache.org/docs/latest/running-on-yarn.html。
但是我仍然对这些配置感到困惑...
有人可以帮助我找出主要区别吗?
非常感谢!
1。 spark.yarn.jars
与spark.jars
spark.yarn.jars和spark.jars有什么区别?
哪个配置与--jars
相同?
spark.yarn.jars:包含要分发到YARN容器的Spark代码的库列表。默认情况下,YARN上的Spark将使用本地安装的Spark jar,但是Spark jar也可以位于HDFS上的世界可读位置。这使YARN可以将其缓存在节点上,因此无需在每次运行应用程序时将其分发。例如,要指向HDFS上的jar,请将此配置设置为hdfs:/// some / path。允许使用globs。
spark.jars:以逗号分隔的jar列表,包括在驱动程序和执行程序类路径中。允许使用globs。
2。 spark.yarn.dist.archives
与spark.yarn.archive
spark.yarn.dist.archives与spark.yarn.archive有什么区别?
哪些配置与--archives
相同?
spark.yarn.dist.archives:用逗号分隔的归档列表,将其提取到每个执行程序的工作目录中。
spark.yarn.archive:一个存档,其中包含分发到YARN缓存所需的Spark jar。如果设置,则此配置将替换spark.yarn.jars,并且存档将在所有应用程序容器中使用。归档文件应在其根目录中包含jar文件。与以前的选项一样,存档文件也可以托管在HDFS上,以加快文件分发速度。
3。 spark.yarn.dist.files
与spark.files
spark.yarn.dist.files和spark.files有什么区别?
哪些配置与--files
相同?
spark.yarn.dist.files:用逗号分隔的文件列表,将其放置在每个执行程序的工作目录中。
spark.files:用逗号分隔的文件列表,将其放置在每个执行程序的工作目录中。允许使用globs。