将文件(config)从HDFS复制到每个spark执行器

时间:2017-10-01 17:33:47

标签: java hadoop apache-spark hdfs spark-submit

我正在寻找如何使用Java将具有资源依赖性文件的文件夹从HDFS复制到每个spark执行器的本地工作目录。

我起初在考虑使用spark-submit的--files FILES选项,但它似乎不支持任意嵌套文件的文件夹。因此,似乎我必须通过将此文件夹放在共享HDFS路径上,以便在运行作业之前由每个执行程序正确地复制到其工作目录,但尚未找到如何在Java代码中正确执行此操作。

或者zip / gzip / archive这个文件夹,把它放在共享的HDFS路径上,然后将存档分解到每个Spark执行器的本地工作目录。

感谢任何帮助或代码示例。

这是配置文件的一个文件夹,它们是计算机的一部分,应该与spark-submit主jar共存(例如,数据库文件,jar代码在运行作业时使用,但遗憾的是我无法更改依赖,因为我正在重用现有的代码)。

此致 -Yuriy

0 个答案:

没有答案