我正在寻找如何使用Java将具有资源依赖性文件的文件夹从HDFS复制到每个spark执行器的本地工作目录。
我起初在考虑使用spark-submit的--files FILES选项,但它似乎不支持任意嵌套文件的文件夹。因此,似乎我必须通过将此文件夹放在共享HDFS路径上,以便在运行作业之前由每个执行程序正确地复制到其工作目录,但尚未找到如何在Java代码中正确执行此操作。
或者zip / gzip / archive这个文件夹,把它放在共享的HDFS路径上,然后将存档分解到每个Spark执行器的本地工作目录。
感谢任何帮助或代码示例。
这是配置文件的一个文件夹,它们是计算机的一部分,应该与spark-submit主jar共存(例如,数据库文件,jar代码在运行作业时使用,但遗憾的是我无法更改依赖,因为我正在重用现有的代码)。
此致 -Yuriy