Spark在每个节点上创建一个临时目录结构

时间:2018-08-17 03:38:51

标签: apache-spark

我正在研究使用第三方库的Spark Java包装器,该包装器将从作业执行的位置从硬编码的目录名(称为“ resdata”)读取文件。我知道这是扭曲的,但会尝试解释。 当我执行作业时,它试图在路径中找到所需的文件,如下所示, / data / Hadoop / yarn / local // appcache / application_xxxxx_xxx / container_00_xxxxx_xxx / resdata 我假设它正在查找当前数据目录中的文件,在该目录下查找目录名称“ resdata”。此时,我不知道如何将当前目录配置为hdfs或本地上的任何路径。 因此,寻找与第三方库期望的目录结构类似的选项并在其中复制所需文件。我需要在每个节点上执行此操作。我正在使用Spark 2.2.0 请帮助我实现这一目标?

1 个答案:

答案 0 :(得分:0)

现在我已经得到了答案,我需要将所有文件放在resdata目录下,并将其压缩为restdata.zip,使用选项“ --archives”传递文件。然后,每个节点将具有目录restdata.zip/restdata/file1等