SparkR:如何在yarn-cluster模式下访问使用--files传递的文件

时间:2016-02-23 18:18:34

标签: r apache-spark pyspark sparkr

我发送了一个sparkR作业,在cluster mode中使用./bin/spark-submit脚本在Yarn群集上运行。我需要通过--file选项上传文件(外部数据集)。此操作将文件上载到HDFS tempory目录。但我需要访问下载文件的路径,将其直接包含在我的SparkR代码中。

对于javaPySpark,使用--files分发的文件可以通过SparkFiles.get(filename)方法访问,该方法返回filename的绝对路径。 SparkR中是否有相应的内容?

我知道我们可以通过不同方式解决问题:

  • 将文件手动放入HDFS
  • 在工作节点上部署文件

但我想出于方便的原因使用此选项。

0 个答案:

没有答案