我发送了一个sparkR作业,在cluster mode
中使用./bin/spark-submit
脚本在Yarn群集上运行。我需要通过--file
选项上传文件(外部数据集)。此操作将文件上载到HDFS tempory目录。但我需要访问下载文件的路径,将其直接包含在我的SparkR代码中。
对于java和PySpark,使用--files分发的文件可以通过SparkFiles.get(filename)
方法访问,该方法返回filename
的绝对路径。 SparkR中是否有相应的内容?
我知道我们可以通过不同方式解决问题:
但我想出于方便的原因使用此选项。