SparkR - AWS挂载存储桶的文件列表

时间:2017-09-13 07:40:36

标签: directory sparkr

我刚开始使用Spark R.在Databricks中安装了一个aws.s3存储桶。

我想使用list.files()或dir()列出名称中包含特定模式的文件。但是,我无法检测到它的路径。我可以用sparkr :: read.df读取一个文件,但是我不知道如何找到我对这个桶感兴趣的几千个文件?

非常感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

有多种方法可以做到这一点。有一个叫做aws.s3的R包可以帮助你解决这个问题:https://github.com/cloudyr/aws.s3

或者,如果您安装了aws命令行工具,则可以通过内部system从R中调用它。您可以在调用中包含grep并执行类似

listOfBucketsWithABCpattern<- system("aws s3 ls | grep abc", intern=TRUE)

只是澄清一下,这不是SparkR问题,而是R问题和AWS Command Line Interface问题。

希望这会有所帮助。干杯!