应用错误收集

SparkR - AWS挂载存储桶的文件列表

时间：2017-09-13 07:40:36

标签： directory sparkr

我刚开始使用Spark R.在Databricks中安装了一个aws.s3存储桶。

我想使用list.files（）或dir（）列出名称中包含特定模式的文件。但是，我无法检测到它的路径。我可以用sparkr :: read.df读取一个文件，但是我不知道如何找到我对这个桶感兴趣的几千个文件？

非常感谢您的帮助！

1 个答案:

答案 0 :(得分：0)

有多种方法可以做到这一点。有一个叫做aws.s3的R包可以帮助你解决这个问题：https://github.com/cloudyr/aws.s3

或者，如果您安装了aws命令行工具，则可以通过内部system从R中调用它。您可以在调用中包含grep并执行类似

listOfBucketsWithABCpattern<- system("aws s3 ls | grep abc", intern=TRUE)

只是澄清一下，这不是SparkR问题，而是R问题和AWS Command Line Interface问题。

希望这会有所帮助。干杯!