我刚开始使用Spark R.在Databricks中安装了一个aws.s3存储桶。
我想使用list.files()或dir()列出名称中包含特定模式的文件。但是,我无法检测到它的路径。我可以用sparkr :: read.df读取一个文件,但是我不知道如何找到我对这个桶感兴趣的几千个文件?
非常感谢您的帮助!
答案 0 :(得分:0)
有多种方法可以做到这一点。有一个叫做aws.s3的R包可以帮助你解决这个问题:https://github.com/cloudyr/aws.s3
或者,如果您安装了aws命令行工具,则可以通过内部system
从R中调用它。您可以在调用中包含grep
并执行类似
listOfBucketsWithABCpattern<- system("aws s3 ls | grep abc", intern=TRUE)
只是澄清一下,这不是SparkR
问题,而是R
问题和AWS Command Line Interface
问题。
希望这会有所帮助。干杯!