无需下载即可读取s3存储桶上的文件内容

时间:2016-08-05 18:34:40

标签: python r amazon-s3

我对aws和s3都很陌生,如果这看起来像我没有尝试任何东西那么原谅。我想遍历目录和文件,读取文件并从公共可访问的s3存储桶中检索特定行:s3://cgl-rnaseq-recompute-fixed/而不下载它。我希望能够对文件内容执行grep/cat等基本任务。

例如我应该能够从s3存储桶上的所有文件和文件夹中获取包含MYCN的行。

最有效的方法是什么? R / Python中的软件包是否可以帮助遍历s3存储桶?

谢谢!

1 个答案:

答案 0 :(得分:0)

http://boto.readthedocs.io/en/latest/s3_tut.html

conn = boto.s3.connection.S3Connection(
        aws_access_key_id='xxx',
        aws_secret_access_key='yyy'
)
for key in conn.list(prefix='logs/*.log'):
    print key