我对aws和s3都很陌生,如果这看起来像我没有尝试任何东西那么原谅。我想遍历目录和文件,读取文件并从公共可访问的s3存储桶中检索特定行:s3://cgl-rnaseq-recompute-fixed/
而不下载它。我希望能够对文件内容执行grep/cat
等基本任务。
例如我应该能够从s3存储桶上的所有文件和文件夹中获取包含MYCN
的行。
最有效的方法是什么? R / Python中的软件包是否可以帮助遍历s3存储桶?
谢谢!
答案 0 :(得分:0)
http://boto.readthedocs.io/en/latest/s3_tut.html
conn = boto.s3.connection.S3Connection(
aws_access_key_id='xxx',
aws_secret_access_key='yyy'
)
for key in conn.list(prefix='logs/*.log'):
print key