如何使用s3distcp选择日期范围?

时间:2013-05-04 05:42:51

标签: amazon-s3 hive amazon-emr emr

我的日志在s3中看起来如下所示,名称中带有时间戳。我想使用s3distcp将数据导入EMR,以便我可以使用配置单元。

https://s3.amazonaws.com/mybucket/test/201305031003_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031004_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031005_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031006_0_ubuntu.gz

如何使用s3distcp选择日期范围?例如。从201303031003到201305031003?那是两个月的差异

2 个答案:

答案 0 :(得分:1)

您可以使用--srcPattern s3distcp option指定正则表达式,仅选择要复制的月份。

答案 1 :(得分:0)

另一个选项是使用--srcPrefixesFile参数来指定要复制/移动的所有对象。

这涉及到生成此列表的附加步骤,但是如果要在运行s3distcp步骤之前对其进行测试,则这是一种更安全的方法。