我的日志在s3中看起来如下所示,名称中带有时间戳。我想使用s3distcp将数据导入EMR,以便我可以使用配置单元。
https://s3.amazonaws.com/mybucket/test/201305031003_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031004_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031005_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031006_0_ubuntu.gz
如何使用s3distcp选择日期范围?例如。从201303031003到201305031003?那是两个月的差异
答案 0 :(得分:1)
您可以使用--srcPattern s3distcp option指定正则表达式,仅选择要复制的月份。
答案 1 :(得分:0)
另一个选项是使用--srcPrefixesFile
参数来指定要复制/移动的所有对象。
这涉及到生成此列表的附加步骤,但是如果要在运行s3distcp
步骤之前对其进行测试,则这是一种更安全的方法。