将文件从S3逐步复制到本地hdfs

时间:2012-07-24 17:20:04

标签: amazon-s3

我有一个应用程序每天或每小时或者随机地向S3写入数据,另一个应用程序将数据从S3读取到本地HBase。有没有办法告诉上次更新上传的最后一个文件是什么,然后在那之后读取文件,换句话说,逐步复制文件?

例如: 第1天:App1将文件1,2,3写入文件夹1; App2将这3个文件读取到HBase; 第4天:App1写文件4& 5到文件夹1,6,7,8到文件夹2; App2需要从文件夹1读取4& 5,然后从文件夹2读取6,7,8。

感谢

1 个答案:

答案 0 :(得分:0)

LastModified标头字段可用于根据创建日期处理数据。这需要客户端上的内置逻辑,其存储已经处理的项目和新项目。您可以简单地存储您处理的日期,以便将其视为新的。

示例:

s3cmd ls s3://test
2012-07-24 18:29  36303234   s3://test/dl.pdf

查看文件前面的日期。