我有一个应用程序每天或每小时或者随机地向S3写入数据,另一个应用程序将数据从S3读取到本地HBase。有没有办法告诉上次更新上传的最后一个文件是什么,然后在那之后读取文件,换句话说,逐步复制文件?
例如: 第1天:App1将文件1,2,3写入文件夹1; App2将这3个文件读取到HBase; 第4天:App1写文件4& 5到文件夹1,6,7,8到文件夹2; App2需要从文件夹1读取4& 5,然后从文件夹2读取6,7,8。
感谢
答案 0 :(得分:0)
LastModified标头字段可用于根据创建日期处理数据。这需要客户端上的内置逻辑,其存储已经处理的项目和新项目。您可以简单地存储您处理的日期,以便将其视为新的。
示例:
s3cmd ls s3://test
2012-07-24 18:29 36303234 s3://test/dl.pdf
查看文件前面的日期。