将数据从HDFS移至Amazon S3

时间:2019-04-03 19:45:29

标签: amazon-web-services hadoop amazon-s3 filesystems hdfs

我有一个要从HDFS移动文件的要求,该文件在最近10天内没有被修改到Amazon S3。

为什么我们不直接写到Amazon S3,因为S3没有附加操作,我们希望一直附加到文件,直到我们有与同一文件关联的数据为止。

为什么要将数据从S3移到HDFS,我们打算在2个月内创建约12亿个文件,而HDFS无法处理这种规模,NameNode成为瓶颈。

所以问题是HDFS中是否有任何API可以给我提供10天前修改过的文件名或目录名?

0 个答案:

没有答案