标签: amazon-web-services hadoop amazon-s3 filesystems hdfs
我有一个要从HDFS移动文件的要求,该文件在最近10天内没有被修改到Amazon S3。
为什么我们不直接写到Amazon S3,因为S3没有附加操作,我们希望一直附加到文件,直到我们有与同一文件关联的数据为止。
为什么要将数据从S3移到HDFS,我们打算在2个月内创建约12亿个文件,而HDFS无法处理这种规模,NameNode成为瓶颈。
所以问题是HDFS中是否有任何API可以给我提供10天前修改过的文件名或目录名?