我需要提取在HDFS文件系统中特定时间段之后创建的目录。 Hadoop是否提供了任何API或方法来实现这一目标?
答案 0 :(得分:1)
如果上次修改时间足够(Unix does not track creation times, see e.g. this post),则以下内容可能有所帮助。
使用API,您可以询问或file status并致电getModificationTime。
使用命令行,您可以在Hadoop 2.7中使用hadoop fs -ls -R -t .
列出所有文件并按修改时间对其进行排序。在以前的版本中,此排序不可用。此外,解析ls
的输出并不总是一件好事,如this post中所述。
答案 1 :(得分:1)
排序是以前版本的Hadoop 2.7中的唯一选项。请参阅以下示例:
hadoop fs -ls /tmp | sort -k6,7