有没有办法为HDFS中的某些目录设置TTL?

时间:2016-01-06 04:49:03

标签: hadoop hdfs ttl

我有以下要求。我将日期数据添加到HDFS中的特定目录,我需要保留最后3组的备份,并删除其余的。有没有办法为目录设置TTL,以便数据在一定天数后自动消失?

如果没有,有没有办法达到类似的效果?

1 个答案:

答案 0 :(得分:0)

此功能尚未在HDFS上提供。

创建了一个支持此功能的JIRA票证:https://issues.apache.org/jira/browse/HDFS-6382

但是,修复程序尚未推出。

您需要使用cron作业来处理它。您可以创建一个作业(这可能是一个简单的Shell,Perl或Python脚本),它会定期删除早于某个预配置时间段的数据。

这项工作可以:

  • 定期运行(例如每小时一次或每天一次)
  • 获取需要检查的文件夹或文件列表及其TTL作为输入
  • 删除任何早于指定TTL的文件或文件夹。

使用脚本可以轻松实现。