我有以下要求。我将日期数据添加到HDFS中的特定目录,我需要保留最后3组的备份,并删除其余的。有没有办法为目录设置TTL,以便数据在一定天数后自动消失?
如果没有,有没有办法达到类似的效果?
答案 0 :(得分:0)
此功能尚未在HDFS上提供。
创建了一个支持此功能的JIRA票证:https://issues.apache.org/jira/browse/HDFS-6382
但是,修复程序尚未推出。
您需要使用cron作业来处理它。您可以创建一个作业(这可能是一个简单的Shell,Perl或Python脚本),它会定期删除早于某个预配置时间段的数据。
这项工作可以:
使用脚本可以轻松实现。