在亚马逊EMR上运行HBase时,为什么/ tmp文件夹与实际数据相比是巨大的?

时间:2012-09-17 13:37:53

标签: hadoop hbase amazon-emr

我们在亚马逊EMR上使用默认配置的hadoop + hbase群集,因此mapred.child.tmphbase.tmp.dir都指向/tmp。我们的群集已运行一段时间,现在/tmp为500Gb,而实际/hbase数据为70Gb。

这种差异似乎太大了,我们是否应该定期删除一些/tmp数据?

1 个答案:

答案 0 :(得分:1)

经过一番调查后,我发现我们/tmp数据的最大部分是由亚马逊自动备份Hbase到S3期间失败的mapreduce任务创建的。我们成功的mapreduce任务不会在/tmp中留下太多数据。

我们决定禁用亚马逊的自动备份,并使用Hbase工具实现我们自己的备份脚本,以便导入/导出表格。